BioMart

 

2012 年 9 月 7 日 改訂
井上 潤

BioMart は「Biomartは、the Ontario Institute for Cancer Research (OiCR) と the European Bioinformatics Institute (EBI) が共同で開発しているクエリ指向型データ管理システムです」 (統合TV より).Ensembl にも BioMart というデータ検索システムがありますが,こちらの BioMart を移植したものなのだと思います.


ヒト遺伝子の Ensembl ID や正式名称を得る

以下の情報は,佐藤行人さんから教えていただきました.
ここでは,Ensembl ID と遺伝子の正式名称を対応させた表を得ます.Gene ID (ENSG) に対応した情報を得ることができるのかも知れませんが,私は全遺伝子についての情報をダウンロードし,以下に示した Perl スクリプトで新たな表を作成しています (ENSP 番号には対応していません).

1.
BioMart の TopPage から Proceed to Bio Portal を押して BioMart Central Portal に入ります.

2.
DATABASE SEARCH コラムにある Gene annotation から Hugo Gene Nomenclature (HGNC) を選びます.ヒト遺伝子の Annotation は HGNC が良いそうです.

3.
そのまま Filters を押して,さらに Output を押します.

4.
必要な情報にチェックを入れます.試しにここでは,

SYMBOL DATA
Approved Name,
Previous Names,
Name Aliases,
Previous Sympols,
Gene Family Names,

ID DATA

VEGA IDs,
RefSeqIDs,
Accession Numbers

MAPPED DATA

Entrez Gene ID,
Ensembl ID

をチェックします.その後,Results を押して次に進みます.

5.
情報が画面上に出ます.Dawnload data で,情報をテキストファイルとして得ることができます.


Perl script: Ensembl と HGNC から得た情報を合併する

Ensembl の BioMart から得られたファイル (左: 020_Ens_protIDgeneIDgeneName.txt) と HGNC から得られたファイル (右: 020_HGNClist.txt) 間で,同じ ENSG ID が含まれる行を合わせるスクリプトです (2013 年 6 月).

perl 020_EnsHGNCcombiner.pl

020_nsHGNCcombined.tar.gz