BioMart を使って遺伝子ごとのエクソン数を調べる.
2013 年 5 月 21 日 改訂
井上 潤
これは古いバージョンです.より新しい解析方法はこちらをご覧ください.

以下 5 つの Protein ID を例題とします.これらはメダカのタンパク質遺伝子のアミノ酸配列 ID です.遺伝子ごとに配列が最も長い ID を選んでいます.
注意: 一つの遺伝子 (ENSG000XXX) にはいくつかの転写後の配列アミノ酸配列 (ENSP000XXX) が報告されており,Ensembl でもそれぞれエクソンの数は異なります.

ENSORLP00000021438
ENSORLP00000016333
ENSORLP00000024786
ENSORLP00000024551
ENSORLP00000006921

メダカの Dataset を選び,Filters>GENE>ID list limit のタブを Ensembl protein ID にして,上記の ID をペーストします.

* 全タンパク質遺伝子データの結果を得る場合は,Filters>GENE>Gene type のタブを protein_coding にします. 種によっては早いですが,Human などは時間がかかります.

その後,Attribute に

1) Ensembl Protein ID,
2) Exon Rank in Transcript

が入るよう設定を行います.今回は用いませんが,以下の情報も役に立ちます.こちらのようなデータが得られます.

3) Ensembl Exon ID
4) Exon Chr Start: それぞれのエクソンの start ポイント.
5) Exon Chr End: end ポイント.


ここでは,アーカイブから Ensembl65 のデータベースを用いています.このため以下の図では画面の配色が違っています.

Count tab, Results tab を押した後,2 つの Unique results only をチェックして Go を押すと,以下のようなファイルが得られるはずです.テキストファイルはこちらです.

遺伝子ごとに Exon の数が出るのかと思っていましたが,実際には Exon number が羅列されます.このため,その個数でExon の数がわかります.

Ensembl のヘルプデスクに聞きました.数時間で答えが返ってきて助かりました.



大規模データの解析
大量の Protein ID を入力した場合は,BioMart から得られた結果を Perl で数える必要があります.スクリプトを書きました (2013 年 4 月).
exonCounterFromBioMartOP.tar.gz