|
|||
2016.12.2. 井上 潤 | |||
ゲノムデータ (すべてのタンパク質遺伝子データ) から,遺伝子系統樹を推定することでオーソログを選定する解析パイプライン (Inoue et al. 2015) の作り方を紹介します. |
|||
|
|||
基本的な構造:すべてのタンパク質配列について以下の処理を行います.
|
|||
クエリ配列とディレクトリ:クエリ配列は,解析の中心となる種のタンパク質遺伝子配列です.結果を遺伝子別 (約 20,000 ディレクトリ) に別々に保存します. | |||
スクリプトをつなげる:以下のように,Perl script の system command を使って,短いスクリプトをつなげます.
|
|||
|
|||
1.1. データベース 二種類のデータ:Ensembl を使います.種ごとにすべての遺伝子について cDNA 配列とアミノ酸配列が公開されています.一つの遺伝子について,cDNA 配列とアミノ酸配列,2 種類の fasta ファイルをダウンロードします. |
|||
例題:フグの cDNA とアミノ酸配列を Ensembl からダウンロードしてみましょう. | |||
release-86 > fasta > tetraodon_nigroviridis に入って,以下を参照に cds と pep ファイルをダウンロードしてみましょう. |
|||
上記二つのファイル (Fasta 形式) をエディタで開きましょう.検索置換で「>」の数を調べると,二つのファイルで同じレコード数になっていて,上から対応するように並んでいます. release-86 のフグゲノムには,cDNA と アミノ酸配列がそれぞれ 23118 レコードありました. | |||
1.2. トランスクリプトを選ぶ 1.3. 類似性検索 |
|||
|
|||
2.1. アライメント 2.2. トリミング 2.3. 遺伝子系統樹の推定 |
|||
|
|||
こちら (sample_recon.tar.gz) の例題を用いて説明します.
|
|||
3.2. オーソログ・グループの選定 Perl script で Notung から出力される NHX フォーマット の tree を処理し,以下の条件を満たすクレードを探します. このとき遺伝子系統樹で推定された枝のブートストラップ確率 (B=95.0) を参考に,信頼性の高い遺伝子系統樹だけを選ぶことも可能です. |
|||
|
|||
|
|||
|
|||
遺伝子の位置情報は,Inoue et al. (2015) の Dataset S2.あるように (以下) ,オーソログ同士で遺伝子の位置情報を対応させる必要があります. | |||
例題:遺伝子の位置情報を Ensembl の BioMart を使って得てみます.今回は,試しに Inoue et al. (2015) で用いた release-76 のデータベースを指定してみましょう. | |||
|
|||
以下のようなテキストファイル (mart_export.txt) が得られるはずです. | |||