|
||||||||
2020 年 10 月 11日 改訂 |
||||||||
Trinity はトランスクリプトーム解析専用の k-mer アセンブラです.ここでは, Trinity とその他のプログラムを用いて NGS で得られた トランスクリプトームデータを de novo assembly (参照配列を用いずに配列張り合わせ) する手順を紹介します.得られたリードが 150bp より長い場合は,Newbler の方が良いみたいです. SGE (Sun Grid Engine) スケジューラーで解析を行う場合は,こちら のジョブスクリプトを参照してください. |
||||||||
|
||||||||
ここでは Trinity を用いて,参照配列を用いない配列張り合わせ (de novo assembly) を行います.Trinity は fastq ファイルを読み込み,一つの fasta file (すべてのトランスクリプトーム配列を含む) を算出します. インストール |
||||||||
テストデータの解析 ダウンロード & コンパイルして得られたファイル,
に入ってください.そこで,
と入力すれば,解析が始まるはずです.trinity_out_dir にアウトファイルが保存されます.Trinity.fasta が最終的に必要なファスタファイルです.
です.もう一行,
がありますが,これは発現量解析などで使うコマンドのようです.こちらをご覧下さい.私は使わないです. |
||||||||
Slurm の job file | ||||||||
テストファイルの解析には、以下の jobfile を使いました。 | ||||||||
|
||||||||
実際のデータは以下の jobfile です。 | ||||||||
|
--max_memory . |
|||||||
結果 | ||||||||
Trinity.pl がうまく走ると,以下のようなスクリーンアウトが得られるはずです | ||||||||
|
||||||||
リードの方向 こちらのページに,まとめられています. |
||||||||
青のラインがある部分で,NEBnext Ultra RNA Library Prep Kit を使った,と書いてあります.この製品試薬のページから判定します. |
||||||||
アウトファイル
というファイルに,アッセンブルの結果得られた contig が fasta 形式で保存されています.Trinity.fasta が出力されない場合は,何か解析に問題があったことになります.Butterfly はメモリをたくさん使うようで,私の場合は Butterfly が終了せず Trinity.fasta が得られないことがよくあります.
|
||||||||
データ量 リード数が 30M〜60M が常識的なデータ量だそうです.これぐらいなら,Trinity でそのまま解析して良いです.これより多い場合は,リード数を間引くなどの処理をしないと,結果の質が悪くなることがあるそうです.良いアッセンブルを行うのに 100M 必要,という人もいますが,30M で十分だそうです。 |
||||||||
エラー
この例題は SRA データを解析中に出たものです.bold の行は,ヘッダーに問題があるから,変更する必要がある,というメッセージが出ています. NCBI が配っている SRA tool kit に入っている fastq-dump を用いて SRA ファイルを二つの fastq ファイルに分割する際に,上記 bold のオプションをつけるように支持されています.fastq-dump の使い方はこちらをご覧ください. bowtie:bowtie が見つからないというメッセージが出ました.
こちらのサイトにあるダウンロードサイトから bowtie-1.0.0-macos-i386.zip をダウンロードしました (uname -p で CPU の種類を確認).解凍して得られた bowtie を ~/bin にコピーしたら問題なく動きました.bowtie-build もない場合は,~/bin にコピーしましょう. |
||||||||
データの前処理は必要? 前処理をやらない場合
前処理をやった場合
クオリティについては,そのうち検証してみます. |
||||||||
|
||||||||
次世代シーケンサーを用いた de novo トランスクリプトーム解析 |
||||||||
|
||||||||
|
||||||||
このページは主に OIST に所属する研究者の方から教えていただいた情報をもとに作成しています.皆さんのご協力に感謝します. |
||||||||
|