|
||||||||
|
||||||||
ここでは,NCBI が提供している SRA (Sequence Read Archive) という次世代シーケンサーの生データ集から SRA ファイルをダウンロードして,fastq ファイルに変換する処理を説明します. |
||||||||
データ確認 まず,NCBI で TSA のページを開き,データの内容を調べます. |
||||||||
https://www.ncbi.nlm.nih.gov/nuccore/1219878365 | ||||||||
上の画面で Sequence Read Archive の右にある SRR5760179 を押すと,下の画面が現れます. | ||||||||
https://www.ncbi.nlm.nih.gov/sra/SRR5760179 | ||||||||
上の画面,Run にある SRR 5760179 > Download タブを押すと,"You need SRA Toolkit to operate on SRA runs." と言われます. |
||||||||
ダウンロード
--option-file ダウンロードしたファイルは,~/ncbi/public/sra/ に保存される.
|
||||||||
ペアエンドデータのダウンロード & fastq 変換 ダウンロード & fastq 変換: fastq-dump で,SRA データをダウンロードし,その後自動的に得られた .sra 形式を fastq フォーマットに変換します. --split-files SRA ファイルに入っているペアードデンド・リードを,左と右に分けます.つまり二つの fastq ファイルができることになる.シングルエンドに適用すると誤りなので注意. また,--split-file s をつけないと,ペアードエンドデータの解析にならないので,注意してください. fastq 変換:以下のコマンドで,.sra ファイルの fastq 変換のみを行うこともできます.
|
||||||||
|
||||||||
一応,fastq ファイルの name line がどのようになっているかチェックします.
|
||||||||
|
||||||||
|
||||||||
|
||||||||
|
||||||||
このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します. | ||||||||
|