fastq データの検証: fastqc

 
2018 年 10 月 31 日 改訂

fastqc を用いて,fastq データの品質を検証します.ここではコマンドラインを用いた方法を解説します.スパコンで解析した場合は,結果をダウンロードして可視化する必要があります.

例えば,得られたリードの長さがどのような分布になっているかチェックします.具体的には,fastqc の Example Reports > Good Illumina Data をみると,Summary に,該当項目が合格レベルであることしめすチェックが入ります (すべて合格でなくても良いらしいです).

bioinformatics を参考にしました.コマンドラインから操作する方法,および結果の解釈が丁寧に解説されています.

2020 年にアッセンブルに詳しい同僚に聞いたところ、fastqc のステップは飛ばして、いきなり Trimmomatic をやっても良いのでは、言われました (この時はトランスクリプトーム解析について相談しました)。


インストール

こちらのページにある Download Now をクリックします.Linux であれば FastQC v0.11.8 (Win/Linux zip file) をダウンロードしてください. JAVA script であるためコンパイル不要ですが (bioinformatics),以下のコマンドによって fastqc に実行権限を与える必要があります.シンボリックリンクの作成など,INSTALL.txt を参照してください.


操作方法

bioinformatics に従いました.ここでは,SRR5760179_sub1.fq という fastq ファイルを解析しています.

アウトファイルが保存される fastqc_out ディレクトリをあらかじめ作成します.

mkdir fastqc_out

fastq を走らせます.

fastqc --nogroup -o ./fastqc_out SRR5760179_sub1.fq

アウトファイルは html で出力されます.このため結果を見る場合は,スパコンの場合はローカルに fastqc_out ディレクトリをダウンロードする必要があります.

 

seqtk
練習用に 1M レコード (100 万) だけ抜き出したファイルが作りたい,という場合があると思います.そういう時は,seqtk を使うと良いです.ほぼ同じ機能をもつものに,seq kit というものもあります.

日本語の解説

実際に作成された fastq ファイルのリード数を調べる場合は,以下のコマンドです.

[cluster:Symsagittifera-roscoffensis]$
wc -l SRR5760179_sub1.fq
4000000 SRR5760179_sub1.fq

4000000 を 4 で割った数が,リード数です.



トランスクリプトームデータ解析シリーズ

次回は「3. アッセンブル:Trinity」 のページです.断片化されたリードをアッセンブルして実際の配列を fasta ファイルとして出力します.
1. SRA データのダウンロード
2. FastQC による fastq データの検証
3. fastq データの精製: Trimmomatic
4. アッセンブル: Trinity
5. 転写配列の推定: TransDecoder
6. 類似配列の除去:CD-HIT
7. オーソログ推定: ORTHOSCOPE

このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します.