|
||||||||
|
||||||||
fastqc を用いて,fastq データの品質を検証します.ここではコマンドラインを用いた方法を解説します.スパコンで解析した場合は,結果をダウンロードして可視化する必要があります. 2020 年にアッセンブルに詳しい同僚に聞いたところ、fastqc のステップは飛ばして、いきなり Trimmomatic をやっても良いのでは、言われました (この時はトランスクリプトーム解析について相談しました)。 |
||||||||
|
||||||||
こちらのページにある Download Now をクリックします.Linux であれば FastQC v0.11.8 (Win/Linux zip file) をダウンロードしてください. JAVA script であるためコンパイル不要ですが (bioinformatics),以下のコマンドによって fastqc に実行権限を与える必要があります.シンボリックリンクの作成など,INSTALL.txt を参照してください. |
||||||||
|
||||||||
bioinformatics に従いました.ここでは,SRR5760179_sub1.fq という fastq ファイルを解析しています. アウトファイルが保存される fastqc_out ディレクトリをあらかじめ作成します.
fastq を走らせます.
アウトファイルは html で出力されます.このため結果を見る場合は,スパコンの場合はローカルに fastqc_out ディレクトリをダウンロードする必要があります.
|
||||||||
|
||||||||
練習用に 1M レコード (100 万) だけ抜き出したファイルが作りたい,という場合があると思います.そういう時は,seqtk を使うと良いです.ほぼ同じ機能をもつものに,seq kit というものもあります. 日本語の解説. 実際に作成された fastq ファイルのリード数を調べる場合は,以下のコマンドです.
4000000 を 4 で割った数が,リード数です. |
||||||||
|
||||||||
|
||||||||
このページは主に OIST の同僚 AA さんから教えていただいた情報をもとに作成しています.ご協力に感謝します. | ||||||||
|