類似配列の除去:CD-HIT

2020 年 10 月 31日 改訂

CD-HIT は,Trinity などで行ったアッセンブル後に得られた配列群から,似たような配列を取り除くソフトウェアです.

類似の配列をたくさん集めたいなど,場合によっては CD-HIT による解析は行わない方が良いです.よく検討してください。

CD-HIT の解析は割と時間がかかるので,クラスタなどを用いた方が良いでしょう.

ダウンロードとコンパイル

こちらからダウンロードしてください。その後、ダウンロード & 解凍して得られたファイルに入り,

make

と入力してください.
multi-threading に対応させるには,

make openmp=yes

と入力してください.

解析手順

トランスクリプトームデータの解析
cd-hit-est を使います.

cd-hit-est -r 1 -T 1 -M 1000 -n 5 -c 0.8 -i INFILE.fa -o OUTFILE.fs >& log.txt &

-r 1
両方のストランドを比較します.

-T 1

0 だとすべてのスレッドを使います.TOMBO で解析を行うときは 1 や 4 にしましょう.

-M 1000

メモリ 100Mb を意味します.1000Mb で十分だそうです.

-n 5
ワードサイズ.なくても (デフォルトでも) 大丈夫だそうです.

-c 0.8

アライメントの類似性

>&

エラーと出力ファイルを同じファイルに書き込む.

&

qsub する場合はいりません.



ログファイル

解析がうまく走り出したら,以下のようなログファイルが作成されます.

[jun-inoue:clearnDir]$ cat log.txt
================================================================
Program: CD-HIT, V4.6, Jul 16 2013, 13:59:58
Command:
/apps/SinclairU/cd-hit-v4.6.1-2012-08-27_withoutMULTI/cd-hit-est
-T 4 -M 1000 -n 5 -c 0.8 -i
trinity_out_dir/Trinity.fasta -o eyeClearn.fas

Started: Tue Jul 16 14:59:53 2013
================================================================
Output
----------------------------------------------------------------
Option -T is ignored: multi-threading with OpenMP is NOT enabled!
total seq: 136837
longest and shortest : 12149 and 201
Total letters: 75184757
Sequences have been sorted

Approximated minimal memory consumption:
Sequence : 92M
Buffer : 1 X 16M = 16M
Table : 1 X 2M = 2M
Miscellaneous : 1M
Total : 112M

Table limit with the given memory limit:
Max number of representatives: 1080875
Max number of word counting entries: 110945009

comparing sequences from 0 to 136837


アウトファイル
以下 2 種類のアウトファイルが作成されます.

*.fas
得られた結果です.

*.fas.clstr
おそらく得られた結果の長さなどが書いてあります.詳しくはわかりません.


例題: slurm job

こちらからダウンロードしてください。CD-HIT で解析した結果、類似配列が削除され、142 配列 (Trinity.fasta) が 102 配列 (OUTFILE.fs) まで絞られました。

インファイル
Trinity.fasta。Trinity をダウンロードした際に例題としていたファイル
(trinityrnaseq-Trinity-v2.8.4/sample_data/test_Trinity_Assembly/reads.left.fqreads.right.fq) を Trinity で解析して得た配列。


job スクリプト

#!/bin/bash
#SBATCH --job-name=cdhit
#SBATCH --mail-user="jun.inoue@oist.jp"
#SBATCH --partition=compute
#SBATCH --mem=2G
#SBATCH --cpus-per-task=4
#SBATCH --ntasks=1 # 1 task

./cd-hit-est -r 1 -M 1000 -n 5 -c 0.8 \
-i Trinity.fasta -o OUTFILE.fs >& log.txt

[2020 年 11 月]

 

リンク

bioinformatics

日本語による解説。

トランスクリプトームデータ解析シリーズ

次回は「7. オーソログ推定:ORTHOSCOPE」 のページです。
1. SRA データのダウンロード
2. fastq データの検証: fastqc
3. アダプター配列の除去: Trimmomatic
4. アッセンブル: Trinity
5. 転写配列の推定: TransDecoder
6. 類似配列の除去:CD-HIT
7. オーソログ推定: ORTHOSCOPE

このページは主に OIST に所属する研究者の方から教えていただいた情報をもとに作成しています.皆さんのご協力に感謝します.