2024 年 3 月 28 日 改訂

BLAST+ は,類似配列検索プログラム集です.従来の local BLAST (legacy blast と呼ばれる) を発展させたものです.Legacy blast はメンテナンスを行なっていないので,BLAST+ を用いた方が良いです.マニュアルはこちらです.

まずは,統合TV をご覧下さい.legacy blast と blast+ 間のオプション表があります.これまで local Blast (legacy blast)を使っていた方は,legacy blast と blast+ の対応表が役に立ちます.

こちらのページからダウンロードできるはずです.しかし,今試したらブラウザ Safari ではダウンロードできませんでした.Chrome では繋がると思います.
  かわりに以下の手順で terminal を使ってダウンロードも可能です.家の ADSL では 5 分位かかりました (272.5MB).[2013 年 7 月]

インストールは単純で,ただダウンロードして得られた .pkg をダブルクリックするだけです.すでにコンパイルされたファイルが ncbi-blast-x.x.x+/bin ディレクトリに入っています (2018 年 3 月).
 ダウンロードファイルに .pkg がない場合もあるようです.この場合は,おそらく bin ディレクトリにコンパイル済みの各種プログラムが入っています.これをコピー&ペースとして使ってください (2015 年 1 月).

余談ですが, 基本的なテクニックを紹介します。

which makeblastdb

/usr/local/ncbi/blast/bin に入れます.

cd /usr/local/ncbi/blast/bin

/usr/local/ncbi/blast/bin がウィンドウとして開きます.

open /usr/local/ncbi/blast/bin

データベースの作成,blastp 検索,配列の取得

blastPlusExample.tar.gz 使って説明します.Quick start を参照しました (2019 年 7 月).version 2.15.0 では、makeblastdb でエラーメッセージがでます (2024 年 3 月)。



以下, の解説です.

# アミノ酸配列データの解析
./makeblastdb -in db_prot.txt -dbtype prot -parse_seqids
prot データベースを作成します.
-parse_seqids: seq ID 検索を可能にします.

./blastp -query query_prot.txt -db db_prot.txt -num_alignments 10 -evalue 1e-12 -out out_protREC.txt

blastp 検索を行います.

./blastdbcmd -entry ENSP00000362111.4 -db db_prot.txt -dbtype prot -out out_protSEC.txt

seq ID を用いて配列を取得します.

# 塩基配列データの解析
./makeblastdb -in db_nucl.txt -dbtype nucl -parse_seqids
nucl データベースを作成します.

./blastn -query query_nucl.txt -db db_nucl.txt -num_alignments 10 -evalue 1e-12 -out out_nuclREC.txt
blastn 検索を行います.

./blastdbcmd -entry ENST00000373020.8 -db db_nucl.txt -dbtype nucl -range 100-150 -out out_nuclSEC.txt
seq ID を用いて「指定したデータベース,レコード,範囲」の配列を取得します.

*makeblastdb で作成されたデータベースは,legacy Blast (blastall) でも使うことができました.また,逆も可能で,formatdb (legacy Blast) で作成されたデータベースを blastp (blast+) で使えました.しかし,一応データベース化はやり直しています.

blastn results から .csv ファイルを作成

Qiime2 のページ、「BLAST+ を用いた種判定」を参照。

(2024 年 3 月)


$ blastn -help

- task (Manual, P7 "BLAST+ features: Tasks")
塩基配列の検索には,megablast (種内解析用) と blastn (種間解析用) が存在する.blastn はデフォルトだと megablast が選ばれる.

- outfmt (Manual, P33)

- bit score (Help)
evalue はデータベースのサイズに依存するので,bit score を使った方が良いと言う意見もある.

fasta file から配列を取得する: blastdbcmd
blastdbcmd によって,position 情報 (コーディネートとも言う) を元に,fasta file から配列を取得します.extractSeqFromFasta.tar.gz 使って説明します.

-parse_seqids オプションを用いて,blastdbcmd で利用可能なデータベースを作成します.
$ makeblastdb -in test.fa -dbtype nucl -parse_seqids
作成したデータベースから,blastdbcmd によって目的の配列を取得します.
$ blastdbcmd -db test.fa -dbtype nucl -entry ENST00000373020.8 -range 5-10

$ cat test.fa

blastdbcmd については,NCBI の公式マニュアルを見ても,あまりよい説明を見つけられませんでした.「blastdbcmd -help」によってオプションを確認してください.おそらく, bedtools getfasta (以下のコラム) のように,repeat 配列を小文字のまま表示するオプションはありません.(2019 年 8 月).

BEDTools の getfasta を用いても,fasta file から配列を得られます.こちらを参照してください.

種ごとにまとめられた ftp サイトのデータをまとめてダウンロード

BLAST Help, PDF にある HowTo_Downloading_Genomic_Data.pdf, P44,にしたがっています.Case 2 にある方法です.

ftp アドレスを用いてデータをダウンロードする

genomic_directory に以下の 2 行を保存します.これらのアドレスは,NCBI の ftp サイトにWebブラウザから入って得ます.

以下のコマンドによって,genomic_directory に記述されている ftp ディレクトリに存在するファイルを一気にダウンロードできます.

wget -r --no-parent --no-host-directories --cut-dirs=2 --level=1 \

wget のオプションの説明は以下.

-r: recursively works through the directory
--no-parent: ignores the parent directory
--no-host-directories: saves the files without prepending the NCBI FTP URL
--cut-dirs=2: saves the files without creating intermediate directories
--level=1: works only at that level of directory
--input-file=value: sets directory input to the file specified by value


fungi を例にしています.NCBI がまとめている fungi の ftp サイトでは, assembly_summary.txt にそれぞれの種の ftp アドレスがまとめられています.以下のコマンドによって,assembly_summary.txt から,これらのアドレスを全て genomic_directory というファイルに保存します.

curl '
assembly_summary.txt' | \
awk '{FS="\t"} !/^#/ {print $20"/"}' > genomic_directory

あとは,wget によって genomic_directory に保存した ftp アドレスのファイルをダウンロードします.

(2019 年 6 月)


makeblast version 2.15.0 はパスにスペースがあるとエラーメッセージが出る
最新のmakeblastdb ( ncbi-blast-2.15.0+-x64-macosx.tar.gz ) から得られたエラーです。 ただ、その後の blastn 解析は、問題なく動作しました (以下、blastn version 2.15.0 は遅い、の解析)。

BLAST Database error: No alias or index file found for nucleotide database [/Users/username/Dropbox/My] in search path [/Users/username/Dropbox/My Mac (]

ディレクトリをホームディレクトリに移したところ、エラーは出なくなりました (2024 年 3 月)。

blastn version 2.15.0 は遅い
blastn を比較したら、以下の結果でした。

2.15.0: 2.72 秒
2.9.0: 2.2 秒

一方、makeblastdb は 2.15.0 の方が速いです。

2.15.0: 28.95 秒
2.9.0: 34.32 秒

(2024 年 3 月)

Mac: プログラムの「開発元を検証できない」と言われた場合

(2024 年 3 月)

