NCBI Datasets CLI

2026 年 2 月 25 日 改訂

NCBI Datasets CLI は、NCBI のゲノムや遺伝子配列をコマンドラインでダウンロードするツールです (link)。


インストール

conda で行います。生成 AI に聞いてください。



分類群の RefSeq ゲノムデータを網羅する

STEP 0 —(任意)conda 環境を有効化

conda activate ncbi_datasets

STEP 1 — メタデータだけを軽量で取得する
(※ 実データを除外するために --include none を指定)

datasets download genome taxon "<TAXON_NAME>" --include none --filename <TAXON>.zip

例:

datasets download genome taxon "Cyprinoidei" --include none --filename cyprinoidei.zip

--include none により、データ本体(fasta, gff など)が除外され、
metadata.jsonl だけの軽量 ZIP(数百 KB〜数 MB) が得られます。
(NCBI Datasets が JSON Lines のメタデータを含む ZIP を作る仕様

STEP 2 — 最低限の情報を TSV に変換する
(organism-name / assembly name / accession)

dataformat tsv genome \
--package <TAXON>.zip \
--fields organism-name,assminfo-name,accession \
> <TAXON>.tsv

例:

dataformat tsv genome --package cyprinoidei.zip \
--fields organism-name,assminfo-name,accession \
> cyprinoidei.tsv

STEP 3 — RefSeq(GCF_)だけ抽出する
RefSeq は NCBI の規則で アクセッションが GCF_ ではじまるため、最も確実なフィルタ方法です(GenBank は GCA_)。
これは NCBI Datasets metadata でも公式に提供されるフィールド。

awk -F '\t' 'NR==1 || $3 ~ /^GCF_/' <TAXON>.tsv > <TAXON>_refseq.tsv

例:

awk -F '\t' 'NR==1 || $3 ~ /^GCF_/' cyprinoidei.tsv > cyprinoidei_refseq.tsv

(任意)STEP 4 — 詳細フィールドが必要なら catalog で確認
ZIP 内の metadata.jsonl に含まれるすべてのフィールドは:

dataformat catalog --package <TAXON>.zip

で確認できます。
(Datasets v18 以降、この catalog は JSON-lines の構造一覧を返すようになっています。)
必要なフィールドがわかれば:

dataformat tsv genome --package <TAXON>.zip --fields <FIELD1>,<FIELD2>,<FIELD3>,... > out.tsv

の形で自由に選んで追加できます。

STEP 5 — (任意)Excel 形式で出力

dataformat excel genome \
--package <TAXON>.zip \
--fields organism-name,assminfo-name,accession \
> <TAXON>.xlsx

(Excel でそのまま並べ替え・フィルタできます)