NCBI Datasets CLI

NCBI Datasets CLI

2026 年 5 月 11 日　改訂

NCBI Datasets CLI は、NCBI のゲノムや遺伝子配列をコマンドラインでダウンロードするツールです (link)。以下のように、遺伝子モデルが公開されているか調べることができます。

インストール

conda で行います。生成 AI に聞いてください。

分類群の RefSeq ゲノムデータを網羅する

listup_refseq_ncbi_cli.sh.zip

STEP 0 —（任意）conda 環境を有効化

conda activate ncbi_datasets

STEP 1 — メタデータだけを軽量で取得する
（※ 実データを除外するために --include none を指定）

datasets download genome taxon "<TAXON_NAME>" --include none --filename <TAXON>.zip

例：

datasets download genome taxon "Cyprinoidei" --include none --filename cyprinoidei.zip

--include none により、データ本体（fasta, gff など）が除外され、
metadata.jsonl だけの軽量 ZIP（数百 KB～数 MB）が得られます。
（NCBI Datasets が JSON Lines のメタデータを含む ZIP を作る仕様

STEP 2 — 最低限の情報を TSV に変換する
（organism-name / assembly name / accession）

dataformat tsv genome \
--package <TAXON>.zip \
--fields organism-name,assminfo-name,accession \
> <TAXON>.tsv

例：

dataformat tsv genome --package cyprinoidei.zip \
--fields organism-name,assminfo-name,accession \
> cyprinoidei.tsv

STEP 3 — RefSeq（GCF_）だけ抽出する
RefSeq は NCBI の規則でアクセッションが GCF_ ではじまるため、最も確実なフィルタ方法です（GenBank は GCA_）。
これは NCBI Datasets metadata でも公式に提供されるフィールド。

awk -F '\t' 'NR==1 || $3 ~ /^GCF_/' <TAXON>.tsv > <TAXON>_refseq.tsv

例：

awk -F '\t' 'NR==1 || $3 ~ /^GCF_/' cyprinoidei.tsv > cyprinoidei_refseq.tsv

（任意）STEP 4 — 詳細フィールドが必要なら catalog で確認
ZIP 内の metadata.jsonl に含まれるすべてのフィールドは：

dataformat catalog --package <TAXON>.zip

で確認できます。
（Datasets v18 以降、この catalog は JSON-lines の構造一覧を返すようになっています。）
必要なフィールドがわかれば：

dataformat tsv genome --package <TAXON>.zip --fields <FIELD1>,<FIELD2>,<FIELD3>,... > out.tsv

の形で自由に選んで追加できます。

STEP 5 — （任意）Excel 形式で出力

dataformat excel genome \
--package <TAXON>.zip \
--fields organism-name,assminfo-name,accession \
> <TAXON>.xlsx

（Excel でそのまま並べ替え・フィルタできます）

遺伝子モデル公開種の抽出

以下、conda 経由で解析

$ conda activate ncbi_datasets
$ ./listup_refseq_ncbi_cli2.sh "Chlorophyta"

遺伝子モデル公開種の抽出 + Classification

taxonkit と連携。

2026 年 5 月

Accession no. から fasta データを取得する

gene_model_fetch.zip