RefSeq

2023 年 8 月 31 日 改訂

RefSeq は,Reference Sequenceの略で、配列解析に "reference"(リファレンス)となるべき配列データベースのことです.NCBI のスタッフが,最も代表としてふさわしい (参照の基準となる) 遺伝子配列をGenBank などのデータベースから目で見て選んで,RefSeq データベースを作成しています (統合テレビより).

FTP はこちら

RefSeq と GenBank の違い
RefSeq と GenBank の違いについては,こちらをご覧ください.重要な部分を抜粋します.

GenBank
RefSeq

研究者自身が投稿
NCBI が既存のデータから作成
同じ遺伝子座から複数のレコードがある
主な生物から一つのレコードに限られている
あらゆる生物 (250,000 種)
モデル生物 (4000 種)

  • In some cases, creation of a RefSeq record involves no more than selecting a single good example from GenBank and making a copy in RefSeq, which credits the GenBank record. In other cases, NCBI in-house staff generates and annotates the records based on the existing primary data, sometimes by combining parts of several GenBank records.

  • RefSeq records appear in a similar format as the GenBank records from which they are derived. However, they can be distinguished from GenBank records by their accession prefix, which includes an underscore, and a notation in the “comment” field that indicates the RefSeq status.

種ごとのゲノムデータをダウンロードする

ブラウザ:

Branchiostoma belcheri を例にします。

以下のサイトから、
https://www.ncbi.nlm.nih.gov/datasets/genome/

Branchiostoma belcheli
と入力。

その後、

Haploidv18h27

を選択すると、以下が表示される。
https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_001625305.1/

「Download」を押すとお好みのデータをダウンロードすることができます。

以上、KH さんから伺いました。ありがとうございます (2023 年 8 月)。

 ブラウザ経由の ftp からもデータをダウンロードできます.ただ、うまく動かないこともあります。例えば、Safari だと「上位のディレクトリへ移動」がでないので,Firefox だと動く、など。できないようなら、こちらから直接入ってください。


ターミナル:
ブラウザを用いてダウンロードする方が速度は早いですが,ターミナルから ftp コマンドを用いてダウンロードもできます.ターミナルから ftp で入ると,60秒の間に何も操作がないと,自動的に接続が切れてしまいます.

junINOUEpro@inouejun-no-MacBook-Pro|~
$ ftp
ftp> open ftp.ncbi.nlm.nih.gov
Connected to ftp.wip.ncbi.nlm.nih.gov.
220-
This warning banner provides privacy and security notices consistent with
....
220 FTP Server ready.
Name (ftp.ncbi.nlm.nih.gov:junINOUEpro): anonymous
331 Anonymous login ok, send your complete email address as your password
Password: [入力せずにリターン]
230 Anonymous access granted, restrictions apply
Remote system type is UNIX.
Using binary mode to transfer files.
ftp> ls
229 Entering Extended Passive Mode (|||50471|)
150 Opening BINARY mode data connection for file list
dr-xr-xr-x 4 ftp anonymous 4096 Oct 28 02:48 1000genomes
-r--r--r-- 1 ftp anonymous 10738466816 Mar 7 2018 10GB
...
dr-xr-xr-x 13 ftp anonymous 253952 Oct 28 02:48 genbank
dr-xr-xr-x 6 ftp anonymous 4096 Feb 28 2018 gene
dr-xr-xr-x 506 ftp anonymous 40960 Oct 28 02:48 genomes
...
dr-xr-xr-x 19 ftp anonymous 4096 Sep 17 19:31 refseq
dr-...
ftp>
....
ftp> pwd
Remote directory: /genomes/all/GCF/000/003/605/GCF_000003605.2_Skow_1.1
ftp> history
0 open ftp.ncbi.nlm.nih.gov
0 cd genomes
0 cd refseq
0 cd invertebrate
0 cd Saccoglossus_kowalevskii
0 cd representative
0 cd GCF_000003605.2_Skow_1.1
0 get GCF_000003605.2_Skow_1.1_rna.gbff.gz
ftp>

こちら「コマンドラインを用いたダウンロード」も参照してください (2018 年 9 月).

 

NCBI 形式の fasta を Ensembl 形式にする

change_NCBI2Ens.tar.gz
ゲノムデータのファスタファイルの name line を NCBI 形式 (_genomic.fna ファイル) から Ensembl 形式 (.dna.primary_assembly.fa あるいは .dna.toplevel.fa ファイル) に変更します。

繰り返し配列の mask 方は、 以下の記述 (README.txt) を参照。

Example commands to convert lower-case masking to masking with Ns (hard-masked):
perl -pe '/^[^>]/ and $_=~ s/[a-z]/N/g' genomic.fna > genomic.N-masked.fna
-or-
awk '{if(/^[^>]/)gsub(/[a-z]/,"N");print $0}' genomic.fna > genomic.N-masked.fna

(2019 年 10 月)


gff ファイルから TSS など座標を抽出する

retrieve_tss_from_gff.tar.gz
(2020 年 2 月)


リンク集
RefSeq

NCBI のサイト.

FTP site.

BioPerl の駄文

とても便利そうな Perl script

遺伝子の RefSeqID を調べる

統合テレビがとてもわかりやすい解説をしています.

ヒトゲノム計画と RefSeq

RefSeq の存在意義について.


RefSeq を Local Blast で解析する
They have automated calculation of homologs in HomoloGene:

ftp://ftp.ncbi.nih.gov/pub/HomoloGene

If you want to run local blast, I would suggest the refseq_rna database here:

ftp://ftp.ncbi.nlm.nih.gov/blast/db/

These are pre-formatted for blast. That database contains more than mammals. You can limit your local search of that database to mammals by supplying a text file containing gi list along with the "-l " command line option. Make that gi list in the Entrez Nucleotide database by searching with this query:

mammals[orgn] AND refseq[filter] AND mrna[filter]

Once retrieved on the web page, change Display to "GI List" and send to file.
Get blast here:

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST

More documentation on setting up and using blast (among other things) is here:

http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/