DDBJ 大量登録

2011 年 1 月 18 日 改訂
井上 潤

DDBJ に大量データを登録する方法を紹介します.

登録の仕方
まずはこちらから DDBJ に登録の申請を行います.


UME: 大量登録のツール
こちらからダウンロードしてください.
Mac の場合は「UME for MacOS X」をダウンロードします.

UME.app をダブルクリックします.
私の場合は,Parser と transChecker を行って,エラー箇所をテキストエディターを使って修正して行きます.transChecker は Parser でエラーが検出されるファイルでは動かないようです.

例題です.
transChecker がうまく動いた場合の log.transl_table を外すと,コドンの読み枠がずれるので,このままにしてあります.

Checking file format start.
jParser (Ver. 6.29) started.
reading sequence......
reading annotation.....
JP0166:ER2:STX:ANN:Line [32]: [transl_table] qualifier is not recommended for [CDS] feature.
...
JP0166:ER2:STX:ANN:Line [107]: [transl_table] qualifier is not recommended for [CDS] feature.
jParser (Ver. 6.29) finished.

Checking file format end
.

transChecer のlog.

Checking file format start.
Checking file format end.
Checking translation start.
transChecker (Ver. 2.06) started at Mon Apr 26 12:30:07 JST 2010
Reading Sequence File(s).......finished.
Reading Annotation File(s) and Checking translation error....
..finished.
TransChecker (Ver. 2.06) finished at Mon Apr 26 12:30:07 JST 2010


Checking translation finished.

Amino acid sequence には翻訳されたアミノ酸が表示されます.終止コドンを示す「*」が配列の途中に入っていないか注意してください.


UME.app はダウンロードしたファイルから動かさない方が良いようです.Parser を Execute したら以下のようなエラーメッセージが出ました.

Checking file format start.
Unable to access jarfile lib/jParser.jar

Checking file format end.




Local Blast による遺伝子の開始/終止点検索

ファスタ形式のゲノムファイルを自動的にデータベース化し,Local Blast によってクエリ配列を検索するシステムです.以下のような出力が得られます [2011 年 1 月].

[inouejun:motifFinder_fol]$ motifFinder.pl genome.fas query.fas

Database: genome.fas
1 sequences; 15,873 total letters

Query= COI 5328..6875
Score = 3069 bits (1548), Expect = 0.0
Identities = 1548/1548 (100%)
Strand = Plus / Plus

Query= COIII 8627..9410
Score = 1554 bits (784), Expect = 0.0
Identities = 784/784 (100%)
Strand = Plus / Plus

 

motifFinder_fol.tar.gz
geneSeqFinder_fol.tar.gz