井上潤：ProAlign

ProAlign を使ったアライメント
～ミトコンドリアゲノム編～

2011 年 12 月 14 日　改訂
井上潤

ProAlign は塩基やアミノ酸配列をアライメントするプログラムです．おそらく Windows で動かすことを主眼に置いて作成されていますが，Mac や Linux でも操作できます．Windows の場合はコマンドプロンプトを使います．

　ProAlign の利点は，アライメント困難な部位の選定に，再現性がある点だと思います．つまり手作業と違って，誰がやっても同じ部位を削除することができます．この性質はアライメントが困難な rRNA 遺伝子領域で威力を発揮します．ミトコンドリアゲノムでも rRNA 遺伝子は大系統に対して比較的良質な情報を持つ，と指摘する研究グループもありますが，手動アライメントの困難さと信憑性のなさはその魅力を半減させてしまいます．

　ProAlign の良くない点は，Clustal W/X に比べて遅く，操作性がそれほど良くないところです．Athron XP 3200+, 221GHz, 960 MB の Windows machine (2002 年に購入，それほど遅いとは思わないです) で 16S (ca. 1700 bp), 40 OTU を解析すると，10 分ぐらいかかるでしょうか．

　再現性があるアライメント困難な部位の選定を行うには，他に trimAl があります．こちらはベイズ法などを使っていませんがとても速いので，より実用的です．2010 年ぐらいから私はtrimAl を使っています (2011 年 12 月)．

ProAlign の起動とメモリ割り当ての増加

解析を行う前に，ProAlign に割り当てる目盛りを増やします．ここでは Windows を用いていますが，Mac でもターミナルを使って同様の操作を行ってください．

コマンドプロンプトでcd コマンドを使い、proalignがあるフォルダに移動します．

その後

java -jar -Xmx1350m proalign_0.5a0.jar

と入力します.1350のところに割り当てるメモリの大きさを入れます．デフォルトでは 64M らしいです．メモリが足りなくなると途中で計算が止まってしまいます．私の PC では1350 では大きすぎて走らないので，800 に設定しています．

ProAlign が起動したらメニューバーの Align から Set parameters を選択し，Band width を 400 にします．何か文句を言ってきますが，無視して大丈夫みたいです．

ProAlign の基本操作

１）塩基 (アミノ酸) 配列を NBRF 形式で infile として保存します．ProAlign ではギャップは読み込まれません．私は Windows で ProAlign を走らせているのですが，phylip 形式はうまく読み込まれないことがあります．

2) ProAlign を上記の手順に従ってスタートします．改行コードが Win になっているか注意して， File -> import で infile を読み込みます．

3) Align -> ProAlign guide tree で guide tree を計算させます．正常に作動していれば，Window の下に「Computing distance 云々」と出て，OTU が 2 ついろいろと表示されます．どうも Do ClustalW guide tree はうまく動かないです．guide tree は予め作成したものを読み込むことも可能です．解析が終わると，Window の下に「Data and tree ready: 44 sequences」などと表示されます．

4) 次にAlign -> Do multiple alignment を選び，アライメントをスタートさせます．Window の下に，それぞれの node についてアライメンとしている様子が表示されます．解析が終わると，「Notice, アライメントは終了したが，可能なアライメントはいくつかある」というようなコメントが出ます．File -> Save alignment で保存します．

5) Result -> Filter sites から適切な事後確率を選び，Delite する領域を選びます．

6) File -> Export から保存形式を選び，実際に系統解析に用いるデータを保存します．

*注意
データセットが大きい場合は，途中で解析が止まってしまうことがあるようです．動いているように見えるのですが，一晩たってもまだ状況が変わらない場合は疑ってみた方がよいです．12S (約 1000bp)，102 OTU の解析でも解析がうまく進まなかったです．
　このような場合は，あらかじめ Mafft や Clustal W などでアライメントを行って，明らかに解析には不適切な部分をあらかじめ MacClade などで手動で削っておきます．これを NBRF などで保存して ProAlign に持っていきます．ProAlign はギャップ「-」を読み込まないので，最初からアライメントを行うことになります．先ほどの 12 S のデータは全部で 2 時間ぐらいで ProAlign の作業が終了しました．

rRNA 遺伝子領域

１）Clustal W/X でアラインメントをとり，両端を切りそろえて，ProAlign の計算負荷を軽減します．この操作は，OTU 数が多く (60 以上ぐらいでしょうか) 配列の長さが極端に異なっている場合に行っています．OTU がそれほど多くない場合は，まず最初は両端を切りそろえないで，いきなり ProAlign を走らせてみた方ががいいです．

２）ProAlign で再アラインメントをとり，事後確率70% [事後確率は場合によると思います] でフィルターをかけます．

タンパク質遺伝子領域

　ミトコンドリアゲノムのタンパク質遺伝子領域のアライメントは，rRNA 遺伝子に比べればかなり楽なので，手動でもそれほど問題にはならないと思います．しかしより正確さを期す場合を考えて，ここでは ProAlign を軸として，タンパク質遺伝子領域の塩基配列をコドンごとにうまくアライメントするやり方を紹介します．

１）塩基配列とアミノ酸の NBRF ファイルを遺伝子ごとに作成します．塩基配列のファイルは MacClade で開いておき *.aln でセーブします．

２）ProAlign でアミノ酸のアラインメントをとります（この段階ではフィルターをかけません）．その出力ファイル（*.pir）を１) で開いている塩基配列のファイルに「Utilities」→「Import NBRF protein alignment」機能を使って取り込みます．

３）上記の操作により，ProAlign とまったく同等のアラインメントをもつ塩基配列ファイルができます．

４）ProAlign のアラインメントに70％でフィルターをかけて（この数字は適宜様子を見て決定），その位置をメモっておきます．
Results の Filter sites から，フィルターをかけることができます．
File の Export から，Philip 形式を選んで保存することにより，フィルターされることで ambiguous sites を除いた配列を保存することができます．もちろん Save alignment でフィルターする前のアライメントも保存しておいた方が良いです．そうすることで，アライメントの計算なしに，フィルターの数値を変えて unambiguously aligned sequence を得ることができます．

５）MacClade 上でそのサイトを削ります．

tRNA 遺伝子領域

私は tRNA を手動で遺伝子ごとにアライメントをしていますが，ProAlign を使って効率よくアライメンとする方法もあるようなので紹介しておきます．

１）22個のtRNAを全部つなげた NBRF ファイルを作成し，ProAlign あるいは Clustal でアライメントします．

２）MacClade 上で二次構造を見ながら修正します．tRNA の二次構造は，DNASIS を使うと簡単に推定できます．