2007 年 5 月 24 日 改訂
井上 潤

 カルテット・パズリングという方法を用いて,最尤法の系統樹を推定するプログラムです.

 系統仮説の評価を行う解析が PAUP よりも若干優れていると思います.SH-test,KH-test が行えて,log-difference と SE が出てくるので,log-difference/ SE を計算できます.このため,対立仮説が P=0.000 と完全に棄却された場合でも,他に P=0.000 となった仮説に比べて,どの程度強く棄却されたのかが理解できるようです (間違っていたら,ご指摘下さい).PAUP では確か SE が出てこなかったと思います.読み込ませる系統樹は fully-resolved tree にする必要があるので,PAUP などで制約付きの解析を行って予め多分岐を含まない帰無仮説 (系統樹) を求めておく必要があります.

UNIX version

  • マニュアルの通りに操作することで,Unix にも簡単にインストールできました.Supercomputer ですが,「/usr/common/i686-linux/bin/puzzle」に puzzle がインストールされました.このため infile と同じフォルダに puzzle が無くても puzzle を起動することができます.このようなインストール方法に私はまだ不慣れですが,とても便利です.

  • Unix version は batch mode が使えるので非常に便利だと思います.Windows や Mac version では,Shimodaira-Hasegawa test を行う際に,各種パラメーターをあらかじめ推定しておいた場合は,これらを手作業で入力する必要があります.batch mode ではすべての設定を batch file に記入しておくことが可能です.

  • parames という batch file にパラメータを記入して,プログラムと同じディレクトリーに保存しておきます.そして以下のコマンドを入力します.ここではプログラムと一緒に配布されている「glob.a」というアミノ酸配列を使用しています. data フォルダに入っています
    ./puzzle glob.a < params.txt
    batch file はこちらを参照してください.

  • ただし,パラメーターの最尤推定は PAUP で行った方が良いように思えます.Topology を固定して GTR+I+G などのパラメーターを推定しようとしましたが,rate matrix だけが推定されず,すべて 1 (置換が同じ速度と仮定) になってしまいました.

気づいた点

  • outfile は自動的に上書きされてしまいます.解析が終了したら異なる名前にするなど,上書きされないように注意する必要があります.

  • 現在 PAUP ではアミノ酸の解析は MP しか対応していませんが,PUZZLE では塩基とアミノ酸,両方の解析が可能です.

  • SH-test などを行う際に,パラメーターを詳細に決定できます.PUZZLE (あるいは PAUP) で予め最尤樹のパラメーターを推定しておく必要があります.残念なのが,おそらく,SH-test を行う際に,毎回画面に表示される指示に従ってパラメーターを記入しなければならないことです (アミノ酸の場合など,amino acid frequency を 19 種類打ち込まなければならない).ひょっとしたら infile に書き込むことが出来るかも知れないので,ご存じの方がいたら教えて下さい (上記のように Unix の Batch mode ではこの操作が可能なことがわかりました).

  • Mac のターミナルを使う場合は,ホームディレクトリーのファイルのみを読み込むので注意が必要です.マニュアルに従って PUZZLE をコンパイルすると,src にアプリケーションが作成されます.これをダブルクリックすることで自動的にターミナル上で PUZZLE が起動しますが,同じディレクトリーに infile を入れておいても駄目で,なぜかホームディレクトリーにデータと tree の infile を入れておく必要があります.どうも Win バージョンの方が完成度が高い気がします.

  • 塩基配列の解析でパラメーターを入力する際,% で入力してください.最尤樹のパラメーターを求めた場合は,0.432 などのように % では表示されません.この誤りは outfile を見れば気がつきますが,入力の画面ではわかりません.アミノ酸の解析では,パラメータは % で求められるので,塩基の場合のような誤りは起きにくいです.

  • RY 解析 (塩基配列の A と G を R,C と T を Y として Transversion だけを用いる解析) には対応していません.解析に際してそのサイトは無視されるようです.

  • Windows で解析をする場合は,puzzle.exe をダブルクリックします.infile 名を聞かれるので答えると (もちろん tree file や sequence file は同じフォルダに入れておきます),以下の画面が出ます (これは解析がスタートしていますが).ここでは,SH test を行う準備段階として,樹形を選択して Bayes topology の最尤パラメータを推定しています.k を何度か選択して,画面のように「Evaluate user defined trees」にします.こうしておくと,解析をスタートされるために y を選択した後で,画面にあるように tree file 名を聞かれます.そして解析がスタートします.3500 残基,33 OTU で樹形固定の最尤パラメーター推定ですが,以下の画面のまま止まって,かなり時間がかかりました.2 時間弱でしょうか.Pinv と Gamma の shape parameters が outfile のどこに書いてあるのかわかりにくいですが,よく探すと書いてあります.


  • もし SH や KH test を行うのであれば,上記の操作で得た outfile のパラメータを打ち込む必要があります (上記の Unix バッチモードであれば,その必要はありません).「Evaluate user defined trees」を選んでおくと,自動的に SH と KH test を行ってくれます.