Pfam

2026 年 5 月 20 日 改訂

Pfam は、多くの一般的なタンパク質ドメインをカバーする多重配列アラインメントと隠れマルコフモデル(HMM)の大規模なコレクションです。具体的には、タンパク質配列をドメイン単位で分類・注釈するためのデータベースで、各ファミリーは curated なシードアラインメントをもとに HMMER3 で構築されたプロファイル HMM として表現されています。Pfam は HMMER3 パッケージを用いており、これは Sean Eddy のグループ(HHMI/Harvard)が開発したものです。 EMBL-EBI Readthedocs

Pfam の独立ウェブサイトは廃止 (2022 年)され (link)、Pfam データは現在 InterPro ウェブサイトを通じて提供されています。

 

PfamScan

PfamScan は「自分の配列を Pfam HMM に対してスキャンして、どのドメインが含まれるかを調べる」ツールです。2つの形態があります。

@ ウェブサービス版 EMBL-EBI の Job Dispatcher 上で現在も提供されています(https://www.ebi.ac.uk/jdispatcher/pfa/pfamscan)。配列を貼り付けて Pfam に対して検索できます。

A ローカル実行版(pfam_scan.pl) FTP サイトの Tools ディレクトリに pfam_scan.pl のコードが置かれており、README にインストール・実行方法が記載されています。モジュール設計になっており、他の Perl スクリプトへの組み込みも容易です。HMMER3 と Pfam の HMM ファイルをローカルに用意して使うスタンドアロンツールです。 Readthedocs


実際の使い分け

目的 推奨ツール
少数配列の Pfam 検索(ウェブ) PfamScan (EBI) または InterProScan
大量配列のバッチ処理(ローカル) pfam_scan.pl またはローカル InterProScan
Pfam データの閲覧・検索 InterPro ウェブサイト

なお、InterProScan を使っても Pfam の結果は得られます(Pfam はメンバーデータベースの一つなので)。大量配列を扱う研究用途では InterProScan のほうが汎用性が高く、Pfam 以外のデータベース結果も同時に取得できるため、こちらを好む人も多いです。