|
|
Gene Ontology (GO, 遺伝子オントロジー)とは,遺伝子の機能の記述に関して,生物学分野における共通語彙の作成を目指した用例辞書の一つです (統合テレビ).遺伝子の機能を階層化して分類・整理したうえで,機能的に関連する遺伝子群を様々な側面から抽出可能にすることを目指しています (橋口, 2012).上記の作業で得られた情報がデータベースとして公開されています.こちらの説明が批判も含めてわかりやすいです.
Gene Ontology では,遺伝子の機能を階層的に分類しています.最上位の階層 (category) は,
(1) biological process (生物学的プロセス)
(2) cellular component (細胞の構成要素)
(3) molecular function (分子機能)
の 3 つです. それぞれの階層の中には,さらに下位の階層があります (橋口, 2012).
|
FuncAssociate を用いた Enrichment 解析 |
|
大量に得た遺伝子の集合にどのような機能を持つものが多く含まれているのかを,大まかに知る作業です.Gene Ontology で提供されている遺伝子の機能に関する情報を,Ensembl の gene ID (など) ごとに割り振ります.RNA-seq やマイクロアレイのデータでもよく行われているようです.
GeMDBJ で様々なツールが概観されています.ここでは Web 上で手軽にできる FuncAssociateで解析します.
例題 FAexamplesJI.tar.gz をダウンロードしてください.queries.txt と
all.txt という 2 つのファイルが入っています.それぞれ Ensembl の Human protein ID が書かれています.queries.txt ファイルの ID はすべて all.txt に入っており,all.txt をバックグラウンドとして解析します.
私たちの理解が正しければ,FuncAssociate 2.0 で出来るのは,
A vs (A+B) と B vs (A+B)
という比較のようで,サンプルと母集団が包含関係になっている必要があるようです.つまり,「全体で○○個ある中で,サンプルに○○個出現することは有意なのか?」という解析のようです.
|
|
インファイルの入力 |
|
Gene Space File については DOCUMENTATION > Inputs form を参照してください.Functionate! を押してから結果が得られるまで数秒かかります.
|
|
結果 |
|
Download Results を押してください. |
|
|
得られたファイルをエディターで開いて余分な行を削除します.その後 Excel でこのファイルを開くと,上のような表が得られます.
N: queriex.txt でヒットした ID の数.
X: all.txt でヒットした ID の数.FuncAssociate では Gene Space として定義されているもの.
LOD: Logarithm (base 10) of the odds ratio; positive and negative values indicate over- and underrepresentation, respectively
P: P value
P_adj: P value (Berriz et al によると Bonferroni-corrected とは少し異なるようです.Berriz et al と Deo et al が参考になります.ダウンロード後 Padj で検索してください).
attrib ID: Gene ontology ID
attrib name: Gene-ontology attribute
|
* FuncAssociate は同じデータで解析をやっても,異なる結果が得られることがあるそうです.
* 充分に検討したわけではありませんが,Ensembl の Protein ID と Gene ID でも解析結果が結構違う気がします.ID の性質上,Gene ID の方が信頼できる気がします.GO 解析自体おおざっぱな解析なので,微妙な違いであれば追求しすぎても仕方が無いと思います.
|
|
|
|
このページは,主に佐藤行人さんと勉強して得られた情報を書いています.
|
|