ORTHOSCOPE のチュートリアルs

2022 年 8 月 16 日 改訂

ORTHOSCOPE は遺伝子系統樹を推定して、異なる種の間で同じ機能の遺伝子を判定するウェブツールです。このため、同じ機能を持った遺伝子が、他の種に存在するか、あるいは何個あるかカウントできます。

ユーザーは、解析の対象とする種を、左右相称動物約 500 種から選べます。解析には、DNA 配列 (あるいはアミノ酸配列) をクエリ配列として用います。

まずは、統合テレビによる解説や以下のスライドご覧ください。



例題

解析方法

1. Example: fasta file をクリックして、クエリ配列 (fasta 形式) をコピーします。

2. テキストボックスに配列をペーストします。

3. 「Execute」を押して、解析スタートします。右の例題だと、20 秒以内に解析が終わります。

 

 

 

   

「Mode: Comparing gene and species trees」を選べば、オーソグループ (以下のコラム参照) が自動的に判定されます。クエリ配列の名前は右のルールに従ってください。



Execute 後の ORTHOSCOPE 自動解析の流れ

(1) クエリ配列に類似した配列を、複数種のゲノムデータから収集。

(2) 収集した配列に基づいて、遺伝子系統樹を推定。

(3) 種系統樹と比較して、オーソグループを判定
  (Mode: Comparing gene and species trees)。

 


結果の解釈
問い:後口動物それぞれの系統に、Brachyury 遺伝子はいくつあるでしょうか?

result3629.zip

モデル動物では、機能が判明している遺伝子が多いです。上の図で、ショウジョウバエとヒトの両者で、Brachyury 遺伝子が入っているクレード (オーソグループ) に含まれる遺伝子は、同じ機能を持っていると見なせます。この考えに基づいて ORTHOSCOPE は、後口動物のそれぞれの種が、Brachyury 遺伝子を何個持っているか、算出します。

ORTHOSCOPE で予想された結果は、実験的に機能を確かめる際のヒントになります。なお、出力として得られる PDF ファイル (遺伝子系統樹) は、Adobe Illustrator などで論文の図などに加工できます。


オーソグループとは

ORTHOSCOPE の機能推定は、オーソグループ (orthogroup) に基づくものです。

オーソグループとは、共通祖先の一つの遺伝子から派生した遺伝子のセットです (Emms and Kelly 2015)。ORTHOSCOPE は、オーソログを集めたい分類群 vs その姉妹群の分岐 (key node)、に対応する分岐 (basal node) を、遺伝子系統樹から探します。そして、この basal node を根幹とする単系統群をオーソグループとして判定します。

オーソグループを構成する遺伝子は、比較によっては、パラローガスな (遺伝子重複で別れた) 関係にあります。しかし、姉妹群である種-3 の遺伝子と比較した場合は、分類群 I である種-1-2 の遺伝子は全てオーソロガスな (種分化で別れた) 関係です。


クエリとなる遺伝子配列を得る

クエリとなる遺伝子配列は、NCBI か Ensembl から得られます。以下は、NCBI から配列を得ています。「Brachyury Ciona intestinalis」を検索し、配列をコピーして ORTHOSCOPE 解析に使ってください。ORTHOSCOPE 解析はコーディング配列 (CDS) の解析を想定しています。

 

練習問題

10 人を超えるような授業で同時に解析を行う場合は、サーバーの負荷を減らすために、ミラーサイトを使い分けてください:

1〜6 月生まれの人:yurai http://yurai.aori.u-tokyo.ac.jp/orthoscope/Deuterostomia.html

7〜12 月生まれの人:viento http://157.82.133.212/orthoscope/Deuterostomia.html

 

ガン抑制遺伝子のコピー数を数える

1. ゾウのコピー数
ゾウ (Loxodonta africana) はガンになりにくい。それはガン抑制遺伝子 P53 のコピー数が多いことが一つの要因らしい (Nature ダイジェスト)。それでは、ゾウに近縁なハイラックスやマナティーでは、P53 遺伝子のコピー数は増えているだろうか。ORTHOSCOPE を使って確かめてみましょう。ゾウの系統的位置は、こちらから調べてください。
ヒント:
クエリ配列は NCBI Human P53 など。ORTHOSCOPE 解析は「Focal group: Mammalia」。
1 つの種から遺伝子コピーを多く集めるので、例えば、「Number of BLAST hits to report per genome: 10」と設定。

2. ハダカデバネズミのコピー数
ハダカデバネズミ (Heterocephalus glaber) も、長生きの割にガンになりにくい。ハダカデバネズミも P53 遺伝子のコピーをたくさん持っているでしょうか。

哺乳類なので、Focal group を Mammalia で解析してください。

答え:result3658.zip解説

 

名前が類似した 3 遺伝子のうち、どの 2 つが進化的に近いか調べる

The GLIS family transcription factors, GLIS1 and GLIS3, potentiate generation of induced pluripotent stem cells (iPSCs), although another GLIS family member, GLIS2, suppresses cell reprograming. Using ORTHOSCOPE, Yasuoka et al (2019) showed that GLIS1 and GLIS3 originated during vertebrate whole genome duplication, whereas GLIS2 is a sister group to GLIS1/3. Let's Make sure GLIS gene relationships using ORTHOSOCPE.

Hints:
"Focal group: Deuterostomia"
Queries: human GLIS1 (XM_017000408), GLIS2 (NM_001318918), GLIS3 (NM_001042413), GLI2
(NM_005270), and ZIC1 (NM_003412).
Whole genome duplication (WGD) occured in early vertebrate evolution (Link).

Please use analysis mode, Vertebrata.

Answer: result3661.zip. Comments.

 

Fad2 遺伝子は淡水魚でコピー数が多い?

Ishikawa et al. (2019) は、淡水に侵入するイトヨでは、海域に生息するイトヨよりも、DHA 合成に関わる Fads2 遺伝子のコピー数が多いことを見出した。それでは、真骨類では一般的に、海水魚よりも淡水魚の方が Fads2 遺伝子のコピー数が多いと言えるだろうか?

ヒント: Instruction の「Example Data: Ishikawa et al (2019)」を参照。

 

ホヤ CesA 遺伝子は本当にバクテリアから水平伝搬してきた?

ホヤは動物界で唯一、セルロースを合成できる CesA 遺伝子を持っている (笹倉研究室)。ホヤは成体になると、セルロースでできた殻で体を覆って岩などにくっついてしまい、その後はずっと植物のような生活を送る。Nakashima et al. (2004) は、ホヤがCesA 遺伝子をバクテリアから水平伝搬によって得たと推定した。それが本当なら、少なくともホヤ類以外の動物は、CesA 遺伝子を持っていないはずである。ORTHOSCOPE 解析で、そのことを確かめてみましょう。

ヒント: Instruction の「Example Data: Inoue et al (2019)」を参照。

 

オーソグループの配列だけを使った系統樹推定

DeuterostomeBra_2ndAnalysis.zip

この解析パイプラインは、ダウンロードして利用します。ORTHOSCOPE 解析の結果を元に、オーソグループのメンバーに絞った系統樹を推定できます。スクリプトは Mac 解析用に Python3 で作成しました。Windows ユーザーはスクリプトを若干改訂する必要があるかもしれません。


必要なプログラムのインストール

系統樹を推定するには、いくつかの解析プログラムをインストールして、パスを設定する必要があります。

RAxML:
こちらから利用できます:https://github.com/stamatak/standard-RAxML
最新版をダウンロード & 解凍してください。解凍してできたディレクトリ (例えば、standard-RAxML-8.2.12) にターミナルから入り、PThreads バージョンをコンパイルしてください。作成されたプログラムを、PATH が設定されたディレクトリにコピーしてください。

cd standard-RAxML-8.2.12
make -f Makefile.SSE3.PTHREADS.gcc
cp raxmlHPC-PTHREADS-SSE3 ~/bin

パスにアドレスを追加します。例えば、

export PATH=$PATH:~/bin


Mafft v7.407:
こちらから利用できます:https://mafft.cbrc.jp/alignment/software/
コンパイルしたのち、こちらのサイトに従ってパスを設定してください。


trimAl v1.2 (Official release):
こちらから利用できます:http://trimal.cgenomics.org/downloads
ターミナルから trimAl/source に入り、 make とタイプしてください。作成されたプログラムを所定の場所にコピーしてください。

make
cp trimal ~/bin


pal2nal.v14:
こちらから利用できます:http://www.bork.embl.de/pal2nal/#Download
Perl script のパーミッションを変更して、所定の場所にコピーしてください。

chmod 755 pal2nal.pl
cp pal2nal.pl ~/bin


Ape in R:
R (3.5.2) はこちらから利用可能です。
R をインストールすれば、rscript は自動的にインストールされるはずです。
R のパッケージである APE は、R コンソールから以下のようにインストールできます:

install.packages("ape")


系統樹の推定

1. 適切なアウトグループとオーソグループメンバーを 010_candidates_nucl.txt file に保存します。アウトグループとなる配列は、アライメントの一番最初に置いてください。NCBI などから得た配列 (additional sequence) をここで加えることができます。

2. 100_2ndTree.tar.gz ファイルを解凍してください。
3. 解凍してできた 100_2ndTree ディレクトリにターミナルから入ってください。
4. パイプラインを走らせます.

./100_estimate2ndTree.py

5. ML tree は 200_RAxMLtree_Exc3rd.pdf に保存されます.

トランスクリプトームデータ解析シリーズ

1. SRA データのダウンロード
2. fastq データの検証: fastqc
3. アダプター配列の除去: Trimmomatic
4. アッセンブル: Trinity
5. 転写配列の推定: TransDecoder
6. 類似配列の除去:CD-HIT
7. オーソログ推定: ORTHOSCOPE