このブログでは、RNA-seqにおけるオルタナティヴ・スプライシング(alternative splicing、AS)の変化を調べるためのパイプラインを紹介します。簡単な覚え書きとして、遺伝子は、どのエクソンと転写開始部位が転写に使われるかによって、多くの形態(アイソフォーム)を持つ可能性があります。オルタナティヴ・スプライシングは、細胞が特定のアイソフォームを優先的に発現するプロセスです。Basepairはアイソフォームレベルの定量化のためのパイプラインを提供していますが、この新しいパイプラインは、スプライシング変化を検出するための新しい最先端のツールであるLeafCutterを使用しています。他のオルタナティヴ・スプライシング検出ツールと比較して、LeafCutterはより正確で効率的であり、直感的な可視化を提供します[1]。以下に、Basepairのパイプラインの主な特徴を紹介します:
1. 2つの グループのスプライシング変化を比較する
RNAスプライシングパイプラインは、イントロンにマッピングされたリードを使用して、2つのサンプルグループ間の新規および既知のオルタナティヴ・スプライシングイベントの有意差を統計的に検定します。検出可能な代替スプライシングイベントは以下の通りです: (1)スキップされたエクソン、(2)5′および3′の代替スプライスサイトの使用、および(3)イントロンの切除・包含の違いによって要約される追加の複雑なイベント。
2. インタラクティブに結果を探索する
このパイプラインは、結果を探索できるように、インタラクティブな図と2つの表を提供します。メインの表は、ASイベントが発生した場合の遺伝子ごとの統計的有意性をまとめたものです。任意の行をクリックすると、より詳細な表と視覚化が表示されます。詳細な表には、ASイベントに関与するエクソンが表示され、それらの結果を視覚化するインタラクティブな図が表示されます。
3. 最先端の技術としてのLeafCutter
他の手法と比較して、LeafCutterはエクソンの包含率よりもむしろイントロンの除去に重点を置いているため、あいまいな転写産物のアノテーションの必要性がなくなります。他の手法と比較して、LeafCutterのアプローチは他のアルゴリズムと比較して高い精度と感度を提供します。さらに、時間とメモリの消費量も大幅に少ないです[1]。
検証
ここでは、一般に公開されているRNA-seqデータセットを用いて、RNAスプライシングパイプラインの妥当性を実証します。データは2つの患者グループのヒト脳細胞から得られました: (1)6人の神経学的に正常な患者と5人のSOD1-ALS(筋萎縮性側索硬化症)患者からなる対照群と、(2)8人のFTD(前頭側頭型認知症)患者からなる疾患群です。このデータセットはConlon et al. (2018) によって以前に解析されており[2]、その結果はオンラインで公開されています。
我々はBasepairの結果とConlon et al. (2018) との比較において2つのアプローチを用いたが、この分析における1つの注意点は、アライメントパイプラインの違いにより、我々の結果がConlon et al. (2018) の結果と完全に一致することは期待できないということです。それにもかかわらず、我々が用いた最初のアプローチは、検出されたASイベントの座標を用いて、結果の重複量を決定することでした(図1)。2つの結果セットでは、68%の有意なオルタナティヴ・スプライシングイベントが同じでした。
図 1:BasepairとConlon et al. (2018) によって検出された差分オルタナティヴ・スプライシングイベント数の重複を示すベン図。
2つ目のアプローチでは、検出されたASイベントのΔPSI(delta psi)値を比較しました。PSIはPercentage Spliced Inの略で、サンプル群における所定のイントロンを含む転写産物の平均的な割合として定義されます。したがって、ΔPSIは2つのグループ間のイントロン使用の割合の差を意味します。ΔPSI値が大きいほど、有意性が高いとみなされます。図2は、BasepairとConlon et al. (2018) によって報告されたΔPSI値の散布図です。 重要な結果は、2つの結果セット間の強いピアソン相関(0.972)とR二乗(0.945)です。これは、BasepairがConlon et al.(2018) によって発表された結果とよく一致した結果を達成したことを示しています。
図 2:BasepairとConlon et al. (2018) によって検出された一般的な差分オルタナティヴ・スプライシング事象について報告されたΔPSI値の散布図。ΔPSI値間の相関は0.972で、R二乗は0.945です。有意なASイベントを定義するための閾値は、調整p値≦0.1および|ΔPSI|≧0.1です。
パイプライン の動きを見る
新しいパイプラインの構築において、Basepairの最終的な目標は、バイオインフォマティクスの経験がほとんどない研究者も含め、研究者が遺伝子データを理解し、研究プロセスを加速することを支援することです。この最新のオルタナティヴ・スプライシングパイプラインを試すには、Basepairの無料アカウントに登録します。新規ユーザーは6サンプルまで無料で追加でき、各サンプルについて無制限に分析を実行できます。
参考文献
- Li, Yang I et al. “Annotation-free quantification of RNA splicing using LeafCutter.” Nature genetics vol. 50,1 (2018): 151-158. doi:10.1038/s41588-017-0004-92.
- Conlon, Erin G et al. “Unexpected similarities between C9ORF72 and sporadic forms of ALS/FTD suggest a common disease mechanism.” eLife vol. 7 e37754. 13 Jul. 2018, doi:10.7554/eLife.37754