Tutorial on Whole Exome Sequencing Analysis

Tutorial on Whole Exome Sequencing Analysis

次世代シーケンシング (NGS) 法により、超並列方式による大規模な DNA シーケンシング解析がますます可能になりました。 NGS 法の中で、全エクソーム シーケンス (WES) は、ゲノムのエクソン領域の配列を決定し、変異を検出することを目的としています。

WES と WGS: 利点と欠点

全ゲノム配列決定 (WGS) 技術を遺伝子診断に使用できますが、疾患の種類と複雑さによっては、WES の方が優れた方法となる場合があります。 WES は、まず第一に安価です 。WGS よりもデータ ストレージ コストが低く 、ダウンストリーム データ分析の手間がかかりません。 データ ストレージは大幅に削減され、WES ファイルの場合は 5 ~ 6 GB であるのに対し、一般的な WGS ファイルには 90 GB 以上が必要です。

WGS の最大の利点は、カバー範囲が高く、より多くのバリアント タイプを検出できることです。 わずか 2% ですが しかし、コーディング領域に対応するのはゲノムの 、既知の病気の原因となる変異体の約 90% がここにマッピングされています。 したがって、対象範囲の違いにもかかわらず、全エクソームシークエンシング解析は、全ゲノムシーケンシングに代わる費用対効果の高い代替手段としての地位を維持しています。

突然変異と構造的変異の臨床的関連性

WES アプローチには、点変異から構造変異の識別まで幅広い用途があります。 点突然変異クラス内では、一塩基変異体 (SNV) が最も頻繁に観察されるタイプです。 研究される一般的なタイプの SNV には、シノニム変異、ミスセンス変異、ナンセンス変異、インフレーム変異、フレームシフト変異、スプライス部位変異などがあります。 2 ~ 30 塩基対の挿入または欠失 (インデル) は、WES によって検出されるもう 1 つの一般的なタイプの変異です。 一般に構造変異体の同定には WGS が好まれますが、WES ではコピー数変異体 (CNV) やその他の染色体欠失の検出も可能です。

下流の分析中、変異クラスの特定は、変異の臨床的関連性の決定に強い影響を与えます。 一般に、WES 分析で同定されたほとんどの変異体は同義であるため、一部の特定の場合を除いて、コードされたタンパク質には影響を与えません。 同様に、プローブセットの設計に応じて、WES は通常臨床関連性のあるいくつかのイントロン変異も検出する可能性があります。 対照的に、ミスセンス変異体はタンパク質のアミノ酸変化を引き起こし、疾患のメカニズムによっては非常に有益な情報を提供する可能性があります。 ナンセンス突然変異およびフレームシフト突然変異は、それぞれ未熟な終止コドンを引き起こし、塩基対の挿入または欠失によって DNA 読み取りフレームを変更するため、タンパク質の機能に劇的な影響を与える可能性があります。 さらに、フレーム内変異は塩基対の挿入または欠失を引き起こし、フレームシフト変異とは異なり、常にトリプレットインデルを引き起こします。

プローブの設計

WES における重要なステップは、DNA プローブのハイブリダイゼーションを通じてコード領域を捕捉するエクソン濃縮で構成されます。 通常、これらのプローブは磁気ビーズに結合し、さらに沈殿して標的配列とともに増幅します。 入手可能な市販キットはプローブの種類や捕捉方法が異なる場合があるため、使用するエクソーム捕捉キットを考慮することが重要です。選択を誤ると、一部の領域が不均一にカバーされる可能性があります。 調査の目的に応じて、プローブをカスタム設計することもできます。 この目的を達成するために、増幅する標的領域を選択するために公開データベースを使用することができる。 ただし、エクソンをターゲットにするプローブを設計する前に、いくつかの詳細を考慮する必要があります。 GC リッチ領域、DNA フラグメントの品質、挿入サイズ、配列内の反復要素の存在など、多くの要因が WES 結果の品質を変える可能性があります。

WESデータの分析

エクソーム解析における高品質の結果は、データセットの処理方法と大きく関係しています。 したがって、全エクソームシーケンスデータ解析のプロトコルには、品質管理(QC)、生リードの前処理、ショートリードマッピング、アライメント後の処理、バリアントの呼び出しとアノテーション、バリアントの優先順位付けなどのいくつかのステップが含まれます。 シーケンシングプロセス中に導入されるシーケンシングエラー、低品質リード、アダプター、重複などの汚染物質やアーティファクトが存在する可能性があるため、QC メトリクスは、深さ、カバレッジ、シーケンスアダプターの識別に関する基本的な統計的尺度を生成することによってデータの品質を評価します。 、GC コンテンツ、および基本配布。 Basepair のパイプラインは、fastp ツールを使用して QC を実装します。

生データにはアーティファクトが存在するため、読み取り調整ステップ中のマッピングのバイアスを回避するために、トリミング、フィルタリング、アダプター クリッピングなどの読み取り前処理ステップを行うことを強くお勧めします。 参照ゲノムへの読み取りマッピングの場合、Basepair は、Bowtie と BWA という 2 つの主要なツールをサポートしています。 どちらも参照ベースのマッピングを実行します。 ここでは、ゲノム領域の深さや範囲などの重要な QC 指標が評価されます。 この後、アライメント後の処理ステップでマルチマップされた重複リードが削除され、バリアント呼び出しステップ中の対立遺伝子のバイアスが最小限に抑えられます。

変異呼び出しステップでは、分析されたサンプル中に遺伝的変異が実際に存在する確率を計算します。 バリアント呼び出し用の最も人気のあるソフトウェア パッケージの 1 つは GATK です。 偽陽性 SNP コールを回避するには、位置ごとの最大リード深度、ギャップリードの最小数、コールされる塩基品質を向上させるための塩基アライメント品質の再計算など、適切なパラメータを設定することが重要です。 さらに、バリアント アノテーションは、呼び出される各バリアントに関する関連情報を統合することを目的としています。 ここでは、SnpEff/SnpSift や VEP などのソフトウェアを使用して、変異型、遺伝子への影響 (アミノ酸の変化など)、影響、およびヒト集団での出現頻度に注釈を付けることができます (例: DbSNP データベースを使用)。 この情報は、エクソーム配列解析における下流のフィルタリングと優先順位付けを実行するために非常に重要です。

エクソーム配列決定からは、数百から数千の変異体が得られる可能性があります。 ここで、原因となるバリアントの検索スペースを減らすことは非常に困難です。 全体的に、ユーザーは効果、突然変異の影響、接合性によって見つかったバリアントを並べ替えることができます。 より洗練された統計テストが役立つ場合もありますが、通常はかなりのサンプル サイズが必要です。 直接データフィルタリングの代わりに、WES データを使用すると、実験研究デザインに応じて、ゲノムワイド関連研究 (GWAS)、表現型または遺伝子型ベースのアプローチ、遺伝子特異的分析、および家族ベースの研究を実行できます。

Basepair の全エクソーム シーケンス パイプラインの詳細については、 製品ページをご覧ください。 

References

1. Hintzsche, Jennifer D., William A. Robinson, and Aik Choon Tan. 2016. “A Survey of Computational Tools to Analyze and Interpret Whole Exome Sequencing Data.” International Journal of Genomics and Proteomics 2016 (December): 7983236.

2. Pabinger, Stephan, Andreas Dander, Maria Fischer, Rene Snajder, Michael Sperk, Mirjana Efremova, Birgit Krabichler, Michael R. Speicher, Johannes Zschocke, and Zlatko Trajanoski. 2014. “A Survey of Tools for Variant Analysis of next-Generation Genome Sequencing Data.” Briefings in Bioinformatics 15 (2): 256–78.

3. Retterer, Kyle, Jane Juusola, Megan T. Cho, Patrik Vitazka, Francisca Millan, Federica Gibellini, Annette Vertino-Bell, et al. 2016. “Clinical Application of Whole-Exome Sequencing across Clinical Indications.” Genetics in Medicine: Official Journal of the American College of Medical Genetics 18 (7): 696–704.

4. Suwinski, Pawel, Chuangkee Ong, Maurice H. T. Ling, Yang Ming Poh, Asif M. Khan, and Hui San Ong. 2019. “Advancing Personalized Medicine Through the Application of Whole Exome Sequencing and Big Data Analytics.” Frontiers in Genetics 10 (February): 49.