Introduction to Variant Calling: QC, Alignment, Deduplication, Variant Annotation

Introduction to Variant Calling: QC, Alignment, Deduplication, Variant Annotation

バリアント呼び出しパイプラインは、全ゲノムおよびエクソーム データ内に存在する単一ヌクレオチド バリアントを識別します。 変異は、個人のデータセットを参照配列と比較することによって特定されます。 バリアント解析は、全エクソーム、ターゲットパネル、および全ゲノム配列決定にとって重要な手順です。 バリアント呼び出しパイプラインは、相互リンクされた一連の連続ステップで構成されます。  

品質管理

バリアント呼び出しパイプラインの最初のステップには、生のシーケンス データの品質の評価が含まれます。 Illumina などのシーケンシング プラットフォームは、ヌクレオチド配列と関連する品質スコアを含む生のリードを FASTQ 形式で生成します。 品質の低いベースコールを含む読み取りは削除されます。 生のリードに付着したままのアダプター配列は、下流解析の前に除去する必要があります。 ツールの選択は、データ タイプ、アダプター コンテンツの量、およびその他のシーケンス アーティファクトによって異なります。 ツールの速度と精度も重要な要素です。

最後のステップは、20 塩基未満の非常に短いリードを削除することです。 これは、リードが短いほど参照ゲノム上の複数の位置があいまいにマッピングされる可能性が高く、SNP コールにバイアスが生じる可能性が高いためです。

入出力実在物道具フォーマット
入力生の読み取りトリムマティック / カットアダプトファストQ
出力品質管理された読み取りファストQ  

位置合わせ

フィルタリングされたリードは、burrows Wheeler aligner (BWA-mem) または BWA-aln アルゴリズムを使用して参照ゲノムにマッピングされます [1]。 生の (シングルエンドまたはペアエンド) リードのサイズに応じて、Bowtie-2 などの追加のアライナーも使用できます [2]。 すべてのアライナーは、FASTQ 形式の生の読み取りを入力として受け取り、配列アラインメント マッピング フォーマット (SAM) ファイルを生成します。 後続のステップでは、SAM ファイルはバイナリ アライメント ファイル形式 (BAM) に変換され、アライメント ファイルの記憶サイズが削減されます。 アライメントで使用されるファイルの詳細と期待される結果のファイル形式を以下に示します。  

入出力実在物道具フォーマット
入力生の読み取りBWAまたはボウタイピカードファストQ
出力アライメントされた読み取りアローン/バム

重複排除

誤検知結果の可能性を減らすために、マルチマップ、重複、および補足リードを下流分析から削除する必要があります。 この目的のために、Picard ツールを使用します。 下流のバリアント識別分析では、一意にアラインメントされたリードのみが使用されます。  

入出力実在物道具フォーマット
入力マッピングされた読み取りピカードバム
出力ユニークにアライメントされたリードバム

インデル(In/del)とバリアントコール周辺のローカル再調整

アライメントステップでは、特にインデルの周囲にアーティファクトが生じる可能性があります。 場合によっては、インデルの開始または終了をカバーするリードが誤ってマッピングされ、その結果、参照と不整列領域付近のリードとの間にばらつきが生じます。 ローカル再調整ステップでは、これらのアーティファクトを修正します。

ゲノム解析ツールキット (GATK) は重要な再調整ツールです。 GATK は、読み取られたサンプルごとに生のバリアントを呼び出し、これらのバリアントを既知のバリアントと比較して分析してキャリブレーション方法を適用し、各バリアントの誤検出率を計算します。 HaplotypeCaller と呼ばれる GATK アルゴリズムは、処理されたアラインメントリード内のすべての可能なバリアントを識別します。 GATK は、生のバリアントをバリアント呼び出しファイル (VCF 形式) に出力します。 ツールとその出力ファイル形式の詳細を以下に示します。  

入出力実在物道具フォーマット
入力ユニークにアライメントされたリードGATCハプロタイプコーラーバム
出力バリアント (SNP) のリストVCF

バリアントアノテーション

バリアント アノテーション ステップは、SNP アノテーション ツールを使用して、特定されたすべての SNP の機能と影響を特定することを目的としています。 アノテーションフェーズでは、生体情報が抽出されます。 機能情報は、核酸やタンパク質の配列などの入手可能な情報に基づいて DNA バリアントに割り当てられます。 SnPEff は、オープンソースのバリアント アノテーション ツールです [3]。 計算アルゴリズムを使用して有害な変異を検出することで、遺伝子に対する変異の影響を予測します。 さらに、ゲノムの位置に基づいて変異に注釈を付け、そのコーディング効果を予測します。 Basepair は 2 つの変異データベースを使用します。1 つはヌクレオチド変異に関する最も包括的なデータベースである dbSNP、もう 1 つはヒトの変異と表現型の関係に関するレポートのコレクションを含む ClinVar です [4]。 データは臨床試験、調査研究、その他の文献から ClinVar に収集されます。

バリアントとアノテーションの識別の重要性

バリアントの特定は、個人のゲノムのバリエーションの詳細なカタログを生成し、さまざまな病気や特定の DNA 変化の根本的な理由を特定する役割を果たします。 変異体はゲノム全体の関連研究において重要な役割を果たし、重要なマーカーとして機能します。 より正確に言えば、変異体は病気の遺伝子の発見に役立ちます。 病気の鍵となるゲノム変異を特定することは、精密医療の実りある目標を達成するのに役立ちます。 変異のほとんどはメンデル障害と関連しています。 さらに、公理配列などの SNP ベースの配列は作物の収量の向上に役立ちます。 SNP アノテーションは、SNP の悪影響と生体の疾患における SNP の役割をコンピューターで予測する重要な方法です。 SNP アノテーションは、エキソン領域、転写調節領域、およびその他の多くの機能的ゲノム領域に存在する SNP も識別します。  

SNPの可視化

ゲノムブラウザにより、研究者はアラインメントされたリードを視覚化できるようになりました。 これはデータを調査する上で重要なステップです。 Basepair が提供するようなゲノム ブラウザーを使用すると、アライメントされたリードに存在するバリアントを確認する機会が得られます。  

バリアントの検証

単一ヌクレオチド変異体は、サンガー配列決定またはゲノムワイド(GWAS)研究からのマイクロアレイジェノタイピングを使用して検証できます。 サンガーシークエンシングは、SNP の確認および検証のゴールドスタンダード技術とみなされています。 変異型コールは、さまざまな Affymetrix ゲノムワイド SNP アッセイを使用して遺伝子型を特定できます [5]。 それとは別に、MutationValidator と呼ばれる計算アルゴリズムは検証行列を生成することで変異相互検証を実行し、NGS テクノロジーを使用して突然変異を体細胞、生殖系列、または人為的変異として分類します。

Basepair の全エクソームおよび全ゲノム シーケンス パイプラインの詳細については、 製品ページをご覧ください。 

References 

[1] Li, H., & Durbin, R. (2010). Fast and accurate long-read alignment with Burrows–Wheeler transform. Bioinformatics, 26(5), 589-595.

[2] Langmead, B., & Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357. 

[3] Cingolani, P., Platts, A., Wang, L. L., Coon, M., Nguyen, T., Wang, L., … & Ruden, D. M. (2012). A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly, 6(2), 80-92.

[4] Landrum, M. J., Lee, J. M., Riley, G. R., Jang, W., Rubinstein, W. S., Church, D. M., & Maglott, D. R. (2013). ClinVar: public archive of relationships among sequence variation and human phenotype. Nucleic acids research, 42(D1), D980-D985.

[5] Pirooznia, M., Kramer, M., Parla, J., Goes, F. S., Potash, J. B., McCombie, W. R., & Zandi, P. P. (2014). Validation and assessment of variant calling pipelines for next-generation sequencing. Human genomics, 8(1), 14.