はじめに
近年、次世代シーケンシング(Next generation sequencing、NGS)技術はゲノミクスの分野に革命をもたらし、研究者は生物のゲノムをかつてないスピードと精度で研究できるようになりました。しかし、このような技術によって生成される大量のデータには圧倒され、意味のある情報を抽出することが、逆に難しくなってきています。
バリアントコーリングと変異解析はNGSデータ解析の重要なステップであり、研究者は遺伝的変異を同定し、それらが生物学的機能に及ぼす潜在的な影響を理解することができます。この記事では、NGSデータにおけるバリアントコーリングと解析の概要を説明し、このプロセスで使用される基本的な概念、方法、ツールを取り上げます。
バリアントコーリングとは?
バリアントコーリングとは、参照(レファレンス)ゲノムと個体または個体集団のゲノムとの間の差異を同定するプロセスです。バリアントと呼ばれるこれらの差異には、一塩基多型(Single nucleotide polymorphisms、SNP)、挿入(ins)、欠失(del)、構造変異などが含まれます。バリアントコーリングは、個体間や集団間の表現型の違いの根底にある遺伝的変異についての洞察を提供するため、NGSデータ解析における重要なステップです。
バリアントコールの方法
NGSデータ解析におけるバリアントコールにはいくつかの方法があり、それぞれに利点と欠点があります。最も一般的に使用される方法を以下に挙げます:
アライメントに基づく方法
アライメントベースの手法では、シーケンスリードを参照ゲノムにマッピングし、リードと参照ゲノム間の差異に基づいてバリアントを同定します。これらの手法には、Samtools、BWA/GATK、FreeBayesなどがあります。
De novoアセンブリーベースの手法
De novoアセンブリーベースの手法では、シーケンスリードをコンティグまたはスキャフォールドにアセンブルし、アセンブルされたゲノムと参照ゲノムとの差異に基づいてバリアントを同定する。これらの手法にはABySSやSOAPdenovoが含まれます。
ハイブリッド法
ハイブリッド法は、アライメントに基づく方法とde novoアセンブリーに基づく方法の両方を組み合わせ、両方のアプローチの利点を提供します。このような手法には、FermiKitやCortexがあります。
バリアント解析
バリアントが検出されたら、その生物学的機能への潜在的影響を理解するために解析する必要があります。この解析には、バリアントに注釈を付け、その機能的な結果を予測し、その結果を既存の知識と照らし合わせて解釈することが含まれます。バリアント解析に最もよく使われるツールを以下に挙げます:
バリアントアノテーションツール
バリアントアノテーションツールは、ゲノム内の位置、タンパク質コード領域への影響、集団における頻度など、バリアントの機能的影響に関する情報を提供します。これらのツールには、ANNOVAR、SnpEff、VEPが含まれます。
パスウェイおよびネットワーク解析ツール
パスウェイおよびネットワーク解析ツールは、生物学的プロセスの文脈におけるバリアントの影響を解析します。Variant Enrichment Analysis (VEA)、GENEASE、Pathvisioなどのツールは、キュレーションされたデータベース(Reactome、KEGG、wikipathways)からの情報を活用することで、バリアントの潜在的な機能的影響についての洞察を提供します。
バリアントコーリングと解析における課題
NGSデータにおけるバリアントコーリングと解析は、データが複雑でノイズが多かったり、使用される手法やツールが完全ではないことがあるため、困難な場合があります。バリアントコーリングと解析における課題のいくつかを以下に挙げます:
偽陽性と偽陰性
バリアントコーリング法では偽陽性や偽陰性の結果が出ることがあり、下流の解析でエラーになることがあります。偽陽性は、変異のないところでバリアントがコールされた場合に起こり、偽陰性はバリアントが見逃された場合に起こります。
レファレンスバイアス
バリアントコーリングは参照ゲノム(レファレンス)に依存していますが、レファレンスゲノムが集団や種内の遺伝的多様性を表現していない可能性があります。このようにレファレンスゲノムにバイアスがある場合、ある種のバリアントが過小評価されたり、他のバリアントが過大評価されたりすることがあります。
アリルドロップアウトおよび増幅バイアス
アリルドロップアウトおよび増幅バイアスは、シーケンス用のDNAサンプルの増幅中に発生する可能性があり、シーケンスデータにおける対立遺伝子の不完全または偏った表現につながります。これは、バリアントコールおよび解析の精度と完全性に影響を与える可能性があります。
データサイズと計算資源
NGSデータ解析は大量のデータを生成する可能性があり、保存、処理、解析に多くのな計算資源を必要とします。データのサイズは、バリアントコーリングと解析の精度と完全性にも影響する可能性があります。
これに対処するため、このプロセスを高速化するさまざまな方法があります。まず第一に、GATKはゲノムの異なる領域に対して複数のインスタンスを同時に実行することで、並列化することができます。これはGNU ParallelやApache Sparkのようなツールを使うことで実現できます。第二に、より高速なCPUにアップグレードしたり、RAMを増やしたり、GPUやFPGAを使用したりして、利用可能な計算能力を向上させれば、処理時間を大幅に短縮できます。基本品質スコアの再キャリブレーション(BQSR – 以前のブログはこちら)や重複マークなどの前処理ステップは、時間がかかることがあります。これらのステップを並行して実行したり、最適化することで、全体の処理時間を短縮することができます。また、データをリードのサブセットにダウンサンプリングすることで、結果の質を落とすことなく処理時間を大幅に短縮することができ、テストやプロトタイピングの目的で特に有用です。バリアントコーリングアルゴリズムの中には、他よりも高速なものもあり、Sentieonのような企業は、速度と精度の両方についてGATKを最適化しています。最後に、AWSのようなクラウド・コンピューティング・プラットフォーム上で直接、あるいはBasepairのようなバイオインフォマティクス・プラットフォームを介してこれらの手法を実行することで、スケーラブルでコスト効率の高いコンピューティング・リソースを提供することができ、大量のデータを短時間で処理することが可能になります。
結論
バリアントコーリングと解析はNGSデータ解析の重要なステップであり、研究者は遺伝子変異を同定し、それらが生物学的機能に及ぼす潜在的な影響を理解することができます。しかし、NGS技術によって生成される大量のデータと、使用される手法やツールの複雑さが、このプロセスを困難なものにしています。複数の方法とツールを使用し、結果を検証し、生物学的背景と既存の知識を考慮することによって、バリアントコールと解析の精度と完全性を向上させることができ、遺伝的多様性と生物学的システムの複雑性のより良い理解につながります。全体として、NGSデータにおけるバリアントコールと解析は急速に発展している分野であり、常に新しい手法、ツール、アルゴリズムが開発され、最適化されています。技術の進歩に伴い、バリアントコーリングと解析に関連する課題は減少し、結果の正確さと完全性が向上することが期待されます。
アライメント、重複排除、バリアントアノテーションを含むバリアントコーリングの詳細については、Knowledge centerの記事をご参照ください。また、これらのバリアントコーリングアルゴリズムの多くをご自身で簡単に試されたい場合は、Basepairプラットフォームの無料トライアルにご登録ください。
アライメント、重複排除、バリアントアノテーションを含むバリアントコーリングの詳細については、ナレッジセンターの記事をご参照ください。また、これらのバリアントコーリングアルゴリズムの多くをご自身で簡単に試されたい場合は、以下のBasepairプラットフォームの無料トライアルにご登録ください。
この記事は「An Overview of Variant Calling and Analysis in NGS Data」を翻訳、再構成したものです。