Whole Genome Sequencing Analysis: An Overview
全ゲノム配列決定 (WGS) は、ハイスループットな方法でサンプルからゲノム全体を配列決定することを指します。 サンガー シーケンシングとは異なり、WGS はサンガー シーケンシングよりもコストメリットが高く、ゲノムを包括的にカバーする次世代シーケンシング テクノロジーです。 WGS プロセスはショットガン アプローチに基づいており、短いシーケンスを生成するフラグメンテーション プロセスで構成されます。 一般に、全ゲノム配列解析のデータ処理ステップは、参照ゲノムにマッピングすることにより配列決定で生成されたショートリードを使用して変異体を特定することを目的としています。 あるいは、生物の参照ゲノムが不明な場合は、 de novo アセンブリ手法を使用して連続配列を構築できます。 データ処理ステップに続いて、さまざまなアプローチを使用して、一塩基変異体の呼び出し、構造変異体の同定、コピー数変異解析、およびハプロタイプ研究を実行できます [1、2]。
全ゲノム配列解析パイプライン
ゲノム配列解析に使用される計算ツールは、いくつかの処理ステップに基づいています。 シーケンス後に取得された FASTQ ファイルをいくつかの分析パイプラインで実行することにより、サンプル内の遺伝的変異を含む最終ファイルを取得できます。 これらのステップは、VCF ファイルの生成に必要なすべてのデータ処理アプローチを含む VCF 前ステップと、既存の VCF からバリアントを抽出して注釈を付けるための VCF 後ステップとして分類できます。 これらのステップには、品質管理、位置合わせ、データの後処理、バリアント呼び出し、フィルタリング、およびアノテーションが含まれます [3、4]。
品質管理
品質管理ステップでは、シーケンス中に生成された FASTQ ファイルを使用して、メトリクスを推定し、生成されたフラグメントの品質を視覚化することを目的としています。 データ内で特定されたアーティファクトと低品質のフラグメントは、事前に定義されたパラメータに従って削除できます。 ここでは、深さ、カバレッジ、シーケンスアダプターの識別、エラーの割合などの重要な指標が推測されます。 このステップで使用されるバイオインフォマティクス ツールには、Fastqc ツールと fastp ツールが含まれており、どちらも WGS パイプラインの Basepair によって使用されます。
アライメント
参照ゲノムが既知の場合、ショートリードを参照ゲノムにアラインメントするには、通常、マッピングプロセス中の計算効率を削減および改善することを目的としたゲノムインデックス作成ステップが必要です。 インデックス作成中に生成されるファイルは、使用するソフトウェアによって異なる場合があります。 次に、リードは参照配列にマッピングされます。 WGS データに最もよく使用されるソフトウェアは BWA です。 Basepair は、このツールを使用したパイプラインを提供します。 このステップの出力として、アラインされた読み取りに関する情報を含む SAM または BAM ファイルが生成されます。 novo アセンブリの場合 de 、この分析を実行するために使用されるアルゴリズムは、配列決定されたフラグメントからのドラフト ゲノムのコンティグ アセンブリ、足場、およびギャップ充填に基づいています。 Basepair は、Trinity ツールを使用する de-novo アセンブリ パイプラインを提供します。
後処理分析
SAM または BAM ファイルを取得した後、参照ゲノムに一意にマッピングされたリードを並べ替えてフィルター処理する必要があります。 この後処理ステップは、バリアント呼び出し時のエラーを最小限に抑えるのに役立ちます。 Samtools、sambamba、Picard は、BAM および SAM ファイルの操作に広く使用されているソフトウェア ツールです。 ゲノム内の複数の場所にマッピングされるリードや重複リードは、通常、バリアント呼び出しには使用されません。 さらに、挿入領域と欠失領域の不一致によってマッピングのバイアスが生じるため、INDEL 再アライメントは全ゲノム配列解析に推奨されるもう 1 つのベスト プラクティスです。 この後処理ステップは、GATK ソフトウェアを使用して Basepair 上で実行されます。
バリアントコールとフィルタリング
バリアント呼び出しステップは、サンプルの DNA 内の多型領域を特定することを目的としています。 通常、この分析を実行するために使用されるアルゴリズムは、特定のバリアント (SNV または INDEL) が BAM ファイルの位置に存在する可能性に基づいています。 識別されたバリアントは、VCF ファイル形式で保存されます。 次のステップでは、バリアントをフィルタリングして、基本品質や深度など、必要な最低限の品質基準を満たすバリアントのみを保持します。 最後に、追加の注釈ステップを使用して情報を統合し、バリアントのフィルタリングと優先順位付けを改善できます。 Basepair がこのステップで使用するデータベースの詳細については、バリアント呼び出しの詳細な概要を参照してください。
ハイスループットシークエンシングは、構造的変異やコピー数の変異など、サイズが 50 bp を超える大きな遺伝的変異を同定するためにも使用できます。 これらの変異には、不均衡な欠失と重複、挿入、逆位、転座が含まれます。 このアプローチでは、一致しないアライメントと深さの特徴の情報を使用することで、サンプル内の多数の SV と CNV の検出が可能になります。 Basepair は CNV 解析に GATK を使用し、構造バリアントの発見に Manta を使用します。
WGS 分析から呼び出されたバリアントは、公的人口データベースからのデータを組み合わせ、家系情報を組み込むことによって、段階的なハプロタイプを再構築するのに役立つ可能性があります。
References
1. Rahman, Kathleen M., Meredith E. Camp, Nripesh Prasad, Anthony K. McNeel, Shawn E. Levy, Frank F. Bartol, and Carol A. Bagnell. 2016. “Age and Nursing Affect the Neonatal Porcine Uterine Transcriptome.” Biology of Reproduction 94 (2): 46.
2. Ng, Pauline C., and Ewen F. Kirkness. 2010. “Whole Genome Sequencing.” Methods in Molecular Biology 628: 215–26.
3. Kosugi, Shunichi, Yukihide Momozawa, Xiaoxi Liu, Chikashi Terao, Michiaki Kubo, and Yoichiro Kamatani. 2019. “Comprehensive Evaluation of Structural Variation Detection Algorithms for Whole Genome Sequencing.” Genome Biology 20 (1): 117.
4. Auwera, Geraldine A. Van der, Geraldine A. Van der Auwera, Mauricio O. Carneiro, Christopher Hartl, Ryan Poplin, Guillermo del Angel, Ami Levy-Moonshine, et al. 2013. “From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline.” Current Protocols in Bioinformatics.