NGSデータの品質管理と前処理のベストプラクティス:研究者向けガイド

QC のベストプラクティス

学術研究者として、私たちは次世代シーケンス (NGS) データの分析が複雑で時間がかかる可能性があることを知っています。 NGSデータの品質は下流の分析の精度に直接影響するため、最初から高品質のデータを確実に生成することが不可欠です。 ここで、NGSデータの品質管理 (QC) と前処理が登場します。この記事では、NGS データの品質管理と前処理のベスト プラクティスについて説明し、学術研究者向けの包括的なガイドを提供します。

はじめに

次世代シーケンシング (NGS) テクノロジーはゲノム研究に革命をもたらし、前例のない解像度とスループットでのゲノム、トランスクリプトーム、エピゲノムの分析を可能にしました。 ただし、NGSデータの精度は生のシーケンスデータの品質に依存し、サンプルの品質、ライブラリの準備、シーケンス プラットフォーム、シーケンスの深度などのさまざまな要因の影響を受ける可能性があります。 NGS データから正確な結果が得られるようにするには、研究者はデータの品質管理 (QC) と前処理を実施する必要があります。 この記事では、QC と NGS データの前処理のベスト プラクティスに関する詳細なガイドを提供します。

NGSデータの品質管理

品質管理 (QC) は、生のシーケンスデータの品質を評価して、下流の分析に影響を与える可能性のある潜在的な問題を特定するプロセスです。 QC には、データ品質メトリクスの評価、アダプターの汚染の検出、低品質の読み取りの削除など、いくつかの手順が含まれます。 高品質のデータを確実に生成するには、研究者はサンプル調製後、ライブラリ調製後、シーケンス後など、NGS ワークフローのさまざまな段階で QC を実行する必要があります。

データ品質メトリクス

生のシーケンスデータの品質を評価することは、QC において不可欠なステップです。 品質メトリクスは、リード長、シーケンス深度、塩基品質、GC コンテンツなどのデータの全体的な品質に関する情報を提供します。 FastQC など、データ品質メトリクスを評価するためにいくつかのツールが利用可能です。FastQC は、特定のシーケンシングリードセットの品質メトリクスの包括的なレポートを提供します。

アダプターの汚れ

アダプターのコンタミネーションは、ライブラリーの調製に使用されるアダプター配列がシーケンスデータから完全に除去されていない場合に発生し、下流の分析で偽陽性や精度の低下につながります。 アダプターの汚染を検出して除去することは、QC における重要なステップです。 Trimmomatic や Cutadapt など、アダプターのコンタミネーションを検出するツールがいくつかあり、リードからアダプター配列を削除できます。

低品質の読み取りの削除

低品質の読み取りとは、ベースコールエラー、フェーズエラー、in/delエラーなどのシーケンスエラーを含む読み取りです。 これらのエラーは下流の分析の精度を低下させる可能性があるため、データから低品質の読み取りを削除することが不可欠になります。 Trimmomatic や Cutadapt など、品質スコアのしきい値に基づいてリードを削除できる、低品質のリードを削除するツールがいくつかあります。

NGSデータの前処理

NGSデータの前処理には、リードアライメント、転写物の定量化、発現差解析などのいくつかのステップが含まれます。 前処理により、バリアント呼び出し、発現差解析、機能アノテーションなどの下流解析にデータが確実に対応できるようになります。

読み取りアライメント

リードアラインメントは、シーケンシングリードを参照ゲノムまたはトランスクリプトームにマッピングするプロセスです。 リードアライメントには、Bowtie、BWA、STAR など、リードをリファレンスにマッピングするために異なるアルゴリズムを使用するいくつかのツールが使用できます。 アライメントツールの選択は、シーケンスデータのタイプ、参照ゲノム、下流解析などのいくつかの要因によって異なります。

転写物の定量化

転写物の定量化は、RNA-seqデータから転写物の存在量を推定するプロセスです。 転写物の定量化には、RSEM、Kallisto、Salmon など、転写物の存在量を推定するために異なるアルゴリズムを使用するいくつかのツールが利用できます。 転写物定量化ツールの選択は、配列データの種類、レファレンストランスクリプトーム、下流解析などのいくつかの要因によって異なります。

発現解析

差次的発現解析(Differential Expression)は、2つ以上の条件間で発現に差がある遺伝子を同定するプロセスです。 DESeq2、edgeR、limma などの発現差解析には、さまざまな統計モデルを使用して発現差のある遺伝子を特定するツールがいくつかあります。 発現差解析ツールの選択は、配列データの種類、実験計画、下流解析などのいくつかの要因によって異なります。

NGS データの QC と前処理のベスト プラクティス

NGS 実験から高品質のデータを確実に生成するには、研究者はデータの QC と前処理のベスト プラクティスに従う必要があります。 以下は、NGS データの QC と前処理のベスト プラクティスの一部です。

標準プロトコルに従う

結果の再現性と比較可能性を確保するには、研究者はサンプル調製、ライブラリー調製、およびシーケンスの標準プロトコルに従う必要があります。 標準プロトコルにより、データが高品質であることが保証され、下流の分析に使用できます。

あらゆる段階でQCを実施

QC は、サンプル調製、ライブラリー調製、シーケンスなど、NGS ワークフローのあらゆる段階で実施する必要があります。 QC は潜在的な問題を確実に特定して対処し、下流の分析に使用できる高品質のデータを生成します。

複数の QC ツールを使用する

正確な結果が確実に得られるように、研究者は複数の QC ツールを使用してデータ品質メトリクスを評価し、アダプターの汚染を検出し、低品質の読み取りを削除する必要があります。 複数の QC ツールを使用すると、QC プロセスの感度と特異性が向上し、高品質のデータが得られます。

高品質のレファレンスゲノムとトランスクリプトームを使用する

正確なリードアラインメントと転写物の定量化を確実に行うために、研究者は高品質の参照ゲノムとトランスクリプトームを使用する必要があります。 高品質の参照により、データが正確にマッピングおよび定量化され、正確な下流分析が可能になります。

標準化されたアノテーションを使用する

結果の比較可能性を確保するために、研究者は、バリアント呼び出しや関数アノテーションなど、下流の分析に標準化されたアノテーションを使用する必要があります。 標準化されたアノテーションにより、結果をさまざまな研究間で比較できるようになり、科学的な理解が深まります。

これらのベスト プラクティスを 1 か所に統合​​するプラットフォームを使用する

これらの各 QC ツールをデータに対して個別に展開して実行する方法を理解するには時間がかかり、バイオインフォマティシャンの支援が必要になる場合があります。 これらのいずれかが不足している場合は、特定のデータ タイプに適切な QC ツールを簡単に使用して結果を解釈できるようにするホスト型プラットフォーム (Basepairなど) の使用を検討してください。

結論

NGS データの品質管理と前処理は、下流の分析から正確な結果が得られるようにするために不可欠な手順です。 研究者は、実験から高品質のデータが確実に生成されるように、QC と前処理のベスト プラクティスに従う必要があります。 複数の QC ツールを使用し、標準プロトコルに従い、高品質のリファレンスと標準化されたアノテーションを使用することで、研究者は NGS データが高品質であり、下流の分析に使用できることを保証できます。

前述のツールはすべて、Basepair プラットフォームを通じて利用できます。

6サンプル フリートライアル 実施中

最大6つのサンプルを無料でアップロードして分析できます。アップロードされたサンプルに対する解析は無制限です。世界トップクラスの機関、研究室、製薬チームがBasepairを使用して、数千ドルを節約している理由をご覧ください。