GATKパイプラインで塩基品質スコア再キャリブレーション(Base quality score recalibration、BQSR)を行う必要がありますか?既知部位のvcfファイルがない場合、どのように行うべきでしょうか?

(a) 残念なことに、次世代シーケンサーによって生成される品質スコアは、様々な系統的技術的エラーの原因となり、データ中の塩基の品質スコアの過大評価または過小評価につながります。これらのエラーは、シーケンス反応の物理的または化学的な仕組みによるものである場合もありますし、装置個体差やそもそも装置の違いよるものと考えられます。BQSR(Base quality score recalibration)は、機械学習を適用してこれらのエラーを経験的にモデル化し、それに応じて品質スコアを調整するプロセスです。これにより、より正確なベースクオリティを得ることができ、バリアントコールの精度が向上します。我々は、BasepairではGATKパイプラインの一部として、BSQR再キャリブレーションステップを提供しています。

(b) BQSRはオプションではありますが、バリアントコーリング解析では非常に推奨されるステップです。  既知のバリアントセットがない生物を使用している場合、いくつかの追加処理が必要になりますがこのステップで使用する既知のバリアントセットを作成することは可能です。この手順はブートストラップと呼ばれます。まず、BQSRを実行せずにバリアントをコールし、バリアントをフィルタリングして信頼度の高いバリアントセットを得ます。次にこれらのバリアントをBQSRステップの入力として使用します。

この記事は「BQSR recalibration in the GATK pipeline: Is it necessary to do base quality score recalibration (BQSR) in the GATK pipeline? How should this be done without an available vcf file of known sites?」を翻訳、再構成したものです。