ATAC-Seq解析とパイプラインの概要

ATAC-seq解析

Assay for Transposase-Accessible Chromatin (一般的に ATAC-seq と呼ばれます) は、トランスポザーゼに依存してゲノム レベルでクロマチンのアクセス可能性を研究するハイスループット シーケンス技術です [1]。クロマチンのアクセシビリティは、遺伝子発現を制御するクロマチン化 DNA と核高分子の物理的接触の尺度です [2]。 NGS アダプターはトランスポザーゼにロードされ、開いたクロマチン領域で DNA を断片化し、NGS アダプターを組み込みます。準備されたライブラリは、NGS プラットフォームのいずれかを使用して配列決定されます。

ATAC-seq メソッドは、開いたクロマチン構造、ヌクレオソームの位置、転写因子の位置を研究するための新しい方法を探していたときに、Jason Buenrostroによって初めて発見されました [3]。以前の方法の限界を克服するために、チーム全体が、より少ない量の出発物質(細胞)から全体的なエピジェネティックプロファイルを分析するのに役立つ新しいアッセイを開発しました。この方法は、Nextera (現在は Illumina に買収) のシーケンシング アプローチで、以前に使用されていた過剰活性 Tn5 トランスポザーゼに依存していました。

ATAC-seqは、高活性 Tn5 トランスポザーゼを使用してアダプターを切断し、アクセシビリティが向上した領域にライゲートします。これらの領域は、後でさまざまなNGSプラットフォームを使用して配列決定されます。まず、細胞を収集して溶解の準備をし、その後、転移反応と精製を行います。次のステップでは、PCR 増幅とライブラリーの調製が実行されます [1]。その後、イルミナのハイスループットシーケンスが実行され、ペアエンドモードでシーケンスリードが取得されます。

出発材料として多数の細胞を必要とする ChIP-seq、Dnase-seq、MNase-Seq、および FAIRE-seq とは異なり、ATAC-seqはより小さなサンプルサイズを使用できます。 ATAC-seq は、ゲノム全体のクロマチンへのアクセス性を研究するための、より迅速で費用対効果の高いアプローチであると考えられています。また、ゲノムのアクセス可能な領域におけるヌクレオソームの位置を研究するためにも使用されます。さらに、別個のアダプターライゲーションステップ、ゲル精製、および架橋反転は必要ありません[4]。

ATAC-seq パイプラインの概要

ATAC-seq パイプラインは、生データを処理して意味のある結果を取得するためのいくつかのステップで構成されています。 ATAC-seq データ分析の最初のステップは、生のリードの QC (品質管理) を実行することです。 fastp ツールを使用すると、品質管理、アダプターのトリミング、品質フィルタリング、および読み取り品質のカットを実行できます [5]。

次のステップでは、Bowtie2などのツールを使用して、トリミングされたリードを目的の参照ゲノムにマッピングします。アダプターはすでにトリミングされているため、位置合わせはエンドツーエンドのペアエンド モードで実行できます。次のステップに進む前に、マッピング統計を取得して、一致してマッピングされたリード ペアの数を確認できます。マッピングされていないリードはすべて、シーケンス エラーの結果である可能性があるため、フィルターで除外する必要があります。

ATAC-seq データには、ゲノムのミトコンドリア領域にアラインメントする多くのリードが含まれています。ヌクレオソームを含まないため、Tn5 挿入に非常にアクセスしやすいです。低品質のリードや適切にペアになっていないリードを含むこれらすべてのリードは、下流の分析に進む前に削除する必要があります。

PCR 増幅ステップでは、同じ元の DNA フラグメントが増幅される場合があり、これにより、複数のリードが同じゲノム位置に整列することになります。これにより、特定の DNA フラグメントのサンプリングが過剰になるため、下流の分析の前に除去する必要があります。重複を削除するには、Picard ツールの MarkDuplicate プログラムを使用できます。後続のステップでは、挿入サイズ (読み取りペア R1 と R2 の間の距離) が Picard CollectInsertSizeMetrics でチェックされます。インサートのサイズをチェックすると、サンプルのフラグメント長の分布を特定するのに役立ちます。

前の手順で前処理されたファイルを取得した後、MACS2 を使用してピークを識別できます。ピーク コール ステップは、潜在的なオープン クロマチン領域に対応する領域を見つけるのに役立ちます。 MACS2 は、呼び出されたピークを BED 形式で出力します。BED 形式には、倍数変化、p 値、およびその他の統計に加えてピーク座標が含まれます。

結果の概要

MACS2 から取得したカバレッジ ファイルには、ピークの読み取りカバレッジの詳細が含まれています。このファイルは、ゲノム ブラウザ (IGV または UCSC ブラウザなど) を使用して視覚化できるように、ベッドグラフ形式に変換する必要があります。ゲノム ブラウザーを使用すると、転写因子、プロモーター、エクソン、遺伝子間領域などのゲノム アノテーションと並んでピーク シグナルを視覚化できます。プロジェクトの目的が選択された領域を確認することである場合、Basepair の ATAC-seq 解析に含まれているヒートマップが計算でき、報告します。

References

1. Sun, Y., Miao, N., & Sun, T. (2019). Detect accessible chromatin using ATAC-sequencing, from principle to applications. Hereditas, 156(1), 1-9.

2. Klemm, S. L., Shipony, Z., & Greenleaf, W. J. (2019). Chromatin accessibility and the regulatory epigenome. Nature Reviews Genetics, 20(4), 207-220.

3. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y., & Greenleaf, W. J. (2013). Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nature methods, 10(12), 1213.

4. Buenrostro, J. D., Wu, B., Chang, H. Y., & Greenleaf, W. J. (2015). ATAC‐seq: a method for assaying chromatin accessibility genome‐wide. Current protocols in molecular biology, 109(1), 21-29.

5. Chen, S., Zhou, Y., Chen, Y., & Gu, J. (2018). fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 34(17), i884-i890.