fastpによる品質評価と前処理のアウトプットファイル

アウトプットファイルは、FASTQファイルの品質評価と前処理から生成されます。これらのアウトプットファイルは、各解析の「Input/output」タブ内にあり(図1の赤枠)、特に論文発表や下流の解析に役立ちます。

品質評価と前処理から生成されたアウトプットファイルは「Input/output」タブにあります(赤枠)

図1. 解析例の「Input/output」タブ(赤枠)

アウトプットファイル

Expression Count (STAR)パイプラインによって生成されるアウトプットファイルは以下の通りです:

QC, Trim

  • 品質評価のレポート(html形式)

(trim/<SAMPLE_NAME>.trim.report.html)

Align (STAR)

  • bamファイルのインデックスファイル

(star/<SAMPLE_NAME>.<genome>.bam.bai)

  • アライメント生のアライメントファイル(bam形式)

(star/<SAMPLE_NAME>.<genome>.bam)

BigWig

  • 正規化されたシグナルをIGVで可視化するためのファイル(bigwig形式)(bigwig/<SAMPLE_NAME>.<genome>.norm-RPM.bigwig)

Expr count

  • 各遺伝子のカウントと正規化されたカウント(タブ区切りテキスト形式)

(featurecounts/<SAMPLE_NAME>.<genome>.counts_gene.txt)

  • 各転写産物のカウントと正規化されたカウント(タブ区切りテキスト形式)

(featurecounts/<SAMPLE_NAME>.<genome>.counts_transcript.txt)

fastp report

fastpレポートには、シーケンスデータの品質や塩基含有量などの情報が含まれています。レポートには5つのセクションがあります:

  • Summary
  • Adapters
  • Insert estimation
  • Before filtering
  • After filtering

Summary 

fastpレポートの「Summary」セクションを図2に示します。

フィルタリング前後の品質評価のサマリーレポート

図2. fastpレポートの「Summary」セクション

「General」用語
用語定義
Fastp version使用したfastpのバージョン
Sequencingシーケンシングのタイプ(ペアエンドなど)とサイクル数
Mean length before filteringフィルタリング前のリードの平均長
Mean length after filteringフィルタリング後のリードの平均長
Duplication rate重複リードの割合
Insert size peak最も多いインサートサイズ。インサートサイズとは、配列決定されたDNA断片のサイズのことです
Detected read1/read2 adapter前処理段階で検出され、トリミングされたアダプター配列
「Before filtering」と「After filtering」用語
用語定義
Total reads総リード数
Total bases塩基配列の総数
Q20 basesQ score20以上の塩基数(およびそれらの割合)
Q30 basesQ score30以上の塩基数(およびそれらの割合)
GC contentデータ中のG塩基とC塩基の割合
「Filtering result」用語
用語定義
Reads passed filterフィルターを通過したリード数と割合
Reads with low quality低品質のためフィルタリングされたリード数と割合
Reads with too many Nあいまいな塩基 (N) が多すぎるためフィルタリングされたリード数と割合
Reads too shortアダプタートリミング後で、短すぎるためフィルタリングされたリード数と割合

Adapters

fastpレポートの「Adapters」セクションを図3に示します。このセクションには、リード1(フォワードリード)とリード2(リバースリード)の、ライブラリー調製時におけるライゲーションの不良の結果として同定された配列またはアダプター配列がリストアップされています。

fastpによって自動的に検出され、トリミングされるフォワード鎖(リード1)のアダプター配列

図3. fastpレポートの「Adapters」セクション

用語
用語定義
Sequences アダプター配列として同定された配列、または不十分なライゲーションの結果として同定された配列
Occurrences各配列がデータから検出された回数
Other adapter sequences個別にリストアップされていないその他の配列の数

Insert size estimation

インサートサイズは、アダプター間で配列決定されたDNA断片の長さです。ここでは、全リードにおけるインサートサイズの分布を図4に示します。

各サイズのインサートリードの割合の関数として、インサートリードのサイズを示しているプロット

図4. 全リードにわたるインサートサイズの分布

図4では、X軸がインサートサイズ(塩基対)を表しているのに対し、Y軸は特定のインサートサイズを持つリードの割合を示します。この例では、判明しているリードの大半はインサートサイズが60から100 bpほどですが、90%以上のリードは長さが不明です。これはリードが重なっていないために、インサートサイズを直接測定できない場合に起こります。

Before and after filtering

「Before filtering」と「After filtering」には、3つのサブセクションがあります:

  • Quality
  • Base contents
  • KMER counting
Quality

フィルタリング前のリード全体の塩基品質スコアを図5に示します。

フィルタリング前のフォワード鎖(リード1)の各位置の塩基のQ scoreを示すプロット

図5. フィルタリング前のリード1(フォワードリード)の塩基品質のPhredスコア

図5では、X軸は各リード内の位置を表します。一方、Y軸は各位置の塩基品質のPhredスコアを表します。Phredスコアは塩基コーリングの正確さの尺度です。したがって、Phredスコアが高いほど品質が高いです。各色の線は、各位置のすべてのリードにわたる特定のヌクレオチド(A、T、C、G)の品質スコアに対応します。

品質スコアは、リードの先頭付近(1―10位)で最も高いです。その後、リードの末尾に近づくにつれてスコアは徐々に低下します。この傾向はシーケンスデータにおいて典型的です。

Base contents

フィルタリング前のリード全体の塩基含量比を図6に示します。

フィルタリング前のフォワード鎖(リード1)の塩基含量比曲線を示すプロット

図6. フィルター処理前のリード1(フォワードリード)の塩基含量比

図6では、X軸は各リード内の位置を表します。それに対し、Y軸はリード内の各位置における各塩基の比率を表します。各色の線は、各位置における特定の塩基(A、T、C、G)の比率を表します。この例では、A、T、C、Gの比率はどの位置でも比較的安定しています。つまり、ヌクレオチドの構成がリードの長さを通して一貫していることを示唆しています。

KMER counting

K-merは、長さ「k」の短い塩基配列です。この例では、「k」はリード内のすべての5-mer(5ヌクレオチドの配列)の数を表しています。したがって、K-mer解析は、過剰に発現する配列の特定に役立ちます。つまり、特定のk-merのカウントが高い場合は、アダプターの混入、PCRアーチファクト、低品質領域を示している可能性があります。さらに、フィルタリング前後のkmer分布を比較することで、不要な配列を除去するフィルタリングステップの有効性を評価することができます。

フィルタリング前のリード1(フォワード鎖)のk-merカウントを図7に示します。

フィルタリング前のフォワード鎖(リード1)のkmer数

図7. フィルター処理前のリード1(フォワード鎖)のk-merのカウント

図7では、行と列がk-mer配列の1番目と2番目の位置に該当しています。各セルにはk-merが含まれます。セルの背景の濃さは、配列データ中の各k-merの相対的な存在量を示しています。例えば、セルの背景が暗いほど、リード中のk-merのカウントが高いです。

関連ブログ

FASTQファイルの品質評価と前処理 https://basepairtech.jp/blog/2102/

RNA-seqデータのトリミングとアライメントのウェビナー https://www.youtube.com/watch?v=48kHCxGMfj0&t=130s