fastpによる品質評価と前処理のアウトプットファイル

投稿日 6月 23, 2026
著者 iwai-chem
カテゴリー TechBlog

アウトプットファイルは、FASTQファイルの品質評価と前処理から生成されます。これらのアウトプットファイルは、各解析の「Input/output」タブ内にあり（図1の赤枠）、特に論文発表や下流の解析に役立ちます。

図1. 解析例の「Input/output」タブ（赤枠）

アウトプットファイル

Expression Count (STAR)パイプラインによって生成されるアウトプットファイルは以下の通りです：

QC, Trim

品質評価のレポート（html形式）

(trim/<SAMPLE_NAME>.trim.report.html)

Align (STAR)

bamファイルのインデックスファイル

(star/<SAMPLE_NAME>.<genome>.bam.bai)

アライメント生のアライメントファイル（bam形式）

(star/<SAMPLE_NAME>.<genome>.bam)

BigWig

正規化されたシグナルをIGVで可視化するためのファイル（bigwig形式）(bigwig/<SAMPLE_NAME>.<genome>.norm-RPM.bigwig)

Expr count

各遺伝子のカウントと正規化されたカウント（タブ区切りテキスト形式）

(featurecounts/<SAMPLE_NAME>.<genome>.counts_gene.txt)

各転写産物のカウントと正規化されたカウント（タブ区切りテキスト形式）

(featurecounts/<SAMPLE_NAME>.<genome>.counts_transcript.txt)

fastp report

fastpレポートには、シーケンスデータの品質や塩基含有量などの情報が含まれています。レポートには5つのセクションがあります：

Summary
Adapters
Insert estimation
Before filtering
After filtering

Summary

fastpレポートの「Summary」セクションを図2に示します。

図2. fastpレポートの「Summary」セクション

「General」用語

用語	定義
Fastp version	使用したfastpのバージョン
Sequencing	シーケンシングのタイプ（ペアエンドなど）とサイクル数
Mean length before filtering	フィルタリング前のリードの平均長
Mean length after filtering	フィルタリング後のリードの平均長
Duplication rate	重複リードの割合
Insert size peak	最も多いインサートサイズ。インサートサイズとは、配列決定されたDNA断片のサイズのことです
Detected read1/read2 adapter	前処理段階で検出され、トリミングされたアダプター配列

「Before filtering」と「After filtering」用語

用語	定義
Total reads	総リード数
Total bases	塩基配列の総数
Q20 bases	Q score20以上の塩基数(およびそれらの割合)
Q30 bases	Q score30以上の塩基数(およびそれらの割合)
GC content	データ中のG塩基とC塩基の割合

「Filtering result」用語

用語	定義
Reads passed filter	フィルターを通過したリード数と割合
Reads with low quality	低品質のためフィルタリングされたリード数と割合
Reads with too many N	あいまいな塩基 (N) が多すぎるためフィルタリングされたリード数と割合
Reads too short	アダプタートリミング後で、短すぎるためフィルタリングされたリード数と割合

Adapters

fastpレポートの「Adapters」セクションを図3に示します。このセクションには、リード1（フォワードリード)とリード2（リバースリード)の、ライブラリー調製時におけるライゲーションの不良の結果として同定された配列またはアダプター配列がリストアップされています。

fastpによって自動的に検出され、トリミングされるフォワード鎖（リード1）のアダプター配列

図3. fastpレポートの「Adapters」セクション

用語

用語	定義
Sequences	アダプター配列として同定された配列、または不十分なライゲーションの結果として同定された配列
Occurrences	各配列がデータから検出された回数
Other adapter sequences	個別にリストアップされていないその他の配列の数

Insert size estimation

インサートサイズは、アダプター間で配列決定されたDNA断片の長さです。ここでは、全リードにおけるインサートサイズの分布を図4に示します。

各サイズのインサートリードの割合の関数として、インサートリードのサイズを示しているプロット

図4. 全リードにわたるインサートサイズの分布

図4では、X軸がインサートサイズ（塩基対）を表しているのに対し、Y軸は特定のインサートサイズを持つリードの割合を示します。この例では、判明しているリードの大半はインサートサイズが60から100 bpほどですが、90%以上のリードは長さが不明です。これはリードが重なっていないために、インサートサイズを直接測定できない場合に起こります。

Before and after filtering

「Before filtering」と「After filtering」には、3つのサブセクションがあります：

Quality
Base contents
KMER counting

Quality

フィルタリング前のリード全体の塩基品質スコアを図5に示します。

フィルタリング前のフォワード鎖（リード1）の各位置の塩基のQ scoreを示すプロット

図5. フィルタリング前のリード1（フォワードリード）の塩基品質のPhredスコア

図5では、X軸は各リード内の位置を表します。一方、Y軸は各位置の塩基品質のPhredスコアを表します。Phredスコアは塩基コーリングの正確さの尺度です。したがって、Phredスコアが高いほど品質が高いです。各色の線は、各位置のすべてのリードにわたる特定のヌクレオチド（A、T、C、G）の品質スコアに対応します。

品質スコアは、リードの先頭付近（1―10位）で最も高いです。その後、リードの末尾に近づくにつれてスコアは徐々に低下します。この傾向はシーケンスデータにおいて典型的です。

Base contents

フィルタリング前のリード全体の塩基含量比を図6に示します。

図6. フィルター処理前のリード1（フォワードリード）の塩基含量比

図6では、X軸は各リード内の位置を表します。それに対し、Y軸はリード内の各位置における各塩基の比率を表します。各色の線は、各位置における特定の塩基（A、T、C、G）の比率を表します。この例では、A、T、C、Gの比率はどの位置でも比較的安定しています。つまり、ヌクレオチドの構成がリードの長さを通して一貫していることを示唆しています。

KMER counting

K-merは、長さ「k」の短い塩基配列です。この例では、「k」はリード内のすべての5-mer（5ヌクレオチドの配列）の数を表しています。したがって、K-mer解析は、過剰に発現する配列の特定に役立ちます。つまり、特定のk-merのカウントが高い場合は、アダプターの混入、PCRアーチファクト、低品質領域を示している可能性があります。さらに、フィルタリング前後のkmer分布を比較することで、不要な配列を除去するフィルタリングステップの有効性を評価することができます。

フィルタリング前のリード1（フォワード鎖）のk-merカウントを図7に示します。

図7. フィルター処理前のリード1（フォワード鎖）のk-merのカウント

図7では、行と列がk-mer配列の1番目と2番目の位置に該当しています。各セルにはk-merが含まれます。セルの背景の濃さは、配列データ中の各k-merの相対的な存在量を示しています。例えば、セルの背景が暗いほど、リード中のk-merのカウントが高いです。

fastpによる品質評価と前処理のアウトプットファイル

アウトプットファイル

fastp report

Summary

「General」用語

「Before filtering」と「After filtering」用語

「Filtering result」用語

Adapters

用語

Insert size estimation

Before and after filtering

Quality

Base contents

KMER counting

関連ブログ

NGSデータの品質管理と前処理のベストプラクティス：研究者向けガイド

.bed、.bam、その他のファイルフォーマット

RNA-Seqデータのトリミング

FASTQファイルの品質評価と前処理

Analysis

Solutions

Misc

Blog