BasepairでのCufflinksパイプライン

Cufflinksパイプラインを実行すると、最初にExpression count (STAR)パイプラインが自動的に実行されます。このCufflinksパイプラインは、STARパイプラインでアラインメントされたリードを使用します。まず、Cufflinksパイプラインは、リファレンスゲノムにアライメントされたリードを転写産物のセットにアセンブルします。次に、それぞれの転写産物の発現レベルを定量します。

パイプラインのワークフロー

図1にCufflinksパイプラインのワークフローを示します。

図1. Cufflinksパイプラインのワークフロー
図1. Cufflinksパイプラインのワークフロー

トランスクリプトアセンブリー

Cufflinksは、STARパイプラインでアラインメントされたリードをインプットとして使用します。次に、Cufflinksはアラインメントされたリードを転写産物にアセンブルします。

転写産物の定量

各転写産物について、CufflinksはFPKM (Fragments Per Kilobase of transcript per Million mapped reads)値に基づいて発現量を推定します。FPKMは遺伝子の長さとマップされたリードの総数の両方を正規化します。これは各転写産物の発現レベルを表します。したがって、サンプル間の転写産物量の比較が可能になります。

結果(「Report」タブ)

結果は「Report」タブ(図2の赤枠)にあります。

図2.「Report」ページ。
図2.「Report」ページ

FPKM counts

図3aでは、すべての転写産物のFPKMの頻度分布を示します。FPKM値は遺伝子発現を正規化した指標です。図3bでは、転写産物のリストとそのFPKM値を示します。

図3. a) FPKM分布プロットとb) 遺伝子発現値のリスト。
図3. a) FPKM分布プロットとb) 遺伝子発現値のリスト

FPKMの頻度分布

図3aでは、x軸に遺伝子のFPKM値を対数スケールで表し、y軸に各FPKM値の範囲に入る遺伝子の数を表します。このデータセットでは、多くの遺伝子のFPKM値が0に近いです。これは、ほとんどの遺伝子の発現が低いか、まったくないことを示唆しています。一方、発現レベルが高い(FPKM値が高い)遺伝子は少ないです。このパターンはRNA-seqデータで想定される結果です。

遺伝子発現値のリスト

用語
用語定義
Track遺伝子のユニークな識別子
Gene遺伝子の名前
Locus遺伝子の染色体上の位置
Length遺伝子の長さ。これはFPKMの正規化に使用されます
Coverage遺伝子のシーケンスカバレッジ
FPKMFragments Per Kilobase of transcript per Million mapped reads。遺伝子の発現量を正規化するための指標

Genome browser

図4はインタラクティブなゲノムブラウザです。Integrative Genomics Viewer (IGV)でシグナル強度を視覚化できます。

図4. ゲノムブラウザ。
図4. ゲノムブラウザ

アウトプットファイル(「Input/output」タブ)

図5では、アウトプットファイルを含む「Input/output」タブ(赤枠)が表示されています。

図5.「Input/output」ページ。
図5.「Input/output」ページ
Cufflinks
ファイル説明
cufflinks/<SAMPLE_NAME>.<genome>.genes.fpkm_tracking 遺伝子ごとの発現量カウントを含むfpkm_trackingファイル
cufflinks//<SAMPLE_NAME>.<genome>.isoforms.fpkm_tracking アイソフォームごとの発現量カウントを含むfpkm_trackingファイル
cufflinks/<SAMPLE_NAME>.<genome>.skipped.gtf Gene Transfer Format(GTF)ファイル。アセンブル時にスキップされた転写産物のリストを含みます
cufflinks//<SAMPLE_NAME>.<genome>.transcripts.gtfGene Transfer Format(GTF)ファイル。アセンブルされた転写産物のアノテーションを含みます

参考文献

1. Basepair. (2024). RNA-seq analysis & visualization platform for both bench scientists and bioinformaticians. Basepair. https://www.basepairtech.com/analysis/rna-seq/

関連ブログ

BasepairのRNA-Seq https://basepairtech.jp/analysis/rna-seq/