BasepairでのCufflinksパイプライン

投稿日 5月 18, 2026
著者 iwai-chem
カテゴリー TechBlog

Cufflinksパイプラインを実行すると、最初にExpression count (STAR)パイプラインが自動的に実行されます。このCufflinksパイプラインは、STARパイプラインでアラインメントされたリードを使用します。まず、Cufflinksパイプラインは、リファレンスゲノムにアライメントされたリードを転写産物のセットにアセンブルします。次に、それぞれの転写産物の発現レベルを定量します。

パイプラインのワークフロー

図1にCufflinksパイプラインのワークフローを示します。

トランスクリプトアセンブリー

Cufflinksは、STARパイプラインでアラインメントされたリードをインプットとして使用します。次に、Cufflinksはアラインメントされたリードを転写産物にアセンブルします。

転写産物の定量

各転写産物について、CufflinksはFPKM (Fragments Per Kilobase of transcript per Million mapped reads)値に基づいて発現量を推定します。FPKMは遺伝子の長さとマップされたリードの総数の両方を正規化します。これは各転写産物の発現レベルを表します。したがって、サンプル間の転写産物量の比較が可能になります。

結果（「Report」タブ）

結果は「Report」タブ（図2の赤枠）にあります。

FPKM counts

図3aでは、すべての転写産物のFPKMの頻度分布を示します。FPKM値は遺伝子発現を正規化した指標です。図3bでは、転写産物のリストとそのFPKM値を示します。

図3. a) FPKM分布プロットとb) 遺伝子発現値のリスト。 — 図3. a) FPKM分布プロットとb) 遺伝子発現値のリスト

FPKMの頻度分布

図3aでは、x軸に遺伝子のFPKM値を対数スケールで表し、y軸に各FPKM値の範囲に入る遺伝子の数を表します。このデータセットでは、多くの遺伝子のFPKM値が0に近いです。これは、ほとんどの遺伝子の発現が低いか、まったくないことを示唆しています。一方、発現レベルが高い（FPKM値が高い）遺伝子は少ないです。このパターンはRNA-seqデータで想定される結果です。

遺伝子発現値のリスト

用語

用語	定義
Track	遺伝子のユニークな識別子
Gene	遺伝子の名前
Locus	遺伝子の染色体上の位置
Length	遺伝子の長さ。これはFPKMの正規化に使用されます
Coverage	遺伝子のシーケンスカバレッジ
FPKM	Fragments Per Kilobase of transcript per Million mapped reads。遺伝子の発現量を正規化するための指標

Genome browser

図4はインタラクティブなゲノムブラウザです。Integrative Genomics Viewer (IGV)でシグナル強度を視覚化できます。

アウトプットファイル（「Input/output」タブ）

図5では、アウトプットファイルを含む「Input/output」タブ（赤枠）が表示されています。

図5.「Input/output」ページ。 — 図5.「Input/output」ページ

Cufflinks

ファイル	説明
cufflinks/<SAMPLE_NAME>.<genome>.genes.fpkm_tracking	遺伝子ごとの発現量カウントを含むfpkm_trackingファイル
cufflinks//<SAMPLE_NAME>.<genome>.isoforms.fpkm_tracking	アイソフォームごとの発現量カウントを含むfpkm_trackingファイル
cufflinks/<SAMPLE_NAME>.<genome>.skipped.gtf	Gene Transfer Format（GTF）ファイル。アセンブル時にスキップされた転写産物のリストを含みます
cufflinks//<SAMPLE_NAME>.<genome>.transcripts.gtf	Gene Transfer Format（GTF）ファイル。アセンブルされた転写産物のアノテーションを含みます

参考文献

1. Basepair. (2024). RNA-seq analysis & visualization platform for both bench scientists and bioinformaticians. Basepair. https://www.basepairtech.com/analysis/rna-seq/

BasepairでのCufflinksパイプライン

パイプラインのワークフロー

トランスクリプトアセンブリー

転写産物の定量

結果（「Report」タブ）

FPKM counts

FPKMの頻度分布

遺伝子発現値のリスト

用語

Genome browser

アウトプットファイル（「Input/output」タブ）

Cufflinks

参考文献

関連ブログ

Basepairのディファレンシャル・オルタナティヴ・スプライシングパイプラインのご紹介

Memorial Sloan Kettering Cancer Center（MSKCC）：200のNGSデータをコードを書かずに分析した方法

大幅にアップグレードしたシングルセルRNA-seqパイプラインのご紹介

BasepairのGene fusion finding (deFuse) パイプライン

Analysis

Solutions

Misc

Blog