BasepairでのCuffdiffパイプライン

Cuffdiffパイプラインは、サンプルグループ間のアイソフォームレベルの発現変動解析を実行するために使用されます。Cuffdiff パイプラインが実行されると、最初に Expression count (STAR) パイプラインが自動的に実行されます。その後、Cufflinksパイプラインが自動的に実行されます。Cufflinksが終了すると、Cuffdiffパイプラインが実行されます。このパイプラインは、アセンブルされた転写産物と、Cufflinkパイプラインからアウトプットされた遺伝子発現量データをインプットとして使用します。異なるサンプルグループ間のアイソフォーム発現の差異を識別します。

アイソフォームレベルの解析が重要な理由

オルタナティブスプライシング

遺伝子にはオルタナティブスプライシングというプロセスがあります。これは一つの遺伝子から、複数のmRNA分子を生成する過程です。これらには、エクソンとイントロンの異なる組み合わせで生成されたmRNAが含まれます。このような多様性が生じるのは、細胞がmRNA前駆体(pre-mRNA)を異なる方法でスプライス(切断・再結合)できるためです。このため、同じ遺伝子から異なるアイソフォームやスプライシングバリアントが生じます。これらのアイソフォームは異なる機能、局在性、安定性、制御特性を持つことがあります。

条件特異的アイソフォーム

特定の条件下でのみ発現するアイソフォームがあります。

疾患への影響

アイソフォームレベルの違いは様々な疾病に関連しています。さらに、特定のアイソフォームが異なる病態を引き起こす可能性もあります。
そのため、アイソフォームレベルの発現変動解析は、遺伝子レベルの解析では見逃される可能性のある制御の変化を明らかにすることができます。

パイプラインのワークフロー

図1にCuffdiffパイプラインのワークフローを示します。

図1. Cuffdiffパイプラインのワークフロー。
図1. Cuffdiffパイプラインのワークフロー

アイソフォームレベルの発現変動解析

Cuffdiffは、Cufflinksパイプラインからアウトプットされるgtfフォーマットファイルをインプットとして使用します。このファイルにはアセンブルされたアイソフォームのアノテーションが含まれています。

まず、Cuffdiffは遺伝子の各アイソフォームの発現レベルを計算します。このレベルはFPKM (Fragments Per Kilobase of transcript per Million mapped reads)で表示されます。FPKM値は遺伝子長とマップされたリードの総数の両方で正規化されます。次に、各アイソフォームのFPKM値を、異なるサンプルグループ間で比較します。さらに、サンプルグループ間で観察されたアイソフォーム発現の差が有意であるかどうかを決定するために、統計的検定が実行されます。

結果(「Report」タブ)

結果は「Report」タブ(図2の赤枠)にあります。

図2.「Report」ページ。
図2.「Report」ページ

FPKM counts

図3aでは、すべての転写産物のFPKM分布を示します。FPKM値は遺伝子発現量を正規化した指標です。図3bでは、転写産物のリストとその発現量の推定値を示します。

図3. a) FPKM分布プロットとb) 遺伝子発現値のリスト。
図3. a) FPKMの頻度分布とb) 遺伝子ごとの発現量のリスト

FPKMの頻度分布

図3aでは、x軸に遺伝子のFPKM値を対数スケールで表し、y軸に各FPKMの範囲に入る遺伝子の数を表します。このデータセットでは、大半の遺伝子のFPKM値が0に近いです。これは、ほとんどの遺伝子の発現量が少ないまたは発現していないことを示唆しています。一方、発現レベルが高い(FPKM値が高い)遺伝子は少ないです。このパターンはRNA-seqデータで想定される結果です。

遺伝子発現値のリスト

Terms
用語定義
Gene遺伝子の名前
Locus遺伝子の染色体上の位置
Length遺伝子の長さ。これはFPKMを正規化する際に使用されます
Coverage遺伝子のシーケンスカバレッジ
FPKM group 1 & 2異なるサンプルグループにおけるFPKM値。グループ1はトリートメントグループでグループ2はコントロールグループ

Genome browser

図4では、インタラクティブなゲノムブラウザを示します。Integrative Genomics Viewer (IGV)でシグナル強度を視覚化できます。

図4. ゲノムブラウザ。
図4. ゲノムブラウザ

アウトプットファイル(「Input/output 」タブ)

全てのアウトプットファイルは図5の「Input/output」タブ(赤枠)にあります。

図5.「Input/output」ページ。
図5.「Input/output」ページ
Cuffdiff
ファイル説明
cuffdiff/gene_exp.diff 遺伝子レベルでの発現変動解析の結果
cuffdiff/genes.fpkm_tracking 遺伝子レベルの発現量の推定値を含むfpkm_trackingファイル
cuffdiff/isoform_exp.diff アイソフォームレベルでの発現変動解析の結果
cuffdiff/isoforms.fpkm_tracking アイソフォームレベルの発現量の推定値を含むfpkm_trackingファイル

参考文献

1. Basepair. (2024). RNA-seq analysis & visualization platform for both bench scientists and bioinformaticians. Basepair. 

関連ブログ

BasepairのRNA-Seq https://basepairtech.jp/analysis/rna-seq/