BasepairでのSingle cell RNA-seq integrateパイプラインのアウトプットファイル

IntegrateパイプラインでSeuratが生成するアウトプットファイルについて説明します。アウトプットファイルは、「Input/output」タブ(下図の赤枠)にあります。

アウトプットファイルは、「Input/output」タブ(下図の赤枠)にあります

Seurat

ファイル名ファイルの説明
seurat/features.csv Seurat 解析で同定されたフィーチャー/遺伝子のリスト(カンマ区切り形式)
seurat/jackstraw.overall.pvalues.csv SeuratのJackStraw分析によって生成された各Principal component(PC)のスコア。このスコアは、各PCの有意性を決定するために使用されます(カンマ区切り形式)
seurat/metadata.csv 処理後のSeuratオブジェクトの各細胞のメタデータ。処理にはフィルタリング、正規化、クラスタリングが含まれます。細胞あたりのカウント数や遺伝子・特徴などの情報が含まれます(カンマ区切り形式)
seurat/pcdata.csv 各細胞のPCスコア。これらはSeuratのPCAステップから得られたものです(カンマ区切り形式)

Seurat

ファイル名ファイルの説明
seurat/seurat_object.rds RDS(R Data Serialization)ファイル。処理・解析後のSeuratオブジェクト全体を保存しています。生データと正規化されたデータとメタデータが含まれています
seurat/tsne.csv 各細胞のt-SNE座標。t-SNEは非線形次元削減法です。2D・3D空間における細胞のクラスターを可視化するために使用されます(カンマ区切り形式)
seurat/umap.csv 各細胞の UMAP 座標。UMAPも細胞のクラスターを可視化する技術です(カンマ区切り形式)

TopList

ファイル名ファイルの説明
toplist/toplist/toplist/toplist.zip 同定されたマーカー遺伝子を含むzipファイル。0.1-2.0の解像度のヒートマップも提供します

Seuratセクションのアウトプットファイル

seurat_features.csv

このファイルには、Seurat解析で同定されたフィーチャー・遺伝子のリストが含まれています(カンマ区切り形式)。

seurat_features.csv

用語

用語定義
Gene特定のデータベースで特定の遺伝子に割り当てられたユニークな識別子。例えば、この場合のEnsemblデータ
Gene_name遺伝子記号

seurat_jackstraw.overall.pvalues.csv

このファイルは、SeuratのJackStraw解析中に生成されます。ファイルはカンマ区切り形式です。

JackStraw法は、Principal Component Analysis(PCA)のprincipal component(PC)の有意性を評価するために使用されます。この結果は、どのPCを下流のクラスタリングステップに含めるべきかを決定するのに役立ちます。

seurat_jackstraw.overall.pvalues.csv

用語

用語定義
PCPCAから得られたprincipal component(PC)数
Score各PCのJackStrawスコア。このスコアは、PCがデータセット全体の変動にどれだけ強く寄与しているかを表しています。また、各PCの有意性も示しています

seurat/metadata.csv

このファイルには、処理後のSeuratオブジェクトの各セルのメタデータが含まれます。処理にはフィルタリング、正規化、クラスタリングが含まれます。ファイルはカンマ区切り形式です。

seurat/metadata.csv

用語

用語定義
Orig.ident各細胞のサンプル名
nCount_RNA細胞あたりのカウント数
nFeature_RNA各細胞で検出された遺伝子・特徴の数
Group_sourceサンプルグループ名
nCount_SCTSCTransform正規化法によって正規化されたカウント
nFeature_SCTSCTransform正規化法で正規化された遺伝子・特徴数
Integrated_snn_res.x各細胞が特定の解像度で割り当てられたクラスター。この割り当てはShared Nearest Neighbor (SNN)クラスタリングによって行われます。「x」は、クラスタリングで使用される解像度パラメータを表します
Seurat_clustersクラスタリング後に各細胞が割り当てられたクラスター。これはSeuratによる最適解像度に基づいたデフォルトの割り当てです

seurat_pcdata.csv

このファイルには各セルのPCスコアが含まれています。これらはSeuratのPCAステップから得られたものです。ファイルはカンマ区切り形式です。

seurat_pcdata.csv

用語

用語定義
PC_xPCAによって生成された各PCのPCスコア。スコアの大きさは、特定の細胞の遺伝子発現プロファイルが特定のPCにどれだけ寄与しているかを反映します正のスコア:細胞の遺伝子発現プロファイルが、特定のPCによって提示された変動と強く一致していることを示唆します負のスコア:その細胞の遺伝子発現プロファイルが逆の意味で明瞭であることを示唆します。すなわち、そのPCに沿った変動に負に寄与しています。「x」はPC番号を表します

seurat_tsne.csv

t-SNEは非線形次元削減法です。2Dまたは3D空間における細胞のクラスターを可視化するために使用されます。ファイルはカンマ区切り形式です。

seurat_tsne.csv

用語

用語定義
tSNE_1t-SNEプロットの次元1。値はt-SNEプロット上の細胞のx座標を表します。各行は1つの細胞に対応します
tSNE_2t-SNEプロットの次元2.値はt-SNEプロット上の細胞のy座標を表します。各行は1つの細胞に対応します

seurat_umap.csv

このファイルには各細胞のUMAP x座標とy座標が含まれています。UMAPは細胞クラスターを可視化するために使用されるもう一つの次元削減技法です。ファイルはカンマ区切り形式です。

seurat_umap.csv

用語

用語定義
UMAP_1UMAPプロットの次元1。値はt-SNEプロット上の細胞のx座標を表します。各行は1つの細胞に対応します
UMAP_2UMAPプロットの次元2。値はt-SNEプロット上の細胞のy座標を表します。各行は1つの細胞に対応します

TopListセクションのアウトプットファイル

toplist/toplist/toplist/toplist.zip

このzipフォルダには以下のファイルが含まれています:

用語定義
markers_integrated_snn_res.x.json0.1-2.0の分解能でサンプル内のクラスターを同定したマーカー遺伝子。「x」はクラスタリングで使用される特定の解像度を表します(json形式)
markers_conserved_integrated_snn_res.x.json0.1-2.0の分解能で、異なるサンプルグループ間で同定されたクラスターの保存マーカー遺伝子のリスト。「x」はクラスタリングで使用した特定の解像度を表します(json形式)
markers_condition_integrated_snn_res.x.json0.1~2.0の分解能で、同一クラスター内の異なるサンプルグループ間で発現が異なるマーカー遺伝子のリスト。「x」はクラスタリングで使用した特定の解像度を表します(json形式)
heatmap_image_top10_integrated_snn_res.x.png0.1-2.0の分解能で同定されたマーカー遺伝子のヒートマップ。「x」はクラスタリングで使用した解像度パラメータを表します(png形式)

参考文献

1. GitHub. (2024). Single-cell RNA-seq: Marker identification. Github. 

関連ブログ

シングルセルRNA-seq解析https://basepairtech.jp/analysis/single-cell-rna-seq/