Determining Filtering Thresholds For Single Cell RNA-Seq Data

Determining Filtering Thresholds For Single Cell RNA-Seq Data

下流の単一細胞 RNA-seq 解析のためにどの細胞を保持するかの閾値をどのように決定しますか? このガイドでは、Basepair でフィルタリングしきい値を設定するプロセスについて説明します。

セルごとの UMI プロットを理解する

まず、セルごとの UMI プロットの例を見てみましょう。

x 軸は、さまざまなバーコード シーケンスを示します。 各点は異なるセルに対応します。 y 軸は、細胞内の総転写内容、つまり、特定の細胞からのリード数に対応します。 左上は、セルからマッピングされた読み取り量が多いセルです。 右下には、読み取り数がはるかに少ないセルがあります。

Basepair は、Alevin を使用して、ニー法を使用してフィルタリングしきい値を自動的に決定します。 青い点線は、フィルタリングのしきい値自体を表します。 青色のセルは保持され、黒色のセルは削除されます。

なぜ総RNA量が少ない細胞を除外する必要があるのでしょうか?

少し立ち止まって、特定の細胞を分析から除外する必要がある理由を考えてみましょう。 理由はいくつか考えられます。 シングルセル RNA-seq では液滴シーケンスと呼ばれるアプローチが使用されており、この方法では特定の一般的なエラーが発生する可能性があることに注意してください。 例えば:

  • 液滴には細胞が含まれていない可能性があります
  • 液滴には周囲の RNA が含まれる可能性があります
  • セルバーコードによりシーケンスエラーが発生する

これらの理由から、特定のセルを除外することが重要です。

デフォルトのフィルタリングパラメータをいつ変更する必要がありますか?

時々、このようなことが頻繁に起こるわけではないことを強調したいのですが、アルゴリズムが最適なデフォルトのフィルタリングしきい値を提供せず、青い線が左または右に寄りすぎる場合があることがわかりました。 言い換えれば、アルゴリズムは、厳しすぎるフィルタリングしきい値、または十分に厳格ではないフィルタリングしきい値を設定する可能性があります。

不適切なフィルタリングしきい値の例を見てみましょう。

左側の図では、緑色の点線は、50 セルに設定された過度に厳しいフィルターしきい値を表しています。 右側の図は、このフィルターしきい値が適用された後に残った細胞から生成された t-SNE プロットを示しています。 各点は異なるセルを表します。 ご覧のとおり、クラスターは 2 つだけですが、特に役に立ちません。

ただし、戻って、より合理的なフィルタリングしきい値を設定すると、この X 細胞の場合、ご覧のとおり、それぞれが異なる細胞型または組織に対応する、より多くの細胞クラスターを含む t-SNE プロットが得られます。下。

フィルタリングのしきい値を手動で設定する方法

フィルタリングのしきい値を調整する場合は、次の 2 つの方法で行うことができます。

  1. 予想されるセル番号を設定することにより
  2. 分析でキャプチャするセル バーコードの正確な数を指定します。

新しい単一細胞 RNA-seq 解析を設定するときに表示される「デフォルト オプションの変更」ドロップダウン メニューでこれらのパラメーターを見つけて調整できます。

予想される細胞数を使用して、サンプル内の細胞数の上限を設定します。 Alevin は引き続きしきい値を独自に決定しますが、上限を超えることはありません。 デフォルトのオプションを変更するときにこのパラメータにアクセスするには、「抽出」をクリックし、「期待セル番号」をクリックします。

設定セル数を使用して、サンプル内に必要な正確なセル数を指定します。 このオプションは、シーケンス プロトコルでシーケンスするセルの数を非常に正確に制御できる場合に便利です。 デフォルトのオプションを変更するときにこのパラメータにアクセスするには、「抽出」をクリックし、「セル数を強制する」をクリックします。

反復して比較する

フィルタリングのしきい値は分析において非常に重要です。 上で述べたように、ほとんどの場合、Alevin は適切なしきい値を適切に設定しますが、しきい値を常に確認することが賢明です。

Basepair では、フィルターしきい値の微調整中に追加の分析を実行しても追加料金が発生しないことを覚えておいてください。 したがって、必要なだけ分析を自由に実行して、出力を比較してください。

6サンプル フリートライアル 実施中

最大6つのサンプルを無料でアップロードして分析できます。アップロードされたサンプルに対する解析は無制限です。世界トップクラスの機関、研究室、製薬チームがBasepairを使用して、数千ドルを節約している理由をご覧ください。