Determining Filtering Thresholds For Single Cell RNA-Seq Data

シングルセルRNA-Seqデータのフィルタリング閾値

下流のシングルセルRNA-seq 解析のためにどの細胞を保持するかの閾値をどのように決定すればよいのでしょうか?

このガイドでは、Basepair でフィルタリングしきい値を設定するプロセスについて説明します。

セルごとの UMI プロットを理解する

まず、セルごとの UMI プロットの例を見てみましょう。

x 軸は、さまざまなバーコード シーケンスを示します。 各点は異なるセルに対応します。 y 軸は、細胞内の総転写内容、つまり、特定の細胞からのリード数に対応します。 左上は、セルからマッピングされた読み取り量が多いセルです。 右下には、読み取り数がはるかに少ないセルがあります。

Basepair は、Alevin を使用して、ニー(Knee)法を使用してフィルタリングしきい値を自動的に決定します。 青い点線は、フィルタリングのしきい値自体を表します。 青色のセルは保持され、黒色のセルは削除されます。

なぜ総RNA量が少ない細胞を除外する必要があるのか?

少し立ち止まって、特定の細胞を分析から除外する必要がある理由を考えてみましょう。 理由はいくつか考えられます。 シングルセルRNA-seq では液滴シーケンスと呼ばれるアプローチが使用されており、この方法では特定の一般的なエラーが発生する可能性があることに注意してください。 例えば:

  • 液滴には細胞が含まれていない可能性があります
  • 液滴には周囲の RNA が含まれる可能性があります
  • セルバーコードによりシーケンスエラーが発生する

これらの理由から、特定のセルを除外することが重要です。

デフォルトのフィルタリングパラメータをいつ変更する必要があるか?

時々、このようなことが頻繁に起こるわけではないことを強調したいのですが、アルゴリズムが最適なデフォルトのフィルタリングしきい値を提供せず、青い線が左または右に寄りすぎる場合があることがわかりました。 言い換えれば、アルゴリズムは、厳しすぎるフィルタリングしきい値、または十分に厳格ではないフィルタリングしきい値を設定する可能性があります。

不適切なフィルタリングしきい値の例を見てみましょう。

上図(左)では、緑色の点線は、過度に厳しいフィルターしきい値(50セルに設定)を表しています。 右側の図は、このフィルターしきい値が適用された後に残った細胞から生成された t-SNE プロットを示しています。 各点は異なるセルを表します。 ご覧のとおり、クラスターは 2 つだけですが、特に役に立ちません。

ただし、戻って、より合理的なフィルタリングしきい値を設定すると、この X 細胞の場合、ご覧のとおり、それぞれが異なる細胞型または組織に対応する、より多くの細胞クラスターを含む t-SNE プロットが得られます(下図)。

フィルタリングのしきい値を手動で設定する方法

フィルタリングのしきい値を調整する場合は、次の 2 つの方法で行うことができます。

  1. 予想されるセル数を設定する
  2. 解析でキャプチャするセルバーコードの正確な数を指定する

新しいシングルセルRNA-seq解析を設定するときに表示される”Change default options(デフォルトオプションの変更)”ドロップダウンメニューでこれらのパラメータを変更することができます。

サンプル内の細胞数の上限は、予想される細胞数を使用して設定します。 Alevinは引き続きしきい値を独自に決定しますが、上限を超えることはありません。 デフォルトのオプションを変更するときにこのパラメータにアクセスするには、「Extract」をクリックし、「expect cell num」をクリックします。

設定セル数を使用して、サンプル内に必要な正確なセル数を指定します。 このオプションは、シーケンスプロトコルでシーケンスするセルの数を非常に正確に制御できる場合に有用です。 デフォルトのオプションを変更するときにこのパラメータにアクセスするには、「Extract」をクリックし、「force num cells」をクリックします。

反復して比較する

フィルタリングのしきい値は分析において非常に重要です。 上で述べたように、ほとんどの場合、Alevinは適切なしきい値を適切に設定しますが、しきい値を常に確認することが有用です。

Basepair では、フィルターしきい値の微調整中に追加の分析を実行しても追加料金が発生しません。 必要なだけ分析を自由に実行して、出力を比較してください。

6サンプル フリートライアル 実施中

最大6つのサンプルを無料でアップロードして分析できます。アップロードされたサンプルに対する解析は無制限です。世界トップクラスの機関、研究室、製薬チームがBasepairを使用して、数千ドルを節約している理由をご覧ください。