Memorial Sloan Kettering Cancer Center(MSKCC)が200のNGSデータをコードを書かずに分析した方法

Memorial Sloan Kettering Cancer Center(メモリアル・スローン・ケタリングがんセンター、MSKCC)のDr. Omar Abdel-Wahabが、ASXL2(AML1-ETO融合腫瘍タンパク質を持つ急性骨髄性白血病患者で頻繁に変異する遺伝子)の分子機構を探索するプロジェクトに着手することを決めたとき、彼には3つの選択肢がありました。1)別のバイオインフォマティクスチームと連携して進めるか、2)臨時にバイオインフォマティシャンを雇うか、あるいは3)彼のチームに適切なソフトウェアを見つけてもらうか、です。

メモリアル・スローン・ケタリングがんセンターのオマール・アブデル・ワハブ博士の研究室

適切なNGS データ分析ソリューションを探す

NGS データの生成自体はさほど難しいものではありませんでした。社内のシーケンスコアまたは外部ベンダーがサンプルをシーケンスし、通常は数週間でデータを返送してくれます。 しかし、データを理解することがさらに大きな課題でした。

NGSデータが研究室にあると、Abdel-Wahab博士は、 a)MSKCC の(すでにオーバーブッキングな状態の)バイオインフォマティクスコアと連携する、 b)外部のバイオインフォマティクス専門家を見つける、または c)研究室のポスドクに NGS データ分析ソフトウェアを使用させる(とはいえ、これまでやったことはなかったのですが)という選択肢がありました。

Abdel-Wahab博士は、すでに最初の2つのアプローチを試していました。決してスムーズな経験ではありませんでした。コアとバイオインフォマティシャンは、ほとんどの場合、大量のバックログを抱えており、200を超えるサンプルを分析する必要があるため、Abdel-Wahab博士は、より高速な代替手段を必要としていました。 彼のチームは、手頃な価格でスケーラブルなNGSデータ分析ソリューションをオンラインで探し始めました。

彼のチームは、遺伝子発現 (RNA-Seq)、ヒストン修飾 (ChIP-Seq)、およびクロマチン アクセシビリティ (ATAC-Seq) を研究できるサービスを必要としていました。 また、大量のサンプルに対応でき、追加の支援を雇う必要がないほどシンプルである必要がありました。

NGS データを大規模に分析する

NGSデータ分析ソフトウェアを探しているときに、研究室はBasepairを試しましたが、これがたまたま要件に適合していました。

Basepairを使用することで、Abdel-Wahab博士と彼のチームはNGSデータを自ら分析し、数日や数週間ではなく、数時間以内に結果を得ることができました。 シンプルで直感的なインターフェイスにより、チームはマウスとヒトのゲノムの両方について200を超えるサンプルを大規模に実行することができました。 実は、チームはこれまでNGSデータを分析したことがなく、代わりに外部ソースに依存していましたが、それでも数分で立ち上げて実行することができました。

最初にいくつかの古いデータセットを分析したところ、Basepairの結果は以前の手動分析と同等かそれ以上でした。

Abdel-Wahab博士と彼のチームは、RNA-Seq、ChIP-Seq、ATAC-Seq の3つのデータ タイプすべてに対して高品質のパイプラインを使用することができました。

Basepair の気に入った点は、分析パイプラインで利用可能な最高のツールを使用しているため、結果が高品質で、容易に公開できるものであったことです。

チームが Basepairに入力した生データは 0.5 テラバイトで、ワンクリック分析によりさらに 0.5 テラバイト、合計 2,000 ファイルの結果が生成されました。 Basepairなしでデータを手動で管理するのは悪夢だったでしょう。

Basepair を使用すると、数回クリックするだけでデータを Gene Expression Omnibus に預けることもできます。

このプロジェクトのデータは、Nature Communicationsに論文を掲載するために使用されました。ASXL2 is essential for haematopoiesis and acts as a haploinsufficient tumour suppressor in leukemia.

Basepairを試してみてください

Basepairは、最小限のセットアップで数百、さらには数千のサンプルを並行して分析できます。 MSKCCの研究者らは、Basepair のプラットフォームを使用して、別のアプローチでは数日から数週間かかっていた3つのNGSデータ タイプの分析を数時間で実行することができました。

彼らの結果は高品質で、インタラクティブなビジュアルを含み、すぐに出版できるものでした。 Abdel-Wahab博士と彼の研究室は、オープンソース ツールを使用してデータを手動で分析しようとした場合や、センターのバイオインフォマティクス コアを待たなければならなかった場合よりも、はるかに早く論文をNatureに掲載することができました。