バイオインフォマティクスの隠れた限界

投稿日 4月 1, 2024
更新日 4月 4, 2024
著者 elisa
カテゴリー TechBlog

問題

バイオインフォマティクスは頭打ちに達しています。 Illuminaの最新のシーケンサーや、Element Biosciences、Complete Genomicsなどの新しい機器メーカーによって世界中の研究室で生成されているゲノムデータの量を分析する方法は 3 つしかありません。 AWS やその他のクラウドプロバイダーは、ますます多くのコンピューティングパワーを手頃な価格で利用できるようにするために多大な貢献をしてきました。 AI を含むますます洗練されたアルゴリズムにより、プロセスを自動化する能力が着実に向上しています。しかし、より多くの人々が実際の作業、特に日常的な分析を行えるようにするための措置を講じない限り、私たちはこの速度には追いつくことができず、データに隠された豊富な知識は発見されないままになると私たちは考えています。

私たち人類が生成できるデータ量の急激な増加は、両刃の剣のようなものです。一方では、テクノロジーの急速な向上、ひいては私たちの生活の向上が可能になります。あなたがこれを読んでいるかもしれない携帯電話は、人類を月に連れて行ったコンピューターよりも桁違いに強力です。一方で、指数関数的な成長により、私たちが生成したデータの量と、そのデータから得られるインサイトの量との間に大きな差異が生じます。

ビッグデータの分野に詳しい人に尋ねれば、確実に分析できるよりもはるかに多くのデータを簡単に作成できるようになったと答えるでしょう。そのため、私たちは膨大な量の情報を利用できますが、それを理解するための優れた方法はありません。

ゲノミクスは生物学者にとってビッグデータの分野であり、信じられないほど急速に成長しています。これの実例として、2020 年に最も急成長した ETF （Exchange Tranded Funds、上場投資信託）は何だったのかを見てみましょう。それは ARKG (アークゲノミクスレボリューション ETF)です。これは単なる仮説的な問題ではなく、実際のアプリケーションに伴う現実の問題であり、ゲノムデータ解析には解決可能な限界があるため、進歩の速度は限られています。

古い作業方法の例（かなり単純化していますが）

では、今日このデータはどのように作成され、その後分析されているのでしょうか? まず、大学、研究機関、またはバイオ製薬会社の研究者が、検証可能な仮説を考え出します。例えば、XYZという遺伝子が、p53（がんと戦う遺伝子）と呼ばれる別の遺伝子の発現を下方制御（減少）させていると彼らが信じているとしましょう。

次に、生物学的サンプルを生成する必要があります。そこで彼らは、XYZをノックアウト（欠失）させたマウスと、XYZがまだ機能しているマウスを飼育しました。彼らは両方のマウス集団から組織サンプルを採取し、いくつかの化学操作を行って遺伝物質を抽出および増幅し、配列決定のためにそれらのサンプルをシーケンスセンターに送ります。彼らはシーケンスから生データを取得します。といっても、生データは数十億の数の文字列 (ACGT) にすぎないため、それ自体では解釈でできません。人間はその形では理解できないのです。

彼らがほとんどの研究者と同じように、その生データを分析のために計算生物学者（バイオインフォマティシャン）に送ります。大学にはバイオインフォマティクスコアがあり、バイオ製薬会社にはバイオインフォマティクス部門がある場合があります。しかし、特定の大学には何百もの研究室があり、複数の異なる実験が同時に進行しているとしても、バイオインフォマティクスのコアで働いているのはせいぜい 5 〜 10 人かもしれません。

バイオインフォマティシャンたちはできる限りの最善を尽くし、データを熱心に処理し、結果を遺伝子発現レベルを含む Excel ファイルと、ヒートマップやボルケーノプロットなどのグラフィックを含むいくつかの PDF で返します。最初のパスだけでも、研究者が仮説にメリットがあるかどうかを確認するまで数週間かかることがあります。

しかし、優れた研究は反復的なものであるため、これで終わりではありません。研究者は、最初のレポートで興味深いものを発見し、それをより詳細に調査したり、データをさらに調べてフォローアップの質問をしたりしたい場合や、単に出版物用に少し違って見えるグラフが必要な場合があります。

そこで彼らは、バイオインフォマティシャンの元に帰ってきます。しかし、彼らはすでに次の研究室のデータの作業を開始しています。それは当然のことです。さらに 8 つのラボがデータ分析のために待機しているのです。そのため、最初の研究者は答えが得られるまで、さらに 4 週間待たなければなりません。ひょっとしたら、その頃にはインサイトを失っている可能性があります。あるいは、別の誰かが同じ課題を検討した論文を発表してしまうかもしれません。そうなると、その研究者は論文発表というの観点からは、何も示さずに数か月の時間を無駄に費やしただけということになってしまいます。

この研究プロセスの他のすべてのステップは、継続的に最適化されています。すでに遺伝子編集されたマウスを購入できる研究会社があります。関心のある遺伝物質を抽出して配列決定するための「キット」を販売するのメーカーがあります。シーケンスを行ってくれるサービスプロバイダーがあります。このプロセスのすべてのステップを代行してくれるフルサービスの会社もあります。ところが、依然としてデータの手動分析を専門の計算生物学者に頼っています。

バイオインフォマティシャン、DRY研究者を非難しているわけではありません。彼らは複数の研究者と協力して、できる限り多くの処理済みデータを取り出すという超人的な仕事をしています。しかし、人材を拡充するだけでは指数関数的なデータの問題を解決することはできません。ゲノミクスでは、データサイエンティストの能力が最大限に発揮されていますが、すべての実験のデータに十分な注意を払うことができません。また、それぞれの実験に対して感情的な愛着や科学的好奇心は、何か月もかけて考え、努力したベンチサイエンティストには勝てないでしょう。

結論

では、どうすればよいのか。私たちは、ベンチサイエンティストが自分のデータを分析できるようにして、時間を費やしてデータに質問し、より迅速に研究を繰り返すことができるようにする必要があります。私たちはバイオインフォマティクスを民主化する必要があるのです。

ある計算科学者と話したときのことを覚えています。彼は「ベンチサイエンティストが自分のデータの分析方法を理解させるなんて信じられない」というようなことを言っていました。私は「そうしなければならないんです！」と言いました。彼ら以上に彼らの実験の生物学を知っている人は他にいますか？彼らほど、その特定の研究生物のその特定の遺伝子に関心を持ち、その稀な病気を治療したり治癒しようとしたりする人が他にいるでしょうか? 確かに、さまざまなツールや入力パラメータ、エッジケースなどの問題があり、複雑ですが、他にどのような選択肢があるでしょうか?

私は生物学の学士号を取得してこの分野で働いてまだ 4 年未満ですが、ほとんどの場合、RNA-seq データのアライメントツールとしては、Tophat よりも STAR の方が優れていると言えます。 GATK4 は、バリアント検出に関して Freebayes よりも遅いですが、より正確であると言えます。そして、Juicer には Hi-C データ分析のための並列化と最適化が切実に必要であると言えます。私でさえがこの明らかに高レベルの理解に達することができるということは、私が協力している優秀な生物学者は、日常的なバイオインフォマティクス分析を自ら実行することができると自信を持って言えます。

私は遺伝学の博士号を持つ研究者たちと一日中話していますが、彼らのほとんどがバイオインフォマティクスを巨大なブラックボックスとして捉えているとも言えます。サンプルを生成して最終結果を解釈する人は、データがどのように分析されるかを理解していません。命を救い、健康を改善し、苦しみを軽減するなど、信じられないほどの可能性を秘めているこの分野を最大限に活用したいのであれば、これは受け入れられない断絶です。

これはバイオインフォマティシャンについての暴言ではない、と前に述べたことを覚えていますか? ベンチサイエンティストが自分のデータを分析できるこの素晴らしい新しい世界において、彼らの役割がどのようなものになるのか疑問に思われるかもしれません。そうです、彼らは、生データに対して同じ分析パイプラインを何度も実行するのではなく、より大きくて興味深い問題に時間とエネルギーを集中させることができるようになります。

彼らは、ゲノミクスで常に生成されている輝かしい新しいデータタイプ用の新しいツールと新しいパイプラインを開発できます。彼らはデータ型の統合に取り組むことができるため、エピジェネティックな変化が発現データや変異データとどのように相互作用するかを確認できます。そして、ゲノミクスのような成長分野では、これらのエッジケースが常に存在することが確実であるため、ベンチサイエンティストが依然として苦戦しているエッジケースを支援することができます。バイオインフォマティシャンやDRY研究者にとって取り組むべき魅力的かつ重要な問題は数多くあり、それは彼らの時間と知識を非常に有効に活用することになるでしょう。

ゲノミクス分野は長い道のりを歩んできており、世界中で多くの成果を上げています（例えば、新型コロナウイルスワクチンが1年以内に登場）が、その歩みはまだ終わっていません。日々生成されるゲノムデータを最大限に活用するバイオインフォマティクスの新時代を構築する時が来ました。複雑な計算問題を解決するあらゆる業界で見られるように、これを解決しようとする市販のソフトウェアがあり、それぞれに独自の長所と短所があります。Basepair のソリューションについて具体的に聞きたい場合、または今日Basepairが行った仮定と結論についてご自身の意見を共有したい場合は、お気軽にご意見をお知らせください。

この記事は「The Hidden Limitation of Bioinformatics」を翻訳、再構成したものです。

バイオインフォマティクスの隠れた限界

問題

古い作業方法の例（かなり単純化していますが）

結論

BasepairでのSingle cell RNA-seq integrateパイプラインのアウトプットファイル

ATAC-Seq解析とパイプラインの概要

BasepairでのDESeq2パイプライン

BasepairでのDe-novo assembly (Trinity)パイプライン

BasepairでのDe-novo assembly (Trinity)パイプライン

fastpによる品質評価と前処理のアウトプットファイル

Basepair上での解析のためのGEOデータセットの容易な取得

BasepairでのIntegrative genomics viewerの使用

Analysis

Solutions

Misc

Blog