AWS での NGS データ分析の操作: シーケンシングを初めて行うライフ サイエンス組織のための重要な考慮事項

はじめに

新しいシーケンス機器への投資おめでとうございます! あなたはゲノミクスの広大な世界に隠された秘密を解き明かす鍵を握っています。 しかし、この取り組みはデータ生成で終わるわけではありません。 そこから始まります。 機器の可能性を効果的に活用するには、次世代シーケンス(Next Generation Sequencing、NGS) データ分析と視覚化のための強力でユーザーフレンドリーで安全なソリューションが必要です。 他の多くの機器と同様に、たとえば市場をリードする機器の 1つであるComplete Genomicsを選択した場合、分析を実行するためのZTRON LiteおよびProを含む一連のオンプレミス・ソリューションが提供されます。 しかし、クラウド コンピューティングには多くの利点があるため、ワークロードをスケーリングするための魅力的な代替手段としてクラウド コンピューティングに注目する世界中のライフ サイエンス組織が増えています。 その利点にはには、事前の設備投資が不要になることや、ピーク時の使用を念頭に置いて購入するのではなく、必要な分だけ支払って使用できるという魅力が含まれています。 このブログでは、クラウド コンピューティングを活用して分析ワークフローを拡張、展開、調整する際に考慮すべき重要な側面をいくつか紹介します。

最も人気のあるクラウド インフラストラクチャーの 1 つはAmazon Web Services (AWS) です。AWSのAmazon Elastic Compute Cloud (Amazon EC2) は、事実上あらゆるワークロードに対して、安全でサイズ変更可能なコンピューティング能力を提供します。 ひとつのサンプルのサイズが数百ギガバイトにも及ぶNGS実験の結果として定期的に生成される大規模なデータセットを効率的に処理してくれます。 最終的に、NGSデータの分析方法の選択は、研究の結果に大きな影響を与える可能性があります。 NGSワークフローをAWS上でネイティブに実行することは強力なアプローチとなり得ますし、コスト効率の高い方法で科学的なインサイトを得るまでの時間を短縮する素晴らしい機会となるでしょう。 ただし、AWSでのNGS ワークフローの効率的な実装、デプロイメント、オーケストレーションには、多くの場合、時間とリソースの投資だけでなく、慎重な計画と細部への注意が必要であるということは過小評価されがちです。 このブログでは、NGSデータ分析インフラストラクチャをAWS上に直接構築する際に考慮する必要がある重要な側面のいくつかと、これを実現するために必要な重要な役割とスキルセットを簡単にリストします。 社内に必要な時間とリソースがあるかどうかわからない? 心配はありません!NGS分析に対するSoftware-as-a-Service(SaaS)バイオインフォマティクス プラットフォームであるBasepairを利用すると、多くの場合必要となるクラウド コンピューティング エンジニアやDevOpsスペシャリストが全員揃わなくても、ほんのわずかな時間で立ち上げて実行できるようになります。 

AWS 上にインフラストラクチャを直接構築する場合

AWS アカウントとインフラストラクチャーのセットアップ

初めてAWSを使い始めるときは、AWSアカウントを作成するか、組織によってすでに設定されている既存のアカウントを使用する必要があります。アカウントが適切に構成され、組織の請求情報にリンクされていることを確認することに特に注意してください。 インフラストラクチャーの一部として、組織のセキュリティとデータ分離の要件に合わせた Virtual Private Cloud (VPC) とネットワーク アーキテクチャを確立する必要があります。

計算リソース

次に、必要なCPU、メモリ、ストレージなど、各種の分析に使用する計算リソースに関していくつかの決定を下す必要があります。 AWSには多数の EC2 インスタンス タイプから選択できますが、各NGSツールまたはワークフローにどれが最適かを知るのは必ずしも簡単ではありません。 さらに、AWSクラウドでのワークロードの実行コストを大幅に削減できる、クラウド・コンピューティング・リソースの費用対効果の高い価格設定オプションであるAWSの「スポット・インスタンス」を利用することもできます。 これにより、オンデマンド・インスタンスやリザーブド・インスタンスと比較して、はるかに低い価格で予備のAWSコンピューティング容量を入札できるようになります。 ただし、問題は、これらは「予備」容量であり、より高い価格を入札しようとする他のユーザーがその容量を必要とする場合、AWSは短時間の通知 (通常は 2 分) でそれらを再利用できるということです。 これは、NGSワークフローがフォールト トレランスを念頭に置いて設計される必要があることを意味します。 スポット インスタンスはほとんど通知なしに終了できるため、ワークロードは「中断」を適切に処理できる必要があります。

データの保管と管理

AWSで必要なもう 1 つの主要なインフラストラクチャはデータ・ストレージです。 NGSデータを扱うほとんどのライフ サイエンスの研究機関や会社は、伝統的にAmazon S3(Simple Storage Service) を使用して、これらの大規模なセットの耐久性、可用性、スケーラビリティを確保してきました。 セットアップは比較的迅速かつ簡単ですが、適切な権限とアクセス権を持つ個人が容易にアクセスできるようにデータを整理するために、適切に構造化されたデータ ストレージ戦略を検討することが重要です。 さらに、データの損失や偶発的な変更を防ぐためには、堅牢なデータのバックアップとバージョン管理の計画を立てることが不可欠です。

Amazon HealthOmics

ライフサイエンス組織にとって通常は S3 が採用されてきましたが、現在では、NGSデータを保存するだけでなく分析して洞察を引き出す方法としてAmazon HealthOmics(訳註:この記事の執筆時点では日本では展開されていませんが、近日中に展開されるようです)に注目する企業が増えています。 一言で言えば、Amazon HealthOmicsは、ヘルスケアおよびライフサイエンス業界向けに設計された、特化された安全なデータストレージおよび分析ツールのスイートです。 データのプライバシー、セキュリティ、業界固有の規制へのコンプライアンスを確保しながら、複雑なゲノミクス、健康、ライフサイエンスのデータの管理を簡素化することを目的としています。 これは、ストレージおよびデータ分析用の従来のより汎用的なAWSツールとは異なり、ヘルスケアおよびライフサイエンスのデータに特化して調整されており、従来のツールが提供できる機能を超えています。 たとえば、AWS S3はHIPAA、GDPR、その他のコンプライアンス標準に合わせて設定できますが、Amazon HealthOmicsにはコンプライアンス機能とセキュリティ プロトコルが組み込まれており、AWS上で安全でコンプライアンスに準拠した環境をセットアップするプロセスが簡素化されます。 全体として、Amazon HealthOmicsはヘルスケアおよびライフサイエンスのデータ管理と分析における大きな進歩を示していますが、依然としてHealthOmics上に構築されたワークフローとソリューションを設定、管理、拡張、維持するにはAWSツールに精通したそれぞれのドメインの専門家が必要です。 

セキュリティとアクセスコントロール

次に、データの安全性を確保し、適切な権限を持つユーザーのみがデータにアクセスできるようにする方法を考え始めます。 これは、多くの場合PHI(個人健康情報) とみなされるゲノムおよび関連データの場合、さらに重要になります。 データ セキュリティとガバナンスのテーマは、完全に別のブログ投稿のトピックになりますが、ここではこのステップの一部として、誰がリソースにアクセスできるか、誰が特定のアクションを実行する必要があるか、などを制御するためのIAM(Identity and Access Management) の役割やポリシーなどについて述べておくだけで十分でしょう。 また、データのセキュリティを強化するために、データ自体も保存中および転送中に暗号化する必要があります。また、アクセスを追跡し、潜在的なセキュリティ侵害や異常なアクティビティを検出するためにトランザクションを適切に監視および監査する必要もあります。

NGS 分析ツールとパイプラインのインストール

これらの基本的なインフラストラクチャ要素を検討して実装したら、対象のデータ タイプに適切なNGSツールとソフトウェアをインストールできます。 ただし、これは多くの場合、言うは易く行うは難しいです。 適切なNGS分析ツールを選択することは、特にNGSや特定のデータ タイプを初めて使用する人にとっては困難な作業になる可能性があります。これは主に、データ タイプ、実験計画、およびバイオインフォマティクス ツールの進化し続ける状況が非常に多様であるためです。 互換性、運用上の可用性、再現性などを確保するには、ソフトウェアの依存関係、特にバージョン間の依存関係に特に注意を払う必要があります。 それにもかかわらず、バイオインフォマティシャンは、常に情報を入手し、ベンチマークを作成し、協力し、反復することで、生成されるゲノムデータの可能性を解き放ち、生の情報を科学的発見と革新を推進する貴重な洞察に変えていきます。

ワークフローの自動化

次はワークフローの自動化です。 あちこちの少数のサンプルを分析することは手動で実行できるかもしれませんが、ゲノムデータの指数関数的な増加に伴い、効率的で再現性があり、エラーのない分析の必要性が最も重要になってきています。 ここで、この複雑な領域をナビゲートする方法として、NGS 分析のワークフロー自動化が役に立ちます。 実際、自動化を採用することで、研究者はスピード、効率、信頼性が向上し、膨大な遺伝コードの中に隠された秘密を発見するという、仕事の最も重要な側面に集中できるようになります。 自動化は単なるツールではありません。 それはゲノミクス研究の真の可能性を解き放つ鍵です。 これは、NextflowやWDLなどのワークフロー管理ツールを使用して分析とデータ処理のステップを自動化し、QA/QC、調整、バリアント呼び出しなどのステップで使用されるさまざまなツールを構成および接続することから始まります。

監視と最適化

ワークフローが立ち上がって実行されたら、EC2インスタンスのパフォーマンスとリソースの使用率を監視するために、AWS CloudWatchなどの監視およびアラート システムの実装を検討することが重要です。 前述したように、NGS データ分析には、データの前処理からバリアントの呼び出しと解釈に至る一連の複雑な手順が含まれます。 これらのワークフローは計算負荷が高く、大量のデータを生成する可能性があります。 NGSプロジェクトの多様な性質を考慮すると、単一のパラメータやリソースのセットがすべてに適合するわけではありません。 継続的なモニタリングと最適化は、各分析の進化する要求に適応し、その効率と費用対効果を確保するために不可欠であり、非効率性を特定して対処するために定期的にレビューする必要があります。

データの共有とコラボレーション

現在、生データはベスト プラクティスの二次分析ツールを使用して(効率的に)処理されており、通常は同僚、協力者、さらには顧客と共有する必要があります。 これは、NGSデータ分析にオンプレミス ソリューションを使用する場合に特に困難になる可能性があります。これは、特に NGS でよく見られる大規模なデータ セットを扱う場合、データ転送が遅くなったり中断されることがよくあるファイアウォールの複雑さを克服する必要があるためです。 クラウド インフラストラクチャーはこの手順を大幅に簡素化しますが、研究者間の効率的なチームワークとデータ共有を可能にする安全なコラボレーション プロトコルをセットアップする努力は依然として必要です。 多くの場合、IAMポリシーとロールを共同編集者に拡張して追跡し、特定のデータ セットにアクセスするための適切な権限を持つユーザーのみが実際にアクセスできるようにする必要があります。

ドキュメントと知識の共有

残念ながら、NGS ワークフローのセットアップは一度行ったら完了というわけではありません。 分析パイプラインの開発者にとってのベスト プラクティスは、パイプラインの動作方法、必要なリソース、および大規模なソリューションの機能に重要な相互依存関係に関する包括的な文書を確保し、維持することです。 これには、パイプラインの仕様、インストール ガイド、データ ストレージ戦略が含まれます。言うまでもなく、現在利用可能なこれらの新しいツールのユーザー(特にアクセス中の場合)から寄せられる避けられない質問に答えるために、サポート チームに十分なリソースを提供するための要件も含まれます。 さまざまな研究開発チームの計算に精通していないユーザーによるものです。 ビジネスの継続性を可能にする方法でこれを行う方法を検討することも重要です。 すべてがどのように機能するかに関する専門知識を持った従業員が組織を去り、その知識を持ち帰ることは最も望ましくないことです。 さまざまな要素がどのように組み合わされ、それらがどのように相互に連携するかを文書化する方法を必ず用意してください。これにより、従業員が出入りするときに他の人が比較的すぐに内容を理解できるようになります。

これらは、費用対効果が高く安全な方法でNGSを効率的に処理するためにクラウド・インフラストラクチャを設定する際の重要な考慮事項です。 全体として、組織がすでに雇用している目的に応じて、これらすべてを行うには、多くの場合、次の個人および/またはスキルセットの全員または一部で構成されるチームを編成する必要があります。

• クラウドベースのシステムを設計および管理するクラウドアーキテクト

• AWS CloudFormationやCI/CDパイプラインなどのツールを活用して、タスクを自動化し、エラーを減らし、デプロイを簡単にする、スムーズで自動化されたワークフローを実現するDevOpsエンジニア

• バイオインフォマティシャンは、データから最大の値を抽出するための結果の解釈はもちろん、生成されるデータの種類に必要となるNGSツール、ワークフロー、データの前処理を理解する必要があります。

システム管理者は、AWSインフラストラクチャをスムーズに実行し、必要なときにストレージとコンピューティング リソースを常に利用できるようにします。

• セキュリティ専門家がお客様のデータを保護し、必要な規制に準拠していることを保証します。

• データ ガバナンス、組織化、バックアップ戦略を担当するデータ マネージャー。データの整合性とアクセス性を確保し、必要なものをいつでも見つけられるようにします。

• AWSの請求を理解し、支出を抑制できるコスト管理スペシャリスト

これらすべてを念頭に置くと、AWS上にクラウド インフラストラクチャを直接セットアップすることは、潜在的にやりがいのある取り組みである一方で、たとえAWS HealthOmicsスイートなどのNGSに最適化されたツールが使用されていたとしても、時間とリソースを必要とします。 逆に言えば、適切に設計されていれば、より高度なカスタマイズと制御が手に入ります。したがって、ライフ サイエンス組織が分析を営業秘密の一部として、または潜在的に競合他社との差別化方法として考えている場合、このアプローチを検討するメリットがあります。一方、バイオインフォマティクス インフラストラクチャ自体が組織の中核ビジネスの差別化要因とみなされない場合、または高度なカスタマイズが最優先事項ではない場合は、それに特定の重要な特性があれば、プラットフォーム アプローチにより必要な時間を大幅に短縮できます。 ワークフローを実稼働環境に移行してデプロイします。

Basepair バイオインフォマティクス プラットフォームのアプローチ

ゲノミクスとNGSの急速に進化する状況において、Complete Genomicsなどのシーケンシング機器メーカーは、生成されるデータの価値を高めるためにNGS分析プロセスを簡素化するツールとサービスを顧客に提供する新しい方法を常に模索しています。 その例の1つは、クラウド、特にクラウド コンピューティング市場の重要な部分を占め、大多数の顧客が使用しているAWSでNGSデータを効率的に分析および視覚化するためのバイオインフォマティクス・プラットフォーム・アプローチを顧客に提供することです。 大まかに言えば、AWS でバイオインフォマティクス ワークフローを実行するプラットフォーム・アプローチは、これまで述べたインフラストラクチャのセットアップに必要なリソースの多くを抽象化し、NGS ワークフローの移行、デプロイ、スケーリングを加速すると同時に、効率、リソース管理とコストの最適化に関連する他の豊富な利点を提供する可能性があります。

すでに見たように、このようなソフトウェア・プラットフォームをゼロから構築することは、顧客が実稼働で使用できるものをリリースするまでに時間がかかることは言うまでもなく、あらゆる機器メーカーにとって重要な仕事になります。 現在、市場で利用可能なすべてのプラットフォームを見ると、先駆的なSoftware as a Service(SaaS)バイオインフォマティクス企業であるBasepairが、この取り組みの最前線に浮上してきます。 その画期的なアプローチに慣れていない方のために、AWSでNGSデータを迅速かつ安全に、コスト効率よく分析する方法としてBasepairを活用するメリットの概要を解説します。

AWS とのシームレスな統合

このデジタル時代では、データのセキュリティとコンプライアンスが最も重要です。 BasepairとAWSとの緊密なパートナーシップ、およびそのツールやサービスとのシームレスな統合により、NGSデータを扱う組織に理想的なソリューションが提供されます。 独自のAWSアカウントをお持ちでないお客様の場合は、ドラッグ アンド ドロップ アプローチ、Basespaceとの直接統合、CLI/API、またはFTPサーバーを通じて、データをBasepairの安全にホストされたソリューションにアップロードできます。 ただし、本当に優れているのは、独自のAWSアカウント内でデータを安全に分析したい組織向けに、独自のコンピューティングおよびストレージ リソースを活用するようにBasepairのプラットフォームを構成でき、ローカルのデータ常駐規制へのコンプライアンスを確保し、完全なデータを提供できることです。 データを制御します。 最も重要なことは、このアプローチにより、ユーザーは最大限のデータ セキュリティと整合性を確保しながら、クラウドの拡張性と計算能力を活用できるようになります。BasepairがSaaSであるという事実は、AWSアカウント内にインストールする必要がなく、運用上の負担が非常に低いことを意味し、ソリューションのサポートと保守に必要な時間と労力を大幅に削減します。

あらゆる背景を持つ研究者による使いやすさ

前述したように、NGS データ分析は、バイオインフォマティクス、計算リソース、および複雑なコマンドライン ツールについての深い理解が必要となる、困難な作業になる可能性があります。 多くの研究者やベンチサイエンティストにとって学習コストが高いく、より多くのシーケンス実験を実行する際の障壁となる可能性があります。Basepairのグラフィカル ユーザー インターフェイス(GUI)は、ベンチサイエンティストがローコード/ノーコードで使用できるように設計されています。 そのため、計算の知識がほとんどまたはまったくない研究者が日常的な分析を実行できるようにして、バイオインフォマティクスの時間をより高度で、おそらくより価値のあるデータ解釈するというタスクに費やすことができるようにしたい組織にとっては理想的です。 そうは言っても、Basepairのポイント アンド クリック GUI を使用して独自の分析を実行する方法を学ぶには 30分もかかりませんが、ユーザーが行うことはすべてバックエンドで API 駆動されるため、その他のこともバックエンドから行うことができます。 コマンド ラインは、上級ユーザーがパイプラインの実行方法をさらに制御したい場合に使用します。

インタラクティブなデータ視覚化

静的データ レポートやダウンロード可能なフラット ファイルは、研究者が求める複雑な洞察を得るにはもはや十分ではありません。 Basepairは、BWAやGATKなどの業界標準のベスト・プラクティス ツールを使用した自動NGS分析を提供するだけでなく、各データ・タイプに最適化されたインタラクティブなデータ視覚化のためのレポートも付属しており、ユーザーがNGSデータを動的に探索および解釈できるようになります。 これらのレポートの一部として提供されるすべての画像とビジュアライゼーションは、すぐに公開したりプレゼンテーションに含めたりできる高解像度のSVG形式でダウンロードできます。

複数のデータ型のサポート

組織は、NGS データを理解するために複数のソリューションを購入する余裕がなくなりました。 Basepairには、遺伝学(WGS、WES、パネル、CRISPR)、トランスクリプトミクス(バルクRNA-Seqおよび単一細胞 RNA-Seq)、エピジェネティクス(ATAC-Seq、CUT&RUN/TAG、ChIP-Seq など)を含むすべての主要なアプリケーション領域に対するすぐに使えるサポートが付属しています。 Nextflow、WDLなどの標準ワークフロー言語の実行を直接サポートし、必要に応じてcGplatformを展開する機能も備えています。

コスト効率の高い拡張性

ゲノミクスにおけるデータ分析の要件は、プロジェクトの規模とサンプル量に応じて大幅に異なる場合があります。 Basepairのクラウドベースのプラットフォームは、サンプル数が少ない顧客向けの前払いライセンス料金が不要な従量課金制の使用モデルから、サンプルあたりの価格を大幅に安くできる年間ライセンス料金まで、費用対効果の高い拡張性を実現します。 サンプル量が多いもの。 さらに、Basepairを組織独自のAWSアカウントに接続すると、規模の経済とクラウドプロバイダーが提供するクレジットの恩恵を受けることができるほか、Basepairは追加コストなしで年間ライセンス構造でより多くのサンプルを提供できるようになります。

追加の考慮事項として、お客様は、BasepairとMemVergeのMemory Machine Cloud の統合を通じて、インタラクティブな分析とNGSパイプラインの実行を強化するために必要なクラウド リソースをさらに最適化および簡素化できます。 MemVergeのソフトウェアは、最先端のクラウド リソース自動化と最新のチェックポイントおよびリカバリ技術を組み合わせて、60%低いコンピューティング コストでインタラクティブな分析とNGSパイプラインの実行を可能にします。 これらのコスト削減は、NGS分析用に調整されたパフォーマンス・ファイル システムと、チェックポイントとリカバリが組み込まれたEC2スポット・インスタンスの使用によって実現され、スポットの再利用によって作業内容が失われたり、最初からバッチ ジョブを繰り返し実行する必要が生じたりするリスクを排除します。

これらの卓越した差別化機能を補うために、Basepairには、リアルタイム・コラボレーション、コンプライアンス、データ セキュリティ(臨床データのHIPAAや国際研究者向けのGDPRなど)など、業界をリードするバイオインフォマティクス・プラットフォームに期待されるすべての機能も搭載されています。

結論

NGSワークフローの導入を検討している組織は、AWSですべてを直接管理するか、Basepairを通じて提供されるようなバイオインフォマティクスSaaSプラットフォーム・アプローチを利用するかの選択に直面しています。 どちらのオプションにも長所と短所があり、選択は組織の特定のニーズと優先順位によって異なります。 最終的には、研究の規模と性質、競争上の優位性をもたらすと考えるもの、クラウド・コンピューティング・インフラストラクチャの成功に向けて投入できる時間とリソースに応じて選択する必要があります。 単一のアプローチが普遍的に優れているということはありませんが、それぞれの長所と短所を理解することで、情報に基づいた意思決定を行うことができます。 研究の目標、スケジュール、予算、利用可能な専門知識を考慮して、NGSデータ分析に最適なアプローチを選択します。 これらの重要な要素を慎重に検討して実装することで、組織はデータのセキュリティ、アクセシビリティ、費用対効果を維持しながら、クラウドベースのゲノミクス研究の可能性を最大限に活用できます。

この記事は「Navigating NGS Data Analysis on AWS: Key Considerations for New-To Sequencing Life Sciences Organizations」を翻訳、再構成したものです。