.bed、.bam、その他のファイルフォーマット

人々をバイオインフォマティクスから遠ざける要因の中で、様々な入力と出力のファイルタイプがたくさんあることが、大きな要因の一つあることは間違いません。

ngsplotを使ってヒートマップを作成するには、bamファイルが必要です。その代わりにdeeptoolsを使い、ヒートマップを作成したい場合は、bigwigファイルが必要です。

bigWigファイルとは何でしょうか?これはUCSCの優秀なスタッフによって開発されたファイルフォーマットで、ゲノムのカバレッジを可視化するために使用されます。UCSCのゲノムブラウザの代わりに、BroadのIGVブラウザを使いたい?Bigwigは使えますが、IGVはTDFファイルを作ることを要求します。

ファイルタイプは、インターバルファイル(ゲノムの位置を保存する必要があるファイル)を見始めると、より複雑になります。例えば、今あなたが見ているのはbedかgffかgtfです。最後の2つは同じですが、実際は違います。もう誰もわかりません。この3つのファイルタイプで十分でない場合は、ありがたいことに、featureCountsがSAFフォーマットをサポートしています。ただし、UCSCにはそのようなものはありません。

彼らは自分たちの手で問題を解決しようと、refFlatやrefGeneなどを導入しました。

現在、bedファイルはペアエンドデータを保存するために拡張することもできます(BEDPE)。BED3、BED4、BED5、BED6、BED12のランクに追加されました。

ファイルタイプを選択する際の重要な基準は、マシンリーダブル・フォーマット(コンピューターが読みやすいフォーマット。例えばtsv)とヒューマン・リーダブル・フォーマット(人間が読みやすいフォーマット。例えば、json)です。VCFは、マシンリーダブルでもヒューマンリーダブルでもないという不可能を可能にしたファイルタイプです。タブ区切りの値と連結されたフィールドの組み合わせを使用することで、アクセスには高度なパーサーが必要です。デスクトップで開いてざっと見ようとすると、エクセルをクラッシュさせることは間違ありません。

バイオインフォマティクスで大きな問題があるとすれば、それはファイルフォーマットです。

Basepairの主な設計目標のひとつは、ファイルタイプにまつわる複雑さを可能な限り軽減することでした。Basepairはファイルではなく、サンプルを中心に設計されています。

RNA-Seqデータの発現カウントを行いたい場合は、サンプルを選択するだけです。[入力がfastqかbamかはBasepairが判断します)。差分発現を実行したい場合は、2つのサンプルグループを選択するだけで、自動的に発現カウントファイルを選択します。アウトプットは、次に必要なソフトウェアのために再フォーマットされます。

Basepairを使えば、ファイルタイプではなく、データについて考えることができます。

6サンプル フリートライアル 実施中

最大6つのサンプルを無料でアップロードして分析できます。アップロードされたサンプルに対する解析は無制限です。世界トップクラスの機関、研究室、製薬チームがBasepairを使用して、数千ドルを節約している理由をご覧ください。