【ゆっくり解説】ゲノム生成AI「Evo 2」【作業用ポッドキャスト】

皆さんこんばんはAIに支配されている チャンネル進行のゆっくり霊夢です本日の テーマは全生命領域を横断するゲノム モデリングと設計エボ2の衝撃です今回は 最新の研究論文ジェノームmodーリング &designアクロスオールドメインズ オブラフwith2を深掘りしその活期的 な技術とそれが生物学研究に与えるで あろう影響について専門家のゆっくり 魔理沙さんにお話を伺います魔理沙さん 本日もよろしくお願いしますよろしくお 願いしますゆっくり魔理沙ですエボ2は 生命科学の分野に大きな変革をもたらす 可能性を秘めたモデルです本日はその確信 的な側面についてAIファンの皆さんが 理解しやすいように多格的に解説していき たいと思います魔理沙さん早速ですがエボ 2とは具体的にどのようなAIモデルなの でしょうかまずはその開発の背景と目指す ところから教えていただけますかそうです ねず生命の設計図であるDNAは全ての 生物に共通する情報の媒体です近年この DNAの配列を読み解き合成し編集する 技術は脅異的な速度で進歩してきました しかし例えば人間が何か新しい生物 システムを設計しようとする場合ゲノムに 内在する防大かつ高度な情報を単に解析 するだけでなくAI自身が想像する能力が 不可欠となりますこれまでのLLMが テキストを生成するようにDNA配列を 生成するイメージですねなるほど 既存のものを分析するだけでなくAI 自身が想像する段階なのですねそれはまるで生命の設計図を AI が書くというようなイメージでしょうか えまさにそのイメージです私たちは以前エボという比較的シンプルな構造を持つプロカリオタ近や細菌のゲノムに特化したモデルを開発しました エボ2はそのエボ1の道をさらに拡大し 細菌フル細菌そして人間を含む進格生物と いった生命の全ドメインのゲノムを統合的 に学習するより汎用的な生物学基盤モデル として開発されました具体的には9.3兆 ものDNA延期これを情報処理の単位で あるトークンと呼んでいますがその膨大な データを学習対象としましたそして70億 及び400億パラメーターを持つ2種類の モデルを構築しいずれも最大100万 トークンという非常に 長い脈を扱えるように設計されています 100万トークですかそれは私たちの普段 使っている自然言語の大規模言語モデルで もかなり長い部類に入りますよねゲノム の脈でそれだけの長さが扱えるというのは どのような意味を持つのでしょうか非常に 重要な点です自然言語モデルが長い文章の 前後関係を理解するのと同様にゲノムでは 例えばある遺伝子のスイッチを入れる エンハンサーがその遺伝子から非常に離れ た位置にある場合があります100万 トークンという長い分脈を扱うことでエボ 2はこのような長距離の遺伝的相互作用や ゲノム全体に渡る複雑な生物学的パターン をより正確に学習しモデリングし予測や 生成に行かせるようになったわけです単一 の遺伝子だけでなくゲノム全体を理解 しそれに基づいて想像できるという イメージですねなるほどこのエボ2は完全 にオープンソースとして公開されている点 も特徴的だと聞きましたこれはどのような 意図があるのでしょうかおっしゃる通り です訓練データセットのオペンジェノーム にモデルパラメーター訓練コード水論 コードなど全ての関連するリソースが オープンソースとして公開されています これは生物学分野におけるAI 研究の加速を目指す私たちの強いコミットメントの現れですこのモデルを基盤に世界中の研究コミュニティがさらなる開発や用を進めることを強く促すという意図があります それは素晴らしい取り組みですねしかしこのような強力なモデルをオープンにすることに対して一部で倫理的な懸念も提されていると聞きました 例えば病原性ウイルスの設計に悪用されるのではないかといった意見ですこの点についてはどのような対策が取られているのでしょうか はい霊夢さんの非常に鋭い指摘ですねジュアルユース二重利用リスクという観点から私たちは複数の安全対策を講じていますその 1つが習データからの意図的な除外です 例えば人間や進格生物に感染するウイルス 由来のゲノム配列は訓練データから厳密に 除外しましたこれによりエボが直接的に 病原性の人間ウイルスを操作したり設計し たりする能力を持つことを防いでいます 実際に学習データから除外した進格生物 ウイルスのゲノムに対してエボ2は高い パープレキシティつまり予測の難しさを 示していますこれはモデルがこれらの ウイルス配列を十分に学習していないこと を意味し意図した通りの効果が得られて いると言えますまた人ウイルス関連の データでの予測性能も実質的にランダムに 近く特定の病原性配列の生成能力を抑える ための設計が機能していると評価してい ます安全対策が機能しているわけですね それは安心ですでは次にエボ2の技術的な 確信つまりモデルアーキクチャと訓練司法 について深掘りさせてください このモデルはストリペドヒエナにというユニークな構造を採用していると伺いましたこれはどのようなものなのでしょうか はいエボ2 の中核をなすのはストリペドヒエナ2 というマルチハイブリッド構造です これはトランスフォーマーでお馴染みの 自己注意機構アテンションと新たに開発さ れた入力に依存する畳み込み演山子 いわゆるヒエナハイエナを組み合わせた ハイブリッドなきてくちゃですこのモデル は短い分脈から長い分脈まで対応できる よう畳み込み演山子を効率的に組み合わせ たストライプ上の構造を持っています この構造はトランスフォーマーの計算コストが高いという課題を克服し特に長い配列を扱う際に強みを発揮します それは非常に効率的そうですね このアーキテクチャによって具体的にどのような性能向が見られたのでしょうか?従来のトランスフォーマーと比較してどれほど優意性があるのですか え従来のトランスフォーマーモデルや以前の世代のハイブリッドモデルであるヒエナ 1 と比較してストリペドヒエナには演算スループットが大幅に向上しました 特に16またロータリーポジション エンベディング通称Eも分略拡張に応用し ており100万トークン分略を実現してい ますロップEは絶対的な位置情報ではなく 相対的な位置情報をモデルに伝えることで 長い配列でも効率的に学習できる手法です 私たちはコンテキスト帳が2 倍になるごとにロップEの周波数を10 倍に増やすといった工夫も導入しましたなるほど 100 万トークンもの長大な脈を扱えるようになったというのはリスナーの私たちにはどのような意味を持つのでしょうか?本当にそれだけの長さの情報をモデルが理解していると断言できるのですか 非常に良い質問ですこれを検証するために 訓練中にはロングコンテキストリコール タスク通称ニードルインアヘイスタック 星草の山から針を探す評価を行いました これは100円きついの短い配列いわゆる バリのような特定のパターンを100万円 きついのランダムな星草の山の中に 埋め込みそれをモデルが正確に探し出す タスクです死母2はこの大な脈でも離れた 位置にあるバリを確実に思い出す能力を 実装し長大なゲノム配列の中から重要な 情報を見つけ出すことができると確認され ていますそれは脅異的ですねAIがゲノム の全体像を捉えその中の微細な情報を 引き出せるようになったと では訓練方法についても教えていただけますか 2段階戦略が採用されていると伺いました はい訓練は2 段階で行われましたまず短分脈での事前訓練ですここでは 8 なるほど最初に局所的な規則を徹底的に学習させるのですね えその後分脈拡張ミッドレーニングという段階に入ります ここでは脈長を32系から始まり順次65 系131系262系524系と拡張し最終 的200万トークンまで到達させました この過程で400億パラメーターモデルは 合計9.3兆トークンもDNA延期を学習 しておりこれは非常に膨大な計算資源を 投化した結果ですそれは膨大なデータ量 ですね ところで損失関数についても触れていましたがリピート配列つまり反復領域に 0.1 倍の重みを付与した際重付けクロスエントロピー損失を採用したというのはどういう意図があるのでしょうか はい鋭い質問ですねもしゲノムの全ての 領域をに扱ってしまうと反復配列例えば トランスポゾン動く遺伝子や反復性の多い セントロメア領域染色体の中心部などが 非常に頻繁に現れるためモデルの学習が そうした領域に偏ってしまう傾向があり ますこれは火流タスクで機能的に重要な しかし出現頻度が低い領域の予測精度が 相対的に低下してしまう可能性があるため 避けるべきですそこで私たちは反復領域に 0.1倍の低い重みを付与しましたこれに よりリピート領域塗装でない領域との スコアのバイアスを軽減し変異効果予測 などの火流タスクにおいてより適切な キャリブレーションを実現できることを 確認しています例えばこの重み付けを行う ことでクリンバーという臨床データセット における予測制度が以前よりも明確に改善 したことが確認されていますなるほど反復 領域も生命活動において進化的な意義を 持つケースがあるとも言われますがそこは モデルの主要な学習目標である機能 的影響予測や新規配列設計においてより 効率的かつ正確な学習を促すための戦略と して割り切ったということでしょうかえ その通りです特定の応用を目指す上で効率 と制度を最大化するための実用的な選択 でした もちろん将来的に反復配列自体の機能的意義を深く学習するモデルも考えられますが現段階ではこのアプローチが効果的であると判断しています ありがとうございますエボ2 の設計思想と技術的な工夫がよくわかりましたでは次にこのモデルが持つ予測能力について詳しく伺いたいと思います 特に変異の機能的影響を予測する0 ショット変異効果予測という点が非常に画期的だと感じました はい0 ショット予測とはモデルが特定のタスクのために明治的に訓練されていなくても学習済みの後半な知識を用いてそのタスクをこなす能力のことです エボ2の場合DNA配列の誘導最もらしさ 変化を測定することで変異の機能的影響を 推定しますこれまでのタンパ質言語モデル 例えばESM1部やESM2あるいは プロカリオタゲノムモデルであるエボ1で はある程度の変異予測ができていましたが エボ2はDNARNAタンパク質の 全リティ異なる情報形式を横断的に学習し たことで非行度領域やスプライスVといっ たこれまで予測が難しかった領域の変異 効果も扱えるようになりました これは生物学的な分脈をより包括的に捉えるエボ 2ならではの強みです なるほどモデルが自然な法則を自力で発見しそれを応用できるというのはまるで生命の理解そのものですね 具体的にはゲノムの基本的な構成要素である開始停止周辺の変異予測ではどのような結果が得られたのでしょうか え例えば遺伝子の開始周辺の単一延期変異 SNV の予測では開始を構成する3 延期で誘導が大きく低下しど第3 位の延期が変化してもアミノ酸が変わらないどの周期性や進格生物の翻訳開始 に重要な小ザック配列のような基地の生物 学的規則を正確に捉えていることが確認 できましたこれはモデルが何の事前知識も 与えられていないのにこれらの基本的な 遺伝法則を自ら学習していることを意味し ますさらに興味深いのは停止周辺の評価 ですシボ2は標準コードマイコプラズマ コード専門中コードといった生物種によっ て異なる使用規則を正確に識別し適切な 場所で停止を認識していることが示され ましたこのタスクでは比較的長い分脈が 必要でありエボ2の超分脈学習が身を結ん でいることがわかりますそれは驚きですね モデルが生物仕事の遺伝コードの違いまで 学習しているとは ではディープマテーショナルスカニング DMS データや実際の臨床データとの比較ではどのような結果が得られたのでしょうか?これが多くのリスナーが最も関心を持つ点かもしれません はいDMS とは遺伝子に変異を大量に導入しそれぞれの変異が生物の機能にどう影響するかを大規模に測定する実験法です これとの比較ではタンパ質のフィットネス 機能性予測においてエボ基の最先端のタパ 質言語モデル例えばCARPやESM2 などと同等の性能を示しました特に非ード RNANAのフィットネス予測では他の どのモデルよりも圧倒的に高い相関を示し その能力の高さが際立っていますただし 一点補足しますと進格生物に感染する ウイルス由来のDNA配列は意図的に訓練 データから除外していますそのため人 ウイルス関連のDMSデータではエボ2の 予測性能は実質的にランダムに近い結果と なりましたこれは安全対策として特定の 病原性配列の生成能力を抑えるための設計 によるものです 安全対策が機能しているわけですねそれは安心です ではクリンバーやスプリセバード BRC2 といった実際の臨床データとの比較ではどうだったのでしょうか えクリンバー疾患と関連する人遺伝子変異のデータベースを用いた評価ではエボ通話単一延期変異 SNV のコーディング領域ではアルファミン図のような特化モデルにはわずかに及ばないもの挿入出などの SNVそして非行度SNVやスプライス 関連変異といった領域では他のどのモデル よりも大幅に優れた予測性能を示しました 特にスプリセバードBスプライシングに 影響する変異のデータベースを用いた スプライス変異の評価では全モデル中最高 性能を達成していますBRCA1や BRCA2入眼に関連する遺伝子の方は 変異データを用いた評価でも非行度領域の SNV予測で既損のモデルを上回り全 SNVを合わせた評価でも裁量の結果を 出していますこれはエボ2が非常に多様な 種類の機能的変異を0ロショットで高制度 に予測できることを強く示唆しています 感想レポートでも非コード変異スプライス関連変異非 SNVINE などの予測で従来費で大幅改善と高く評価されています それは非常に重要な成果ですね私たちリスナーとしては AI がより正確に病気の原因となる変異を特定できるようになるという未来が想像できます しかしクリンバーのようなデータには研究 バイアスがあるという指摘や教師あり学習 で性能向上を図る際に科学習の懸念がある といったくの批判的な視点もあるようです がこの点についてはいかがお考えですか そうですね霊夢さんの指摘の通り クリンバーデータは特定の遺伝子や変異 研究が集中する傾向がありモデルの汎用性 評価において考慮すべき点ですこれは特定 のよく研究された変異に予測が偏る可能性 を意味しますまた教師あり学習においては 限られたデータでモデルが過剰に最適化さ れるいわゆる科学のリスクも確かに存在し ますしかしエボo2はこのような基地の バイアスを持つデータだけでなくDMSの ようなモ羅的な実験データや多様な生命 領域のゲノム全体から学習した生物学的 パターンを活用することでよりロバストな 予測能力を獲得しています私たちはモデル の様々な層から埋め込みを抽出しタスクに 最適な情報を探索しましたこれらの アプローチによりエボ2は単一のタスクに 特化したモデルでは捉えきれないより後半 な生物学的分脈を理解できるようになって いると考えていますもちろん今後の研究で さらなるデータセットや検証手法を導入し モデルの汎用性とロバスト性を一層高めて いく必要があります特に定品度 変異やまだ十分に研究されていない領域における予測制度は今後の重要な課題となります ありがとうございますエボ2 の予測能力そしてそれを取り巻く議論がよくわかりました次にエボ 2 がどのようにしてこれらの脅威的な能力を獲得しているのかその頭の中を覗いてみたいと思います 気候解釈可能性解析特にスパースオートオンコーダー SAE による特徴抽出について教えていただけますか はいAI モデルがブラックボックスだと批判されることもありますが私たちは SAE という手法を用いてエボ2 の内部表現つまりの活性化パターンを人間が理解できるイミロン的な特徴ベクトルに分解しました これによりモデルが暗黙的に何を学習して いるのかを貸視化できるようになりました 感想レポートでもブラックボックス批判に 対する1つの回答と述べられています SAEがモデルの学習した生物学的意味を 教えてくれるということですね具体的に どのような特徴が抽出されたのでしょうか 非常に興味がありますはい非常に興味深い 発見が数多くありました例えば プロファージ関連の特徴についてですこれ はEコリゲノム内のバクテリオファージ最 細に感染するウイルス由来のプロファージ 領域ウイルスが最近のゲノムに潜伏して いる部分で特に強く活性化しますさらに 驚くべきことに細がウイルス感染から身を 守るための免疫システムである CRISPRシステムのスペーサー配列 ウイルスDNAの記憶部分でも活性を示し ましたこれはエボツガウイルス由来の配列 を単に記憶しているのではなく CRISPRスペーサーがかつて外来 DNAであったという生物学的な概念 つまり進化的な情報を自立的に学習して いることを示唆していますまた基地の データベースではまだ駐にも関わらず インテグラーゼやインベルターゼといった プロファージ関連遺伝子の付近で活性化を 示すケースも見られ道のプロファージ領域 の補助アンカーになりる可能性も秘めてい ますそれは非常に深い動殺ですね モデルが進化の痕跡を読み取り未発見の領域を示唆していると他にもゲノムの基本的な構成要素例えば遺伝子や RNA などに関する特徴も学習していたのでしょうか えその通りですEコリゲノムを解析した ところオープンリーディングフレーム ORFタンパク質に翻訳される可能性の ある遺伝子領域領域に強く応答する特徴や 遺伝子領域であるインタージェニック領域 インタージェニック遺伝子と遺伝子の間の 領域そしてターNAアミノ酸を運ぶRNA やRNAリボソームを構成するRNAと いった重要な非コ度RNAに得意的な特徴 が特定されましたこれらの特徴は基地の ゲノム駐射と非常に高い一致度を示して おりモデルがゲノムのレイアウトを理解し ていることがわかりますさらにタンパク質 の構造レベルの情報も学習していました SAEはタンパ質の主要な2次 構造アルファヘリックスやβタシートなど タンパ質が局所的に形成する基本的な立体 構造に強く応答する特徴を抽出しました アルファルドさんGoogledeep Mindの最新タパ質構造予測AIで予測 されたタンパク質体構造にこれらの特徴の 活性化パパターンを重ねると実際の2次 構造要素と活性化のホットスポットが驚く ほど一致する様子が見られますまるで DNA配列からタンパク質の立体構造まで 見通しているかのようですねこれは今後の タンパ質設計にも応用できそうですそして 進格生物ゲノム特有の複雑さについても 学習していたのでしょうか特に変異の重得 度を理解していたというのは驚きですはい もちろん人のコーディング領域に変異を 導入しエボ2の内部表現をSAEで解析し ましたその結果フレームシフト変異遺伝子 の読み惑がずれ全く異なるタンパ質が作ら れる変異や早期停止変異タパ質合成が途中 で終わってしまう変異といったタパ質機能 に壊滅的な影響を与える変異に対して特意 的に活性化する特徴が抽出されましたこの 特徴は比較的影響の少ない同技変異や 非同技変異には活性化せず変異の機能的な 重得度をモデルが理解していることを示唆 していますまた人のプロモーター領域遺伝 子の転車開始を制御するDNA領域の DNAモチーフに強く応答する特徴も発見 されましたこれらを基地の一転車イ子結合 モチーフデータベースと比較すると非常に 高い類事性を示すことが確認されました これはエボ2が単なる配列パターンだけで なく遺伝子発言を制御する非常に細かい スイッチまで学習していることを意味し ますそれは驚きですDNAから 直接印が結合するような非常に細かい制御 エレメントまで学習しているのですね そして今回の資料で特に印象的だったのはエクソンとイントロンの構造まで学習していたという点ですこれは進格生物のスプライシングという複雑なプロセスをモデルが理解しているということでしょうか え霊夢さんの言う通りです一色体の解析 からエクソン遺伝子のタンパ質コード部分 領域に活性化する特徴イントロン遺伝子の 非度部分RNAから除去される領域の特徴 さらにエクソン開始Vに特意的に活性化 する特徴そしてエクソン集端Vの特徴と いったスプライシングRNAから イントロンを除去しエクソンを連結する 家庭に関わる重要な要素を捉える特徴が 明確に検出されましたこれらの特徴は人手 でアノテーション駐された基地のゲノム 情報と非常に高い一致度を示し実際に 1000の遺伝子で予測制度を計算した ところエクソン開始を示す特徴では プリシジョンリコールF1スコアが それぞれ0.890.840.86という 非常に高い数値を示しました これはエボ進格生物の遺伝子構造を深く理解しその教界線を正確に認識していることを証明しています それはすごいですねそしてこれらの特徴が私たちの知り得ないような古代の生物のゲノム例えばマンモスのゲノムに適用できるというデモンストレーションも非常に興味深かったです これは学習した知識が種を超えて通用するという汎用性を示しているわけですよね はいこのデモンストレーションはエボ2 が学習した特徴が特定の生物種主や基地のゲノムアノテーションに縛られないより不生物学的原則を捉えていることを示しています これによりまだ十分に研究されていない ゲノムや古代生物のゲノムの機能的な駐手 は生物学的発見を加速できる可能性を秘め ていると考えています感想レポートでも 未系古代ゲノムでも適用可能とその汎用性 が高く評価されていますなるほどAIが 生物学的なブラックボックスを解き明かす となるかもしれないという期待感が湧いて きますしかしSAEによる特徴には特定の 最上位特徴を目視で選ぶといった選択や 全ての潜在的な特徴を探索しているわけで はないという限界もあるのですよねえ霊夢 さんの指摘の通りです現状では最もな特徴 を特定するためにある程度の選択 と絞り込みを行っていますこれはまだ知ら れていない興味深い 特徴の非度RNAサブタイプや新たな調節 要素などが過小評価されている可能性を 否定できませんまたSAEはモデルの隠れ 層の活性化を解析する手法ですが今回の 研究では特に興味深い情報が集中すると 考えられる層の表現に焦点を当てています しかしモデルのより深い層や初期の層にも まだ発見されていないあるいは異なる スケールの生物学的意味を持つ特徴が潜在 している可能性も十分にありますこれらの ダークマターのような特徴を系統的に探索 しそれぞれの特徴が火流タスクにどれだけ 貢献するのかを定量的に評価するを確立し ていくことが今後の重要な研究課題となり ますありがとうございますエボの賢さの 秘密を少し買いまみることができた気がし ますそれでは次にエボ2の生成能力につい て伺いましょうミトコンドリアゲノムや 細菌ゲノムの生成も可能だということです がこれは具体的にどのようなレベルで実現 されているのでしょうか単に配列を生成 するだけでなく生物学的に最もらしいもの が作れているのか非常に気になります エボ2は入力された配列の続きを予測する 能力を基盤とした強力な生成モデルです まずジ員コンプリション遺伝子保管つまり 遺伝子の続きを生成するタスクでは様々な 生物種の保存遺伝子のプロンプトを与える とエボ2がその生成しアミノ3レベルで 高い一致率を示しました特に進格生物の 遺伝子で改善が見られました単に続きを 埋めるだけでなくその配列がタンパ質とし て機能し売うものになっているということ ですねではより大規模なゲノム例えば瞳と コンドリアノム全体を生成するというのは どういうことなのでしょうかこれは非常に 具体的な応用例のように聞こえますA瞳と コンドリ揚げノむは約16KBと比較的 短いですがこれの3kB領域をプロンプト としてエボ2の400億パラメータモデル に入力し残り13KBを生成させました 衛成された250 のミトコンドリア配列を見ずというツールで解析したところ人の天然ミトコンドリアと同じ数の 13 のタパ質コード配列22のターNAして2 のRNA遺伝子が一貫して検出されました それはすごいですね遺伝子の数まで正確に再現されるとは しかし生成された遺伝子配列は天然のものと全く同じなのでしょうか?それとも AIが想像した新しい配列なのでしょうか それは非常に良い質問ですBLストップと いう創ツールで解析したところ生成された 遺伝子配列は系統的に魚類から哺乳類まで 多様な生物種のオルソログ進化的に由来を 同じくする遺伝子に高い騒動性を示しまし たこれはエボが特定の天然配列をコピー するのではなく多様な生物由来の遺伝子 断片を組み合わせて生物学的に最もらしい 新しい人口ミトコンドリアを想像している ことを示唆していますこれは進化的な距離 を超えた遺伝子の組み合わせの可能性を 示しており合成生物学の新たな フロンティアを開くかもしれませんさらに アルファフォルド3を用いて生成された ミトコンドリアタンパク質が複合体を形成 するか構造予測を行ったところタンパ質 ドメイン間の相対配置や相互作用が天然の ミトコンドリア複合隊に近い形状を示し ましたこれは生成された配列が実際に細胞 内で発言翻訳された場合に機能しう売る 構造的基盤を持っていることを示唆してい ますこれは大きな可能性を感じますね しかし実際に生成されたゲノムが細胞内で 機能し生命活動を営めるかどうかはイシリ 子の予測だけではまだ分からないという ことですよね感想レポートでも実験的検証 が不可欠と指摘されていますおっしゃる 通りです インシリコピュータシミュレーション上で の構造的妥当性は確認できましたが実際に これらの人口ミトコンドリアが細胞内で 発言し正しく機能し自己複製できるかどう かは今後の実験的な検証陰美検証が不可欠 ですしかしこの成果は合成生物学において 設計可能な生命の実現に向けた大きな一歩 であると捉えることができますはいそれに 加えて ミコプラスマジェニタリアム略してMG ゲノムこれは約580KBの最小ゲノムと して知られる細菌ですがその先頭 10.5kBをプロンプトとしてイボ2の 400億パラメータモデルに入力し約 580kの全ゲノムを生成する試みも行い ましたこれはAIが生命の最も基本的な ゲノムを生成できるかというとの挑戦です 5日としてエボo2の400億 パラメーターモデルが生成したゲノムでは 約70%のORFが基地のタンパク質 ファミリーを示すプファムヒットを有して おりこれは以前のエボ1の1310億 パラメータモデルの18%と比較して大幅 な改善が見られましたこのプファムヒット 率の向上は生成された配列がより生物学的 に意味のあるタンパ質を高度している可能 性を示唆していますさらにESM フォールドタンパ質構造予測AIを用いて 生成されたタパ質の局所構造を評価した ところ天然のMGタンパク質と似たDDT 分布ESMフォールドの予測品質スコアや 2次構造の比率を示し構造的にも非常に 自然なゲノムが生成されていることが確認 されました 例えば特定の細胞膜タンパ質などでは天然タンパク質との構造類度が 85%を超える例も見られています なるほど最近レベルの全ゲノムでも高い品質で生成できるのですねただ感想レポートにはプファムヒット率 1 つで生物的有意義差を保証するには十分でないという指摘もありました これについてはどうお考えですか えその指摘はごもですプロディガルのような遺伝子予測ツールは天然の ORF 構造を優先的に検出するためランダムな配列でも見かけ上の疑似 ORF を抽出する可能性があります従がってプファムヒット率の高さだけを持って成されたゲノムが細胞内で完全にすることを保証するわけではません 新に最小合成生物と位置づけるためには 細胞内での必水電子セットの機能実証 例えばリボソムやATP合成酵素などが 正しく働くかの実験的な検証が不可欠です これはイシリコ解析の限界であり後の重要 な課題ですよくわかりました では進格生物のゲノムについてはどうでしょうか?交母の染色体制成についても報告されていましたが進格生物特有の複雑なゲノム構造も再現できるのでしょうか はいサハロ見せずセレビシアつまり室が交工募の色体 II316KBの戦闘10.5KB をプロンプトとしてA母2の 400億パラメータモデルで約 330KBを生成しました 生成された配列には複数のイントロンを 含む遺伝子やプロモーターターNAなど 進格生物らしい遺伝子構造が参建されまし たただしNAやプロモーターの密度は天然 の工募ゲノムに比べてまだやや不足して いる点も確認されました これは現の無ガイドのオートレグ生成だけでは進格生物特有の複雑な質調節要素例えばエンハンサーのような長距離作用を持つ配列の文法を完全に再現するのは難しいという課題を示唆しています やはりまだ改善の余地があるのですねただオートレグ生成だけでこれだけの成果が出るのは驚きです 真に機能する人工染体を作るにはさらに高度なが必要ということでしょうか?おっしゃる通りです実用的なクローニングや発言を考えると現在結落している調節領域や染色体末端のテロメア情報などが重要な課題となります このインシリコ上の疑似染色体はあくまで も一次元的なシミュレーションであり実際 に細胞内で機能するとは限りませんしかし この成果はAIが進格生物のゲノムの複雑 性を理解しその構造を最高性能性を初めて 示した点で非常に大きな意味を持ってい ますありがとうございますエボ2のゲノム 生成能力の後半差に勘明を受けました そして最後に今回の資料で私が最も注目し たエピジェネティック構造設計について 伺いたいと思いますDNA配列だけで クロマチンの開閉パターンまで コントロールできるというのは非常に 未来的な技術に聞こえますこれはどのよう に実現したのでしょうかはいこの技術は エボ2の生成能力と進格生物の 黒マチンアクセシビリティDNAがどれ だけ開いていて遺伝子にアクセスしやすい かを示す状態を予測する外部モデル具体的 にはエンフォーマーという高性能 な予測モデルを組み合わせることで実現し ましたなるほど既存の予測モデルをAIの 目として活用するわけですねえここで 私たちはエボ2を生成器として使い生成さ れたDNA配列をエンフォーマーと棒沿で 評価するというビームサーチアルゴリズム を考案しました具体的にはエボ2が生成し た128円きついの短いチャンクごとに エンフォーマーと沿が予測する黒マチン アクセシビリティのプロファイルを計算し それがユーザーが指定した望ましいピーク パターンにどれだけ近いかをスコアリング しますこのスコアに基づいて最も望ましい チャンクを選んでプロンプに連結し次の チャンクの生成に進みます これを繰り返すことで最終的に数k期追いの DNA 配列を生成しますこの予測モデルによる生成度は計算コストを伴いますが驚くべき結果をもたらしました AIがAI を評価しながら最適な配列を生成する非常にインテリジェントなプロセスですね具体的な設計例としてモーズコードを埋め込むというデモンストレーションは非常にユニークでした これはどのようにして実現したのですか え私たちはマウスゲノムのある約71kB の領域を置き換える形で長方形波やコードのパターンを黒マチンの解放領域つまりピークとして設計しました 例えばLOというメッセージをモーズ コードで表現する場合ドッとダッシュに 対応する長さの解放領域とスペースに対応 する閉鎖領域をバイナリパターンとして 定義しますこのパターンをターゲットとし てエボツとエンフォーマー防の連携によっ てDNA配列を生成しました結果として 生成された配列のDネイズ アクセシビリティ予測トラックには見事に モーズコードのピークパターンが再現され ましたこれはDNA配列に エピジェネティックなメッセージを 書き込むことが可能であることを示してい ますAIが生物学にメッセージを書き込む というまさにSFのような概念が現実身を 帯びてきたと言えるでしょうそれは本当に SFのようですねAがゲノムの設計者に なる未来が近づいている気がしますしかし このエピジェネティック構造の設計には どのような課題があるのでしょうか例えば 計算コストや設計の汎用性などですはい 霊夢さんの指摘の通りこのプロセスは 計算コストが非常に高いという課題があり ますEサーチの幅を広げてより多くの候補 を評価するほど設計の品質は向上しますが それに比例して計算資源も膨大に必要に なりますこれは通常の研究室レベルでは 容易に再現できないデータセンター級の 計算能力を用しますまた現状では黒マチン の開閉パターンを模法することに焦点を 当てていますが実際のエピジェネティック 制御はヒストン就職やDNAメチル化など さらに多層的で複雑な相互作用に依存して いますそのためDネズアクセシビリティ だけが機能的制御の全てを代表するわけで はありません感想レポートでもDネイズ アクセシビ力機能的制御全体を代表するか は不明と指摘されていますしかしこれは あくまで初期段階の概念実証でありこの パラダイムは例えばスプライシング パターンや細胞種特意的な遺伝子発言勢 など他の複雑な生物学的特性の設計にも 応用可能です 今後の研究で計算効率の最適化やより多想的なエピジェネティック情報を考慮したモデルへの拡張を進めていくことでさらにその応用範囲は広がっていくでしょう 魔理沙さん本日も滝に渡る貴重なお話をありがとうございました エボ通画全生命領域を横断する生物学板 基盤モデルとして予測能力解釈可能性 そして生成設計能力においていかに画期的 な成果を上げているかがよくわかりました 今日のポイントをまとめるとまず 9.3兆円延期という膨大なデータから 学習し100万トークもの頂大な分脈を 扱えるようになったこと次に単一延期変異 から非行度領域の変異さらにはBRCHの ような臨床的にも重要な変異まで高い精度 で予測できるようになったことそして スパースオートオンダーSAEを用いる ことでモデルがDNA配列から プロファージ領域やタンパク質2次構造と いった生物学的な意味を自発的に学習して いることが貸視化された点さらに ミトコンドリアゲノムや細菌ゲノム交母 染色体といったゲノムスケールの配列を 生物学的に自然な構造で生成できるように なったことそしてエンフォーマーや防と いった予測モデルと連携することで クロマチンの開閉パターンを事在に設計 できるようになったという点が上げられ そうですねはい霊夢さんのまとめの通り ですエボ2はこれまでプロカリオタ限定や 人間限定だったモデルの枠を超え生命の全 ドメインをカバーする真の基盤モデルとし て生物学研究に新たなパラダイムを もたらすと考えています一方で今回の成果 は インシリコピュータシミュレーションでの 検証が種であり実際に生成されたゲノムが 細胞内で機能するかどうかは今後の実験的 検証陰母検証が不可欠ですまた ウイルス由来のDNAの除外や大規模な 水論にかかる計算コストも実用化に向けた 今後の課題となります 感想レポートでもこの実験的検証の欠除や大規模水論コストが主な限界として上げられていましたね えその通りですしかしエボ2 が持つ潜在的な応用可能性は図り知れません CRISPRゲノム編集技術のような ゲノム編集技術のオフターゲット予測意図 しない場所への影響予測や非行度調節領域 における機能的重要箇所の実験との融合 シナリオが期待できますまた総の安全対策 を講じた上でウイルス設計や進化 シミュレーションへの応用も将来的に考え られますつまりエボ2は合成微生物や合成 進格生物のゲノムワイド最適化といった 合成生物学プラットフォームの核となりる とまさにその通りですインシリコでの最適 化とインボでの検証を高速に繰り返す サイクルを回すことで例えば降参率金部の 設計など新たな生物学的システムの開発を 加速する可能性を秘めています死母2は 生物学の新たな時代を切り開く強力 なツールとなるでしょう私たちも引き続き この進化の最前線に注目していきたいと 思います魔理沙さん本日も滝に渡る貴重な お話を分かりやすく解説してくださり本当 にありがとうございましたありがとう ございましたAIに支配されている チャンネル本日はここまでですリスナーの 皆さんも最後までお付き合いいただき ありがとうございましたまた次回お会いし ましょう

2025/2/21に公開された論文「Genome modeling and design across all domains of life with Evo 2」についてゆっくり解説しました。

出典:
https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1

※本動画は基本的にポッドキャスト・ラジオ番組的な利用を想定しております。

#AI #人工知能 #生成AI #機械学習 #LLM #アルゴリズム #科学的発見 #技術革新 #ゆっくり解説 #arXiv