人工知能(AI)であらゆる病気の治療薬を発見する方法『LIGHTHOUSE』が開発される

(がん)や新型コロナウィルスなどの様々な病気に有効であろう治療薬の候補を高速に見つけ出す人工知能『LIGHTHOUSE(“灯台”の意)』が開発。日本時間9月27日に生物学のプレプリントリポジトリ・サーバー(査読前論文)bioRxivに掲載された。

これまでの新薬開発における問題

病気を含む、生き物の様々な現象は、遺伝子の設計図をもとに作られたタンパク質が担っている。なので、病気の原因となるタンパク質の立体構造が理解できれば理論的には治療薬を探したり、開発することが可能だ。しかし現在、タンパク質の多くは構造が解明されておらず、これまではそれが創薬における一つの壁になっている。

研究内容と成果

九州大学の生体防御医学研究所の 中山敬一 主幹教授、米国ハーバードメディカルスクール・システム生物学部門の 清水秀幸 リサーチフェロー、北海道大学人獣共通感染症国際共同研究所の 澤洋文 教授の研究グループは、上記の問題を解決するため、タンパク質の立体構造を全く使わずに、より容易に入手できるタンパク質のアミノ酸配列のみを使うLIGHTHOUSEを開発。

研究グループはLIGHTHOUSEに、癌(がん)や感染症、生活習慣病といったさまざまな疾患・病気の治療薬を予測させ、その予測を実験で検証したところ、新たな抗がん剤や抗菌薬を見つけ、新型コロナウイルスのデルタ株を含めた多くの変異株の治療に有望な化合物を見出した

具体的な研究内容

大規模な国際プロジェクトから得られたSTITCHデータ (100万以上の化合物-タンパク質ペアのデータ) を人工知能の訓練に使用。

人工知能に学習させるには、化合物もタンパク質も、何らかの数値ベクトルに変換しなくてはならないので、化合物は『MPNN』で数値ベクトルに変換し、タンパク側はアミノ酸配列をそれぞれ特徴が異なる3つの方法『CNN, AAC, Transformer』で数値ベクトルに変換した。これは化合物とタンパクの数値ベクトルを足し合わせ、さらに一連の演算をすることで、最終的にその化合物が「どれくらい薬らしいか」を表す数値が得られるような仕組みだ。

研究グループはこの手法を「Lead Identification with GrapH-ensemble network for arbitrary Targets by Harnessing Only Underlying primary SEquence」、略してLIGHTHOUSE(“灯台”の意)と命名した。

次に、LIGHTHOUSEを使って癌(がん)の悪性化に関わる酵素PPATと呼ばれるタンパク質を抑制する化合物を探索。PPATをノックダウン(目的の遺伝子の量を実験的に減らす技術)すると、様々な癌(がん)の進行を食い止めることができることは知られているが、PPATの立体構造は未だ解明されておらず、PPATの阻害剤もない。そこで研究グループは、ZINCデータセット(全世界のさまざまな試薬メーカーが取り扱う、購入可能な化合物を集めたデータセット)に登録されている10億近い化合物をLIGHTHOUSEを用いて探索し、発見した最も有望な化合物を調べることで、世界で初めてPPAT阻害活性がある化合物を見つけることに成功した。

PPATはあらゆるがんの悪性化に関わっていることを考えると、この化合物は多くのがん患者に有効である可能性があるという。

さらに、新型コロナウイルス感染症 (COVID-19) の治療に有望な化合物をLIGHTHOUSEで予測し、エトキシゾラミドという、すでに緑内障治療薬(緑内障は眼の中の圧力が高くなって起こる病気)や、利尿薬(利尿薬は腎臓に働いて尿の排出量を増やす薬)などとして本邦で承認されている化合物を見出した。

ヒト培養細胞を用いた感染実験において、エトキシゾラミドは新型コロナウイルスの感染を抑え、元々の新型コロナウイルスだけでなくデルタ株を含めさまざまな変異ウイルスから細胞を保護する働きがあることを確認した。

今回の成果は、これまでの創薬研究の進め方を大きく変える可能性を秘めているものであり、より迅速に薬を開発することができるようになると期待される。

研究の背景と経緯

有望な治療標的タンパク質に対する薬をつくることは、現在の技術でも簡単ではない。このことが、医学研究の成果を患者に還元できるようになるまでに時間がかかる、1つの原因となっている。

分子量500以下の小分子化合物に限定しても、1060もの化合物が存在すると言われており、その中から薬を見つけ出すのは時間・コスト・労力が大きくかかる。スーパーコンピューターを使ったドッキングシミュレーションなど、コンピューターによる予測法も提案されているが、たくさんの計算リソースが必要な上、ドッキングシミュレーションの前提となるタンパク質の立体構造はその多くが未知のままだ。

近年盛んに研究されている人工知能を使う創薬研究も発表されていましたが、それらのほとんどはコンピューターシミュレーションのみの解析であり、実際に新しい薬を見つけ出したわけではなかったという。そこで今回の研究グループが、さまざまな病気の治療薬を見つけ出すことができる汎用的な人工知能の開発と、実際の治療薬の発見を目的に研究を開始した。 

大量の化合物候補の中から治療薬を照らし出してくれるLIGHTHOUSEは、まさに「灯台」のように、創薬開発の進むべき方向を示してくれる大きな指針となります。創薬にかかる時間やコスト、労力を大きく減らし、患者さんに薬という形で成果を還元できる日が1日でも早く来るよう、今後も研究を続けます。

中山主幹 教授

図1 LIGHTHOUSEの模式図

人工知能 (AI) であるLIGHTHOUSEは、タンパク質のアミノ酸配列(左)と化合物(右)をそれぞれ数値の集まり (数値ベクトル) に変換した後、これらが標的タンパクと薬の関係にあるかをスコアで表現。このスコアが高いほど、化合物が「薬」になる確率が高いと言える。LIGHTHOUSEは従来の技術よりも非常に高速で、従来技術の数千倍のスピードで薬を探索することが可能。

図2 LIGHTHOUSEによるPPAT阻害剤の予測と検証

さまざまながんの悪性化に強く関わっているPPATを抑制する化合物をLIGHTHOUSEによって予測し、既存の他の薬-タンパクと同等以上のスコアを持つ化合物を候補として抽出 (左図、網掛け)。そのトップヒットを実験的に検証したところ、確かにPPATの抑制効果があることが実証された (右図)。

図3 LIGHTHOUSEによるコロナウイルス治療薬の発見

LIGHTHOUSEを使って、COVID-19を引き起こすSARS-CoV-2ウイルス治療薬候補を探索し、すでに緑内障などの治療薬として承認されているエトキシゾラミドを発見 (左図)。この予測された化合物は、細胞にかけたSARS-CoV-2の増殖を抑えることが実験で示された (右図、緑色がSARS-CoV-2、青色が細胞)。

用語解説

タンパク質のアミノ酸配列

タンパク質は、20種類のアミノ酸の組み合わせでできています。そのアミノ酸を端から順に並べたものを、タンパク質のアミノ酸配列といいます。これに対して、生体内ではタンパク質は複雑に折りたたまれており、その構造のことを立体構造といいます。アミノ酸配列に比べて立体構造は解明することがずっと難しく、多くのタンパク質の立体構造は未知です。

小分子化合物

小さな分子量 (目安として500未満)の化合物を小分子化合物といい、現在流通している薬の多くはこの小分子化合物のカテゴリーに分類されます。

ドッキングシミュレーション

タンパク質の立体構造をもとに、コンピューター上で仮想の化合物がそのタンパクに結合するかをシミュレーションすることです。

MPNN

Message Passing Neural Networksの略で、ここでは化合物の元素をノード (頂点)、化学結合をエッジ (頂点間の線) とみなした図形 (グラフ) とし、そのグラフの情報を処理し統合しています。

CNN, AAC, Transformer

タンパク質を数値ベクトルに変換するための手法で、それぞれ「近隣のアミノ酸」、「物理化学的性質」、「遠くのアミノ酸」の情報をうまく反映させた数値ベクトルが得られます。

PPAT

phosphoribosyl pyrophosphate amidotransferaseという名前の酵素で、細胞増殖時に必要なDNAの材料の合成に関わっています。PPAT高発現 (たくさんある状態) だと、DNAもたくさん作られ、がん細胞の増殖にとって有利になります。

ノックダウン

目的の遺伝子の量を実験的に減らす技術です。ノックダウン法はとても有用な方法ですが、あくまでも研究目的であり、患者さんに使うことはできません。そのため、ノックダウンと同じ効果がある、PPAT阻害剤が熱望されていましたが、立体構造が不明だということもあって、既存の方法ではこれまで開発できていませんでした。

ZINCデータセット

全世界のさまざまな試薬メーカーが取り扱う、購入可能な化合物を集めたデータセットです。

緑内障治療薬や利尿薬

緑内障は眼の中の圧力 (眼圧) が高くなって起こる病気です。利尿薬は腎臓に働いて尿の排出量を増やす薬です。

リード化合物

改良の余地があるもののそれなりに良い活性を持つ化合物のことです。創薬においては最初から素晴らしい化合物を見つけ出すことは稀で、ほとんどのケースではリード化合物をなんとか見つけ出し、それが見つかった後にリード化合物に関連した化合物を調べて、より効能の高い薬にしていくという手順をとります。


参考・引用:https://www.kyushu-u.ac.jp/ja/researches/view/667https://www.biorxiv.org/content/10.1101/2021.09.25.461785v1
※本研究に関する論文は、査読前の論文なので、今後内容が修正される可能性があります。