「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件

２年にわたる新型コロナ研究が、学術論文として受理されました。COGNANOの前田開発部長（筆頭著者）が主導して発表した論文です。

www.nature.com

先日、京大チームからマスコミ報道をお願いし「アルパカ抗体」で拡散していただきました。

www.kyoto-u.ac.jp

Webニュースメディアでも沢山言及頂きました。

どのようにして２０２０年に（パンデミックが始まって半年以内に）万能抗体を作れていたのか、ジャーナリストから質問を受けました。簡単には「アルパカ体内で起きる免疫反応を巨大情報として取り出すことができ、計算処理によって最適化に成功した」という答えになるのですが、口頭でお伝えするのは難しく、理解いただけたか自信がありません。というのは、質問者は医学関係であり、数学やマシンラーニング、IT領域は分野が違いすぎるので......自分自身そうなので他人ごとではありませんが。

今回のブログは、前田論文を解説します。パンデミック以降、世界中で抗体が作成されましたが、変異に対応できたのはCOGNANOだけです。（注：変異型が出てから、新たに作り直した、という対応例はあります）これは、試験管から物質を開発するだけでなく、とうとう生体現象が情報化されて直接プロダクトに結びつく時代に入ってきた、という流れを示しています。生体の現象を直接反映する方法としては、コロナ患者さんからヒト抗体を抽出するという流れが一方にあり、COGNANOの方法と双璧をなしています。新型コロナ創薬の実例を辿りつつ今までのブログも合わせてお楽しみいただけると思います！

薬の作り方
COGNANOの挑戦
方法論まとめ
ふりかえりとあとがき

薬の作り方

まずは、どのように薬（候補物質をシーズと言います：ちなみに改良した物質はリード）が開発されるのかを説明させてください。どんなクスリでも、標的分子に結合することで効果を発揮します。COVID-19の場合は、ウイルスが生存増殖するための酵素活性を低分子化合物で阻害するか、あるいは、ヒト細胞の受容体に結合侵入する現象を、サイズの大きい抗体でブロックするか、の２つの戦略に分かれます。

低分子の場合

多数（億単位）の低分子化合物やその派生物（デリバティブと言います）が合成されて製薬会社の倉庫に、権利とともに山積みにされています。
モデル培養細胞などにシーズ候補を投入して、効果をチェックします。
期待できるシーズが見つかれば、より効果が高そうで、しかも副作用が少なそうなリードに改変します。
実験はロボットで高速化できますが、それでもナン億個の物質をやみくもに探索することは困難であり、情報化が期待されていました。この課題の解決を狙って、低分子を標的分子に対し嵌め込みシミュレーションする「予想企業」がすでに起業していて、先行例は北米ベイエリアのAtomwise社です。

www.atomwise.com

そこに登場したのがDeepMind社のAlphaFold v2.0と言えるでしょう。どんな標的分子も、高次構造を示してくれますので、便利になりました。しかし、AlphaFold v2.0は既知のタンパク質構造を機械学習して予想するので、ランダム変異によって創出される抗体の構造はわかりようがないし、新型コロナのSPIKE変異型も（ランダムかつ既報データが少ないので）ほとんど構造予想できません。

www.deepmind.com

通常抗体の場合

抗体を作ってくれる特殊な細胞（ハイブリドーマ）を、マウス、ラット、ヒトから作成し、標的分子に結合し、かつ機能を発揮するもの（クローンと呼びます）を、培養細胞や試験管内の分子間相互作用チェックで探します。
標的部位（エピトープ）にコンタクトする抗体部位（パラトープ）を改造するのは困難です。
１０年前のSARS-CoV.1患者から抽出された抗体遺伝子を再構築してデザインしたGSK(VIR)のSotrovimabは、オミクロンBA.1まで効いていました。これは、リアルな生体現象をそのまま利用した例として、優秀だったといえます。

アルパカナイーブライブラリからのVHH抗体（ナノボデイ）作成

VHH抗体開発チームのうち世界で半数くらいは、ナイーブライブラリからVHH抗体を作成しています。ナイーブライブラリとは、屠殺したラクダ科動物からワクチンなしに採取した、大量の抗体遺伝子配列情報のプールから、有効な抗体を探索する方法です。
プールには、生物が体験したことがない標的（例えばSPIKEタンパク質）に結合する抗体は、ほとんど存在していません。しかし、わずかに結合活性を示すクローンが１兆〜１００兆分の１くらいの確率で偶然見出されることがあります。
結合確率の低さを補うため、SPIKEタンパク質全体ではなく、ヒト受容体分子ACE2にコンタクトすると言われている小さな部分（RBD: Receptor Binding Domain）だけを使用します。SPIKEタンパク質全体を用いると、ノイズが大きくなりすぎ、実験が難しくなるからです。
性能を高めるために、酵素によって遺伝子変異をランダムに挿入します。抗体の改良です。
動物操作がないので作業が早く、安上がりですが、数クローンの候補を提出するのが限界です。
これ以降は、低分子の培養細胞スクリーニングと同じステップになります。
パンデミックで、世界から１０本以上のナイーブライブラリ論文が出ましたが、武漢型RBDを元に開発に着手した場合、ベータ型くらいまでの対応が限界で、変異型に対する対応能力が低い特性が示されました。また、薬効濃度指標であるIC50も、動物免疫を行う下記プロダクトと比べると１〜２桁劣っています。

アルパカ免疫を用いたVHH抗体作成：従来法

アルパカ免疫の方法で世界１０ラボほどから、優秀なVHH抗体が公表されました。
SPIKEを標的とする抗体（を作るリンパ球）が、体内で幾何級数的に増加します。採取した抗体遺伝子からVHH抗体（ナノボデイ）を作成します。継続的にリンパ球を取ることが重要なので、動物を殺しません。
生物が抗体遺伝子を組み替える原理はわかっていますが、最適化のルール（アルゴリズム）はブラックボックスです。毎日、およそ１兆（１０^１２）個のリンパ球が、SPIKEタンパク質に対する防御を目的として遺伝子を組み替えているわけです。理論上、１頭のアルパカは２ヶ月間で１０^２０回以上の試行をおこなうはずです。
標的に結合する強さを指標にして選択することをバイオパニングと言います。まず結合性を担保するわけです。バクテリオファージに発現させる方法と、酵母に発現させる方法があります。
これに合格した抗体遺伝子を元に、実際の物質を作成し、９６ウェルの培養細胞などを用いてクスリとして効くものを、２次選別（スクリーニング）します。
基本的にはウイルスが変異したらゼロからやり直すことになる点は、ナイーブリブラリ法と共通です。なぜなら、多くのチームは動物に免疫するワクチン、あるいは結合標的として用いるベイトとして、簡便なRBDを選ぶからです。RBDでは変異に対応するには限界がありますが、とはいえ巨大タンパク質であるSPIKEを用いると、ウェット選択の作業量が膨らみすぎ、現実的ではないからです。

COGNANOの挑戦

生体免疫反応の一部しか利用しないVHH従来法を「抗体遺伝子」の情報化によって改善したのが、COGNANOの方法論です。莫大な情報を扱うので、巨大天然物であるSPIKEタンパク質に対する抗体群の全体像を俯瞰できます。

動物免疫を行う点では共通ですが、根本的な違いは２つです。

1. パンデミックでは大規模なウイルス変異が起こることがわかっていたので、あとで効いてくる拡張性を意識して、巨大分子であるSPIKEタンパク質をワクチン物質に選んだこと。また変異が報告されるたびに、変異SPIKEを免疫し続けたこと。
2. 長期にわたり継続的に採取されてくる抗体情報を、どのように分類整理し、どれがクスリとして有用であるかを即座に判断するため、結合力と標的エピトープに関して最適選択するアルゴリズムをITエンジニアが開発したこと。

候補抗体遺伝子のデータ母数は、バイオパニング（結合保証）後だけで３千万リード（次世代シーケンサで解読したカウント）を超えています。
このうち、ITチームが厳選した情報最適化クローンだけを、京大病院と提携してチェックしました。（ウイルス実験は規制エリアでしかできません）
COGNANOが提示した１２個のうち４個が変異型を克服していました。結果として、ウイルスを用いる危険な実験は１２クローン分だけですみました。
ほとんどの抗体はSPIKE変異で効かなくなるのに、COGNANOが創出した抗体は効き続ける理由を追及しました。このため、大阪大学・JEOL・BINDSチームとの共同研究で、クライオ電子顕微鏡を用いた立体構造解析を行いました。SPIKE変異はワクチンを回避する方向に誘導されると考えられ、イタチごっこになっています。COGNANOが創出した抗体P86は、ヒト抗体が届かない狭い隙間に刺さっていることが判明しました。

図の説明

３千万リード（次世代シーケンサで解読したカウント）のデータからITエンジニアによって厳選された抗体P86は、SPIKE３量体の隣り合うRBD同士の間隙に突き刺さるように結合していた。オミクロンのアミノ酸変異を赤で示す。P86は赤いエリアを避けて結合している。この狭い空間にはヒトの通常抗体は侵入できず、ウイルスが進化圧を受けない「保存された構造＝弱点」に結合する抗体であることがわかる。このようにSPIKE複合体高次構造を認識する抗体は、RBDをマテリアルとするチームには開発できない。

方法論まとめ

	従来抗体法ハイブリドーマ	VHHナイーブライブラリ法	COGNANOオリジナル（ヒュージライブラリ法）
動物免疫(ワクチン)	する	しない	する
候補母集団数（機能スクリーニング対象数）	１０^２〜３程度	１〜10	１０^７〜８程度
スクリーニング法	試験管チェック	候補が少数なので候補選別に至らない	マシンラーニング（ML）
抗体の改善方法（最適化）	基本的に不可能	ランダム変異挿入	最適化は生体内で実施済み；必要に応じ改変も
kD（解離定数）	１０^−７〜８M程度	１０^−７〜９M程度	１０^{−１０〜１１}M程度
未知の変異対応	ゼロから開発し直す	ゼロから開発し直す	ライブラリから機械採掘
エピトープ予想	不可能	固定したRBDのどこか	MLにより変異後も予想可能
作成時間	３〜４ヶ月	３〜６ヶ月	ビッグライブラリ作成に５ヶ月、以後の対応は１ヶ月

ふりかえりとあとがき

バイオチームとITエンジニアチームが、共通言語で協力して初めて、このような成果を出すことができました。計算力を持たないチームにとっては、巨大情報は宝の持ち腐れであり、数年前まで自分自身迷走していたことはブログに書いたとおりです。また、AI創薬の記事でよく出てくる「構造シミュレーション」と異なるのは、COGNANOの場合は、「エビデンスとラベル付き」のリアルデータから出発している点です。アルパカのマザーデータは、試験管ではなく、実際に哺乳類のカラダで起きていたことです。これほど確かなものはありません。

AlphaFoldなどの機械予想では、SPIKE３量体変異のようなランダムで複雑な対象は、リアルタイムには追跡困難です。生体の免疫監視機構は、はるかに精密であると言えます。かけがえのない生体情報をそっくり取り出して、ML、ひいては、IT技術によって活用する...これがCOGNANOが提案する、かつてない方法論です。じつは、ワクチンを打ったボクたちにも同様な免疫反応が起きているのですが、ヒトの抗体遺伝子は複雑すぎて容易に観測することができません。アルパカ遺伝子を解読するまでは、自然の知恵の一部しか、取り出せていなかったのです。

長い説明をお読みくださり、ありがとうございます。

さて、ここまで読んでくださった方には、最適化アルゴリズムってどんなの？をお示ししないと消化不良になるかもしれませんので、MLチームが論文準備に入っています。こちらもどうかお楽しみに！