CogNano Tech Blog

バイオ情報をヘルスコントロールへと繋ぐ

バイオマンのパンデミック戦記

はじめに

COGNANO代表の伊村です。まずは、今回のブログ本編を執筆した前田部長の紹介をさせてください。

ダイアモンドプリンセス事件を知った時、COGNANOは新型コロナ創薬に舵を切りました。以来、クスリ開発だけではなく、「ウイルス変異」を追跡するトラッキング創薬原理の開発や抗体情報巨大ライブラリの構築に向け、すでに2年以上プロジェクトを続けています。寝食を忘れ戦い続けたのが、研究開発部の前田部長です。遺伝子工学、タンパク質・抗体工学、構造学を武器に、新しい手法で切り込むバイオイノベーターです。

2020年9月には「1年後に出現することになるオミクロンにも有効な抗体」をすでに発掘していましたが、バイオジャーナルの査読に時間を費やし、論文が受理されたのは1年半後になりました。このブログではジャーナルのピアレビューシステムの是非には触れません。とはいえ今回の「アルパカ抗体」論文公開は良い機会ですので、2年間の振り返りをブログに記述します。前田部長は、論文の筆頭著者でもあります。

www.nature.com

お疲れ様!と言いたいところですが、コロナは全く終わっていません。当然、バイオサイエンスと社会運用は同じではなく、一元的な解決は望めません。世間では「うんざりだ」という感覚と、先行き見えない不安で、どう向き合ったらよいか、肚を決められなくなっている印象があります。

その意味では、バイオ&ITテックとしてのCOGNANOがやるべきことはスタートからはっきりしています。ウイルス変異は人間の予想を超える以上、人類がデータと計算力でどこまで食い下がれるのか、そして、万一毒性が強くなっても対策が打てるのか、を突き詰めることです。今やCOGNANOでは、2年以上蓄積し続けた膨大な抗体データと計算力がお互いに強化し合う段階に入っており、ウイルスゲノム変異をトラッキングすること自体に数学的な価値があると考えています。これは、世界でCOGNANOだけが進めているプロジェクトです。

変異に対応する多様な抗体データは、変異型を認識する個体(ヒトであれ動物であれ)からしか取得できないのですが、ヒト抗体遺伝子の解読には次世代シーケンサ(NGS)が使えないので、ラクダ科動物経由でしか、大量の抗体情報をトラッキングできないからです。人類とウイルスの生存競争(生存協調?)の中でリアルに選択される相互変化(ウイルス変異と抗体多様性のデータペア)は、100年に一度しか得られない「自然が与えてくれた稀有なチャンス」です。宇宙研究者が、まれにしか観察できない超新星爆発のデータを取らない、という判断があり得るでしょうか?

前田が記述していますが、20年前のSARS-CoV1のデータを(部分的であれ)生かした米国のチームが抗体創薬における勝者だった事実が、厳格なルールを証明しています。目を逸らす人々に勝機は訪れないと、今回のブログは語っています。現在、オミクロンBA.5, BA.2.75(ケンタウロス)など変異が進行しており、その全てをトラッキングしながら通用する抗体をぼくらは探し続けています。今回の前田ブログは、バイオ開発者が振り返る貴重な記録になると思います。

それでは、前田部長の本編へどうぞ。

本編

正しい研究者の共通点

「正しい」バイオマン、特に生化学者には、共通の特徴があります。まず興味のあるタンパク質を精製することができます。精製したタンパク質には、予想通りの生理活性が認められます。ときには、タンパク質の結晶すら作れます。残念ながら、このタイプの「地道な」生化学者は、今や絶滅の危機に瀕しているかもしれません。正統なプロは他人が作ったタンパク質をつかいません。もとより、市販されているタンパク質など信じていません。生化学のエキスパートは、生体から精製されたものを至高のものとし、培養細胞から精製されたものを次善のものとします。ほかの生物種由来のタンパク質は、ヒト創薬を前提とする場合、適切ではないリスクや誤謬が増大します。現代でも職人技が要求される、神経を使う領域です。

プロであれば、未知のタンパク質―新型コロナスパイク―こそ、ベストの方法で挑みます。パンデミックがはじまり、世界中の生化学者たちが、スパイクタンパク質を精製する、という課題に取り組みました。これが「正しい」生化学の姿勢です。目的は、スパイクタンパク質を理解し、ウイルスを無力化することでした。

蓋を開けてみると、新型コロナウイルスの研究をリードしたのは2002年からSARSを扱っていたエキスパートでした。彼らは10年以上にわたる「旧型」スパイクタンパク質への経験がありました。そして、新型コロナスパイクタンパク質の精製と構造決定にいち早く成功しました。 当時アメリカでは感染者は出なかったにも関わらず、防疫部は「War」と表現しています。実は日本の感染防御部門も着目しており、当時の記載が残っています。バイオ脅威に対するセンスの違いは潜在しているかもしれません。

www.jci.org

www.niid.go.jp

新型コロナに感染し回復した患者さんには、免疫応答によって、ウイルスを無力化する抗体ができています。精製した新型コロナスパイクタンパク質を使って、その抗体を集めることができます。その抗体を作る細胞(リンパ球)の遺伝子を解読することで、新型コロナスパイクタンパク質を無力化する抗体をリストすることができました。

英米では複数の拠点がシームレスに整備されていた

もっとも初期に成功したのは、米国英国の研究グループでした。なぜ彼らだけができたのかには、明確な理由があります。彼らは、エイズウイルスやエボラウイルスなどを無力化する抗体を見つける方法を、パンデミック以前から作り上げていたからです。患者サンプルをシェアできる態勢、リンパ球を分別(ソート)して遺伝子を解読する技術、抗体を大量に精製できるパイプライン、承認の透明性と使用に責任を持つ制度。これらのシームレスなインフラを整備していたのです。

後を追うように、同様の研究が世界数百のアカデミア、ベンチャーによって進められました。トップチームに追いつくことができた研究チームも欧米英にはありましたが、追い抜くことはできませんでした。そして、2021年11月26日の新型変異株(オミクロン)の出現後も「生き残った」のは、パンデミック以前から研究を続けていたグループだけでした。事実として、オミクロン変異型ウイルスも無力化できる抗体(市販されている製品)は、SARS-CoV1(旧型コロナ)に感染して回復した患者保存サンプルから発掘したものです(GSK社製ソトロヴィマブ)。やはり、20年にわたる経験の差を埋めることは、相当に難しかったのです。結果として、欧米英以外の地域では、ほぼワクチンや創薬の能力がないことが明瞭になりました。

jp.gsk.com

成功を約束する経験とは

ここでいう「経験の差」とは、一体どのようなものでしょうか。いくつかの要素に分けて、捉えることができます。

  1. 新型コロナスパイクタンパク質の品質(生化学)
  2. 抗体免疫の遺伝子資産(抗体の遺伝子ライブラリ)
  3. 抗体のアミノ酸配列データの解析量(プログラミング)
  4. 実証実験の組み方(ウェットバイオ・ウイルスの扱い)

1. 新型コロナスパイクタンパク質は、少なくとも哺乳類細胞に発現させた特級品である必要があります。うまくいかなかった研究グループは主に以下のものを使っていました。

新型コロナスパイクタンパク質の一部に過ぎない、受容体結合ドメイン(RBD)。昆虫細胞で発現させたスパイクタンパク質。市販品。これらは創薬の成功率を低下させる原因となります。

2. 抗体を作る生物としては、回復した感染患者(ヒト)が至高です。次善は、ワクチンを打ったヒトや、感染または免疫した動物です。成功しなかった研究グループは、十分に免疫されなかった動物を用いたり、さらには免疫すらしていない動物のリンパ球遺伝子(ナイーブライブラリ)から抗体を見つけようとしました。

3. 抗体の優秀性は、どのくらい発掘(遺伝子ライブラリからのマイニング)に労力を注いだかに相関します。

患者さんから探しだせる抗体遺伝子の数は、世界最高の研究チームにおいても数十個が上限でした。研究用マウスからは百個のオーダーが上限です。一方で、免疫する動物にリャマ、アルパカ、ラクダを用いた研究グループは世界に10チーム程度あり、数万から数千万種類の抗体を探索することができたはずです。COGNANOではスパイクタンパク質を認識する抗体を3千万種類次世代シーケンサで分析して蓄積しています。ただし、この種の研究は始まったばかりで、世界でもようやく数チームが気づいたばかりです。私たちは莫大な抗体データを取ることができるようになった初めての世代ですが、データの次には「計算処理する」ためのITテクノロジーが要求されます。この先頭にCOGNANOは位置しています。

4. 最後に、発掘した抗体がウイルスを無力化するかどうか、実験的に検証してみなければなりません。

患者さんに投与して効果を見ることが至高の方法です。とは言え、人体で実験するわけにはいかないので、感染動物に投与する方法が次善の方法です。ミミック手段として、ウイルスに感染する培養細胞を用いる方法は、再現性良く定量的な方法です。しかしあくまで試験管内の現象にすぎない点に留意すべきです。

さらに大切なことですが、抗体がスパイクタンパク質のどの部分に結合するか(エピトープ)を知ることも、とても重要です。なぜなら、抗体がどの変異株に有効で、新型変異株に無効になるか、ロジカルにわかるからです。抗体がスパイクタンパク質に結合している様子を撮影する技術(クライオ電子顕微鏡)が、国内では今回大阪大学で稼働し始めたのですが、欧米では数年前からアカデミアと製薬が協力して標準的な作業になっていました。

成功したグループはどこも、当然のようにウイルス感染実験を行っており、かつ世界標準レベルでエピトープ決定を行ないました。これらの項目をシームレスに満たせる......ということが、勝者共通の能力であり、先進国で用意されたファシリティでした。

これら4つの要素を満たした研究グループのみが、登頂へ進むことができたのです。そして、オミクロン株の出現によって、敗れ去った研究グループには、それぞれに理由がありました。各グループが発表した論文をひもとくと、なぜ最善を尽くせなかったのか、行間にその理由が書かれています。ウイルスタンパク質製造に関して最善を尽くせず敗退した研究グループは8割以上にのぼります。加えて(ヒト・動物に)免疫しない方法から出発したグループで成功した例はありませんでした。

天国へ行ける者は、地獄への道を知り尽くしている者である

新型コロナウイルスの研究に限らず、「成功するチーム」はどれもみな似通っているものです。

古人曰く、

「天国へ行ける者は、地獄への道を知り尽くしている者である」

勝者は、10年前から、どうしたら失敗するのかを身を以て体験し、コストを払い、諦めなかったチームに限られました。結果として、勝者は英米(の会社とアカデミア)にほぼ限定されていました。以上が、パンデミックという名の戦争ではっきりした事実です。この課題を、私たちはどう受け止めるのか、真剣に考える時がきていると思っています。(前田良太・COGNANO開発部長)

アルパカ抗体×機械学習の取り組みと今後の可能性

 COGNANOで機械学習に関する研究や開発を担当しているつるべーです。先日COGNANOでは、新型コロナウイルスに有効なアルパカ抗体に関する論文プレスリリースを公開しました。テレビや新聞などでも広く取り上げていただいたので、「アルパカ抗体」という言葉を目にした方もいらっしゃるのではないでしょうか。この成果は、ワクチン接種したアルパカから生み出される膨大な抗体遺伝子のデータが鍵を握っています。このデータには非常に複雑かつ未解明な生命現象が潜んでおり、深層学習などの機械学習技術が絶大な力を発揮することが期待できます。今回は、現在COGNANOで進行中の機械学習に関する取り組みについて紹介していきます。

背景: 免疫反応と抗体医薬

 COGNANOの取り組みをご紹介する前に、そもそも抗体って何?と言う方もいらっしゃると思うので、簡単に背景を説明します。

 人間は、外部から体内に侵入してきたウイルスや細菌などの抗原から体を守るために免疫という防御システムを備えています。この防御システムでは、体内に侵入した抗原に対抗するために大量の抗体を作り出し、抗原に結合して排除しようとします。この抗原を排除しようとする働きを免疫反応といいます。一つの抗体は特定の抗原にしか反応しない特異性を持つため、侵入してきた抗原に対応した抗体が作られます。

 この抗体を利用して、病気の予防や治療をおこなう薬が抗体医薬です。抗体の特異性を利用することで、特定の抗原をピンポイントで攻撃できるため、治療効果が高く副作用の少ない薬として注目されています。抗体とは、抗原に結合するという機能に着目した名称であり、その実体は多数のアミノ酸が鎖状に連なったタンパク質です。抗体医薬の開発において、ターゲットとなる抗原に対して特異的に結合するタンパク質(抗体)を探索することが重要な課題となります。

アルパカが生成するデータ

 COGNANOが保有するデータはアルパカが生成しています。そう聞くと、なぜアルパカなのか?が気になった方も多いのではないでしょうか。その理由は、アルパカが持つVHH抗体は、人間などが持つ一般的な抗体と比べて構造がシンプルであり、次世代シーケンサーという実験装置を使ってデータ化できるからです。ここで言うデータとはアミノ酸配列のことで、20種類のアミノ酸が並んだものです。1つのアミノ酸は1文字のアルファベットで表記できるため、アミノ酸配列は文字列として表現できます。

 それではどうやって特定の抗原に対して特異的に結合する抗体を探索するのでしょうか。答えは「アルパカ体内で起きる免疫反応を利用する」です。アルパカに対して抗原を注入すると、体内で免疫システムが稼働し、抗原に対抗するための抗体を大量に作り出します。この抗体を取り出してデータ化していくわけです。さらに、COGNANO独自の手法により、取り出した抗体の中から実際に抗原に結合する抗体と結合しない抗体をラベル付けします。これがいわゆる機械学習の正解ラベルになります。実際のデータ化の過程やラベル付けはもっと複雑ですが、これらの詳細は今後論文として公開する予定です。

 データの内容をおさらいすると、ターゲットとなる抗原のアミノ酸配列(文字列)、薬の候補となる抗体のアミノ酸配列(文字列)、および抗原と抗体のペアに対して結合する/しないのラベル(二値)があります。そのため、抗原・抗体のアミノ酸配列を説明変数、ラベルを目的変数として、結合の有無を予測する二値分類の機械学習モデルを構築できます。さらに、機械学習を専門とする者からの観点として、このデータが機械学習、特に深層学習の強力な学習能力を発揮する対象として、望ましいいくつかの特徴があります。

1. 膨大なデータ
 あるデータに深層学習を適用する上での基本的な問題として、データ数が十分でないということがよくあります。この場合、どれだけデータの質が高くても、そこから有益な情報を取り出すことは難しくなります。 アルパカという生きた計算機は非常に優秀ですので、一つの抗原に対して膨大な数の抗体を作り出し、我々はそれをデータ化します。具体的には、データの処理の条件にもよるのですが、一つの抗原に対して、数十万〜数百万オーダーで抗体遺伝子の情報が得られます。さらに、複数の抗原に対してデータ化することで、膨大なデータを生み出すことができます。

2. 密なデータ分布
 アルパカから得られた抗体はアミノ酸配列の類似性(相同性)が高いものを多く含みます。つまり、配列の大部分は一致していてほんの一部のアミノ酸だけが異なるといった抗体が得られます。これは抗原と抗体の結合を捉えるためには非常に有用な情報となります。機械学習の観点から見ても、一般にデータ密度が高い領域はモデルの予測の性能や信頼性が高くなります。

3. 免疫反応の法則性が潜んだデータ
 我々のデータはアルパカの体内でリアルに起きている免疫反応の結果を反映しているため、データの中に何かしらの法則性が内在していると考えられます。もし法則性がなく抗体がランダムに作られるとしたら、2で述べたような類似性の高いアミノ酸配列は得られないでしょう。抗体のアミノ酸配列の長さをNとすると、取りうるアミノ酸配列の数は20のN乗個になります。しかし、生体内で起きている免疫反応という世界は実はもっと狭く、同一の抗原に対する免疫反応は有限通りである可能性があります。これであれば、なんとか深層学習で捉えられるかもしれません。このようにデータの裏側に捉えるべき真の現象が潜んでいるというのは、深層学習の適用先として非常に魅力的です。

深層学習により広がる可能性

 タンパク質を構成するアミノ酸配列のデータに対して深層学習を適用する研究が盛んに行われています。興味深いことに、アミノ酸配列は文字列として表現できるため、最近の研究では自然言語処理の分野における技術の発展が急速に取り込まれる傾向にあります。具体的には以下のような研究があります。どちらも2018年にGoogleが提案した言語モデルであるBERTをタンパク質のアミノ酸配列に適用した研究です。

arxiv.org

www.biorxiv.org

 我々も独自のアルパカ抗体のデータに対して、TransformerやBERTなどの自然言語処理分野で発展した深層学習の技術を適用して研究を進めています。

 我々が深層学習を用いて解きたい直近の課題は主に二つあります。一つは特定の抗原と抗体が結合(相互作用)するかを予測することです。このような深層学習モデルが構築できると、ターゲットの抗原のアミノ酸配列が既知であれば、COGNANOが保有している膨大なアルパカ抗体の配列との結合を予測することで、抗原に結合する抗体のアミノ酸配列をスクリーニングできます。結合するからといって必ず薬として有効であるというわけではありませんが、薬となる候補を計算機のみで絞り込めることは、創薬プロセスの大幅な効率化に繋がります。

 もう一つの課題は、抗体が抗原のどこの部位に結合するかを予測することです。抗体が特異的に結合する抗原の部位のことをエピトープと呼びます。一般にエピトープは数個程度のアミノ酸からなる小さい領域であるため、エピトープの予測は抗原に特異的に結合する抗体を設計する上で非常に有益な情報となります。この課題は、近年機械学習の分野で盛んに研究が進められている機械学習の解釈性の観点からアプローチできます。特に、LIMEやSHAPを始めとしたモデルの予測に対する入力特徴量の貢献度を提示する手法は、エピトープの予測にそのまま活用できます。このような機械学習の解釈性についての最新の研究をエピトープの予測に取り込むことは非常にチャレンジングかつ実用的な研究です。

COGNANOだからこそできること

 ここまでで述べたアルパカの抗体遺伝子のデータを用いて深層学習のモデルを構築する取り組みは、前例がなくCOGNANOだからこそできることです。その理由は単純でデータが唯一無二だからです。COGNANOではアルパカ抗体に着目して以来、その可能性を信じて疑わず、長い年月をかけて試行錯誤を繰り返しデータを蓄積し続けてきました。そもそも高度なバイオの実験スキルがなければデータ化すること自体が困難です。一方、先にも挙げた既存研究の多くは、強い仮定により正解ラベルをつけたデータやシミュレーションにより仮想的に生成した少量のデータを用いています。そのため、データの量の観点でも質の観点でも大きな優位性があります。どれだけ高度な深層学習のモデルがあっても、優れたデータがなければ、価値のある実用的なモデルを作ることはできません。

 生体内の免疫反応の法則性が潜んだ我々のデータから有益な情報を取り出すためには深層学習や統計解析などの数理的なアプローチが必要不可欠です。データを単に人間が目視で眺めても何もわかりません。COGNANOでは、バイオの専門家のたゆまぬ努力により生まれたデータに数理的なアプローチを適用したことで、データの価値を引き出すことに成功し始めています。その成果の一つが新型コロナウイルスに関する論文であり、このような取り組みはこれからさらに加速していきます。ぜひこれからのCOGNANOにご期待ください。

まとめ

 今回はCOGNANOの機械学習関連の取り組みを紹介しました。我々は、アルパカにターゲットとなる抗原を注入した際に体内で起きる免疫反応を利用して抗体遺伝子の情報をデータ化します。さらにこのデータに深層学習を適用して、特定の抗原に結合する抗体の予測や、抗体が特異的に結合する抗原の部位の予測に取り組んでいます。より具体的な研究内容は今後論文として公開していく予定です。

最後までお読みくださり、ありがとうございます。COGNANOに関するお話が何かありましたら、社長の伊村さんやCTOのまつもとりーさんつるべーまでご連絡頂ければと思います。

IT系投資家にCOGNANOの考えをはじめて言葉にできた日

サポートいただいている地元行政の勧めで、エンジェル投資家向けのピッチしてきました。その様子をYoutubeで公開していただけることになりました。人生3回目のピッチです。

本エントリの下部に、発表に利用したスライドと登壇動画を公開します。スライドや動画に興味ある方はすぐに下部に行っていただければ閲覧可能なのですが、そこに至るまでの苦悩や自分の中で考えて考えて行き着いた方針について書いてみました。できればお付き合いくださると幸いです。


長年、学会発表はしていましたが、パンデミックの中でスタートアップの代表になって2年、「ピッチってなんだ?」まだよく分かりません。人気起業家の登壇やSteve Jobsがアイフォンを発表している映像も見てみました。あまりしっくりきません。

なぜ、聴衆は熱狂しているのだろう?ピッチを面白いトークショーと感じる人たちがいるらしい。逆に言えば、「Steve Jobsなら、絶対すごいことを言うはずだ」と思えるツボが確かにあり、そこに投げ込めばピッチは成功する。ただ、ぼくが訴えるべき相手は、COGNANOのファンじゃないし、アイフォンを買ったりアップルに投資したいと待ち構えている人々ではない。わざわざ暑い日に京都で話を聞いてもいいかな、と出向いてくれた見知らぬ人々にとって、つまらない話に聞こえたら失望されるに違いない。お互い、あまりに業界も興味も違うはず....

一般に、バイオってよくわからない、わからない話は面白いはずがない。どうして遺伝子や細胞を操作すると病気が治るロジックになるのか、理屈を追えばざっくり1時間はかかるだろう...いやいや、バイオむずいわ、どころの話じゃなく、自分の身に置き換えても、アイフォンの何が凄いのか、ぜんぜんわからなかった。ガラス画面で操作しやすい携帯電話だと、最近まで思っていた。バイオの何がどう凄いのか、説得はもっと難しい。それを10分で語れたら、Steve Jobs超えじゃないか...心は折れそうでしたが、すでにスタートアップの経営者であるぼくは、前に進むしかありません。

半年前、ピッチに初めて登壇して以来、会場を見渡して疑問に思ったり、気づいたことがありました。箇条書きします。

  1. 投資家の目線はどうやら明確に、IT系とバイオ系に分かれているらしい。金額も人数も圧倒的にIT系に投資意欲が集中しており、バイオ系は少数派であるらしい。
  2. IT系登壇者は若い起業家であるのに、バイオ系の登壇者は、ほとんど大成した方や教授風である(その証拠にスーツを着ている)。
  3. バイオ系のスタートアップは構造的に「すでに売上や利益が出ている」ケースはないので、「どれだけ専門家に認められているか」と言う説明が中心になる。

そのため、いきおい、すでに受けた投資、受賞、論文、特許の羅列になっている。

バイオマン出身とはいえ、ぼくらはスタートアップなんだから、ピッチ構成自体も、他人の真似ではなく、イノベートした方が良いのではないか(IT系の人はハックと言うのでしょうか?)...そこで、プロダクトやテクノロジーの説明ではなく、「どうして人々はバイオに投資しようと思わないのか?」を、水面下のテーマにしようと決心しました。人類にとって、医学創薬はむちゃくちゃ重要なのに、なんでつまらなく感じてしまうのか、すぐに儲からないと言う理由だけなのか、もしかすると、ぼく自身の振り返りになりそうな気がしたからです。

とは言うものの、いきなり意識が明確になったわけじゃなく、2年前からITエンジニアの人々(まつもとりーさんやゆいさん)と長時間会話してもらったことが大きく影響しています。バイオの基礎知識がほぼ共有できない状態で、でも分ろうとしてくれる人々に、どう言えば届くのだろう?「わからない」ことを諦めではなく、新しい可能性として昇華できる可能性はないのだろうか?その背景には、直感的に「この人たちの言うことは聞かなきゃいけない」と言う、リアリティーというか迫力のようなものを感じている自分がいて、それを頼りに会話を続けてきました。確かに、それは今や、体のどこかに蓄積しています。教えられたのは、一言でいうと「どんな世界を良いと思うのか?から逃げるな」ということだったかと思います。いずれにしろ、これはなかなか厳しいリクエストです。

加えて、地元行政からご紹介いただいたビジネス系メンターから、とても親切に指導いただいたことも幸運でした。投資家が何を求めているのかを考えろ、でも、今言えないことは仕方ない、ただし、その欠落意識を保ち失神するな、という教訓と理解しています。こちらも「逃げるな」です。

ピッチは、分かりやすく楽しいものじゃなきゃ、誰も聞いてくれない。そして登壇する限り、リアルから逃げない覚悟がいる。そう言う気分で、このたび、10分少々の登壇に臨みました。後で録画を見せてもらったら、滑舌が悪くカッコよくないのですが、内容的にはなんとか言いたかったことが言えたと思います。

楽しんでくださったら幸いです。

スライド

speakerdeck.com

動画

www.youtube.com

「アルパカ抗体」に関する論文解説とCOGNANOはもうITテックになっています、の件

2年にわたる新型コロナ研究が、学術論文として受理されました。COGNANOの前田開発部長(筆頭著者)が主導して発表した論文です。

www.nature.com

先日、京大チームからマスコミ報道をお願いし「アルパカ抗体」で拡散していただきました。

prtimes.jp

www.kyoto-u.ac.jp

Webニュースメディアでも沢山言及頂きました。

どのようにして2020年に(パンデミックが始まって半年以内に)万能抗体を作れていたのか、ジャーナリストから質問を受けました。簡単には「アルパカ体内で起きる免疫反応を巨大情報として取り出すことができ、計算処理によって最適化に成功した」という答えになるのですが、口頭でお伝えするのは難しく、理解いただけたか自信がありません。というのは、質問者は医学関係であり、数学やマシンラーニング、IT領域は分野が違いすぎるので......自分自身そうなので他人ごとではありませんが。

今回のブログは、前田論文を解説します。パンデミック以降、世界中で抗体が作成されましたが、変異に対応できたのはCOGNANOだけです。(注:変異型が出てから、新たに作り直した、という対応例はあります)これは、試験管から物質を開発するだけでなく、とうとう生体現象が情報化されて直接プロダクトに結びつく時代に入ってきた、という流れを示しています。生体の現象を直接反映する方法としては、コロナ患者さんからヒト抗体を抽出するという流れが一方にあり、COGNANOの方法と双璧をなしています。新型コロナ創薬の実例を辿りつつ今までのブログも合わせてお楽しみいただけると思います!

薬の作り方

まずは、どのように薬(候補物質をシーズと言います:ちなみに改良した物質はリード)が開発されるのかを説明させてください。どんなクスリでも、標的分子に結合することで効果を発揮します。COVID-19の場合は、ウイルスが生存増殖するための酵素活性を低分子化合物で阻害するか、あるいは、ヒト細胞の受容体に結合侵入する現象を、サイズの大きい抗体でブロックするか、の2つの戦略に分かれます。

低分子の場合

  • 多数(億単位)の低分子化合物やその派生物(デリバティブと言います)が合成されて製薬会社の倉庫に、権利とともに山積みにされています。
  • モデル培養細胞などにシーズ候補を投入して、効果をチェックします。
  • 期待できるシーズが見つかれば、より効果が高そうで、しかも副作用が少なそうなリードに改変します。
  • 実験はロボットで高速化できますが、それでもナン億個の物質をやみくもに探索することは困難であり、情報化が期待されていました。この課題の解決を狙って、低分子を標的分子に対し嵌め込みシミュレーションする「予想企業」がすでに起業していて、先行例は北米ベイエリアのAtomwise社です。

www.atomwise.com

  • そこに登場したのがDeepMind社のAlphaFold v2.0と言えるでしょう。どんな標的分子も、高次構造を示してくれますので、便利になりました。しかし、AlphaFold v2.0は既知のタンパク質構造を機械学習して予想するので、ランダム変異によって創出される抗体の構造はわかりようがないし、新型コロナのSPIKE変異型も(ランダムかつ既報データが少ないので)ほとんど構造予想できません。

www.deepmind.com

通常抗体の場合

  • 抗体を作ってくれる特殊な細胞(ハイブリドーマ)を、マウス、ラット、ヒトから作成し、標的分子に結合し、かつ機能を発揮するもの(クローンと呼びます)を、培養細胞や試験管内の分子間相互作用チェックで探します。
  • 標的部位(エピトープ)にコンタクトする抗体部位(パラトープ)を改造するのは困難です。
  • 10年前のSARS-CoV.1患者から抽出された抗体遺伝子を再構築してデザインしたGSK(VIR)のSotrovimabは、オミクロンBA.1まで効いていました。これは、リアルな生体現象をそのまま利用した例として、優秀だったといえます。

アルパカナイーブライブラリからのVHH抗体(ナノボデイ)作成

  • VHH抗体開発チームのうち世界で半数くらいは、ナイーブライブラリからVHH抗体を作成しています。ナイーブライブラリとは、屠殺したラクダ科動物からワクチンなしに採取した、大量の抗体遺伝子配列情報のプールから、有効な抗体を探索する方法です。
  • プールには、生物が体験したことがない標的(例えばSPIKEタンパク質)に結合する抗体は、ほとんど存在していません。しかし、わずかに結合活性を示すクローンが1兆〜100兆分の1くらいの確率で偶然見出されることがあります。
  • 結合確率の低さを補うため、SPIKEタンパク質全体ではなく、ヒト受容体分子ACE2にコンタクトすると言われている小さな部分(RBD: Receptor Binding Domain)だけを使用します。SPIKEタンパク質全体を用いると、ノイズが大きくなりすぎ、実験が難しくなるからです。
  • 性能を高めるために、酵素によって遺伝子変異をランダムに挿入します。抗体の改良です。
  • 動物操作がないので作業が早く、安上がりですが、数クローンの候補を提出するのが限界です。
  • これ以降は、低分子の培養細胞スクリーニングと同じステップになります。
  • パンデミックで、世界から10本以上のナイーブライブラリ論文が出ましたが、武漢型RBDを元に開発に着手した場合、ベータ型くらいまでの対応が限界で、変異型に対する対応能力が低い特性が示されました。また、薬効濃度指標であるIC50も、動物免疫を行う下記プロダクトと比べると1〜2桁劣っています。

アルパカ免疫を用いたVHH抗体作成:従来法

  • アルパカ免疫の方法で世界10ラボほどから、優秀なVHH抗体が公表されました。
  • SPIKEを標的とする抗体(を作るリンパ球)が、体内で幾何級数的に増加します。採取した抗体遺伝子からVHH抗体(ナノボデイ)を作成します。継続的にリンパ球を取ることが重要なので、動物を殺しません。
  • 生物が抗体遺伝子を組み替える原理はわかっていますが、最適化のルール(アルゴリズム)はブラックボックスです。毎日、およそ1兆(1012)個のリンパ球が、SPIKEタンパク質に対する防御を目的として遺伝子を組み替えているわけです。理論上、1頭のアルパカは2ヶ月間で1020回以上の試行をおこなうはずです。
  • 標的に結合する強さを指標にして選択することをバイオパニングと言います。まず結合性を担保するわけです。バクテリオファージに発現させる方法と、酵母に発現させる方法があります。
  • これに合格した抗体遺伝子を元に、実際の物質を作成し、96ウェルの培養細胞などを用いてクスリとして効くものを、2次選別(スクリーニング)します。
  • 基本的にはウイルスが変異したらゼロからやり直すことになる点は、ナイーブリブラリ法と共通です。なぜなら、多くのチームは動物に免疫するワクチン、あるいは結合標的として用いるベイトとして、簡便なRBDを選ぶからです。RBDでは変異に対応するには限界がありますが、とはいえ巨大タンパク質であるSPIKEを用いると、ウェット選択の作業量が膨らみすぎ、現実的ではないからです。

COGNANOの挑戦

生体免疫反応の一部しか利用しないVHH従来法を「抗体遺伝子」の情報化によって改善したのが、COGNANOの方法論です。莫大な情報を扱うので、巨大天然物であるSPIKEタンパク質に対する抗体群の全体像を俯瞰できます。

  • 動物免疫を行う点では共通ですが、根本的な違いは2つです。
    1. パンデミックでは大規模なウイルス変異が起こることがわかっていたので、あとで効いてくる拡張性を意識して、巨大分子であるSPIKEタンパク質をワクチン物質に選んだこと。また変異が報告されるたびに、変異SPIKEを免疫し続けたこと。
    2. 長期にわたり継続的に採取されてくる抗体情報を、どのように分類整理し、どれがクスリとして有用であるかを即座に判断するため、結合力と標的エピトープに関して最適選択するアルゴリズムをITエンジニアが開発したこと。
  • 候補抗体遺伝子のデータ母数は、バイオパニング(結合保証)後だけで3千万リード(次世代シーケンサで解読したカウント)を超えています。
  • このうち、ITチームが厳選した情報最適化クローンだけを、京大病院と提携してチェックしました。(ウイルス実験は規制エリアでしかできません)
  • COGNANOが提示した12個のうち4個が変異型を克服していました。結果として、ウイルスを用いる危険な実験は12クローン分だけですみました。
  • ほとんどの抗体はSPIKE変異で効かなくなるのに、COGNANOが創出した抗体は効き続ける理由を追及しました。このため、大阪大学・JEOL・BINDSチームとの共同研究で、クライオ電子顕微鏡を用いた立体構造解析を行いました。SPIKE変異はワクチンを回避する方向に誘導されると考えられ、イタチごっこになっています。COGNANOが創出した抗体P86は、ヒト抗体が届かない狭い隙間に刺さっていることが判明しました。

(Maeda et al., Commun Biol 5:669,2022)

図の説明

3千万リード(次世代シーケンサで解読したカウント)のデータからITエンジニアによって厳選された抗体P86は、SPIKE3量体の隣り合うRBD同士の間隙に突き刺さるように結合していた。オミクロンのアミノ酸変異を赤で示す。P86は赤いエリアを避けて結合している。この狭い空間にはヒトの通常抗体は侵入できず、ウイルスが進化圧を受けない「保存された構造=弱点」に結合する抗体であることがわかる。このようにSPIKE複合体高次構造を認識する抗体は、RBDをマテリアルとするチームには開発できない。

方法論まとめ

 

従来抗体法

ハイブリドーマ

VHHナイーブライブラリ法

COGNANOオリジナル

(ヒュージライブラリ法)

動物免疫(ワクチン)

する

しない

する

候補母集団数(機能スクリーニング対象数)

102〜3程度

1〜10

107〜8程度

スクリーニング法

試験管チェック

候補が少数なので候補選別に至らない

マシンラーニング(ML

抗体の改善方法(最適化)

基本的に不可能

ランダム変異挿入

最適化は生体内で実施済み;必要に応じ改変も

kD(解離定数)

10−7〜8M程度

10−7〜9M程度

10−10〜11M程度

未知の変異対応

ゼロから開発し直す

ゼロから開発し直す

ライブラリから機械採掘

エピトープ予想

不可能

固定したRBDのどこか

MLにより変異後も予想可能

作成時間

3〜4ヶ月

3〜6ヶ月

ビッグライブラリ作成に5ヶ月、以後の対応は1ヶ月

ふりかえりとあとがき

バイオチームとITエンジニアチームが、共通言語で協力して初めて、このような成果を出すことができました。計算力を持たないチームにとっては、巨大情報は宝の持ち腐れであり、数年前まで自分自身迷走していたことはブログに書いたとおりです。また、AI創薬の記事でよく出てくる「構造シミュレーション」と異なるのは、COGNANOの場合は、「エビデンスとラベル付き」のリアルデータから出発している点です。アルパカのマザーデータは、試験管ではなく、実際に哺乳類のカラダで起きていたことです。これほど確かなものはありません。

AlphaFoldなどの機械予想では、SPIKE3量体変異のようなランダムで複雑な対象は、リアルタイムには追跡困難です。生体の免疫監視機構は、はるかに精密であると言えます。かけがえのない生体情報をそっくり取り出して、ML、ひいては、IT技術によって活用する...これがCOGNANOが提案する、かつてない方法論です。じつは、ワクチンを打ったボクたちにも同様な免疫反応が起きているのですが、ヒトの抗体遺伝子は複雑すぎて容易に観測することができません。アルパカ遺伝子を解読するまでは、自然の知恵の一部しか、取り出せていなかったのです。

 

長い説明をお読みくださり、ありがとうございます。

さて、ここまで読んでくださった方には、最適化アルゴリズムってどんなの?をお示ししないと消化不良になるかもしれませんので、MLチームが論文準備に入っています。こちらもどうかお楽しみに!

バイオテックCOGNANOの新CTOがITエンジニアである理由

今回は、まつもとりーさんを取締役CTOとして迎える理由、そして、ぼくたちが何を目指すのか、という考察をしてみます。

地球と人間の問題の多くはバイオ

人生は、言語、宗教、教育、金融、交通、通信、エンターテインメントなどのアート(人が作り上げたシステム)によって実現するとして、アートは、エネルギー、生命、食料、材料素材などのネイチャー(自然の事物)に立脚します。地球に補給される唯一のエネルギー源は太陽光であり、光合成は光エネルギーを固定するための優れたメカニズムです。化石燃料は太古の動植物の炭素からできており、光合成とCO2は太陽エネルギーのバッファーだから、地球の運命に直結して当然です。ゆえに食料もエネルギーも、人類生存にとって重要なネイチャーの多くはバイオ問題といえます。ヒトが宇宙に進出する時も、ロケット開発よりバイオ問題の方が重要かもしれません。ところが、生命という謎のシステム理解に、人類は難渋してきました。生命は、宇宙をみわたしても地球以外みつからない特別な存在であり、また複雑です。30億年の歴史を持つ地球生命に、抗体遺伝子という暗号(コード)を切り口にして挑戦しているのが、COGNANOです。

一方、ウェブは人が作った世界(アート)だったのですが、いまやウェブ自身が自律性やリアリティ(すでにバーチャルではない)を持つ世界に進化しているようです。まつもとりーさんの眼には、ウェブ世界が生命性を獲得していくありさまが映っているとのことでした。どうやら、アートだったウェブは、ネイチャー(っぽい方向)に向かうらしい。もしウェブが生命体なのだとすると、発生から30年にして、すでに大きな進化を遂げているわけで、バイオでは絶対に見ることができない「リアルタイムに進化を目撃する」ことが、ITエンジニアには当たり前の日常であるはずです。

25年前、頭に浮かんでいたイメージがありました。丘の上から、100万のバイオシティーを眺めて、その全てを把握することは可能か、という問いでした。

比叡山からの京都市の眺め

その問いには、イエスと答えることができるようになりました。ではいま、ITエンジニアと共に目指すべきビジョンは?

 

膨大で多様なバイオ情報を認識する方法論

それは 「進化するように」生命認識が自動生成していく世界 ではないかと思っています。

VHH抗体は物質であるばかりではなく「巨大情報」です。この世に1,000万種の生物がいて、それぞれ10〜1,000万種のタンパク質を発現しているとすれば、地球上には1〜100兆種類(1012〜15)のタンパク質、つまり抗原が存在することになります。ところで20種類のアミノ酸でコード化される抗体配列の組み合わせは、少なくとも(次世代シーケンサで判読できる配列の範囲だけで)2050通りの可能性がありますから、全生物の分子情報をカバーする「ウルトラサーバ」として、すでに十分です。たとえば、新型コロナの変異α, δ, ο型をカバーする全VHH抗体配列を帰納的に解読したら、「ウイルス変異に対応する獲得免疫の構成」を演繹的に理解することができます。今回のパンデミックにおいて、たくさんの有用抗体が報告されましたが、COGNANOは独自の視点から、変異するウイルスに対して演繹的認識に到達し、オミクロンにも効き続ける抗体を報告しています。以下がその論文のプレプリントです。

www.biorxiv.org

https://www.biorxiv.org/content/10.1101/2021.10.25.465714v1

 

ぼくたちの認識のスタイルは、アルパカから湧き出しウイルス変異と紐付けできる(帰納法的な)抗体配列情報と、マシンラーニングによる分子間相互作用の演繹的セオリー発見の、両者のキャッチボールから産まれるものです。この認識単位が、COGNANOのエンジンです。実用的には、次の変異が来ても各論対応ではなく、インシリコで迅速に創薬予測できるようになったりします。従来のバイオでは、各論の「成果」が得られれば、充足する場合がおおかったのでした。なぜなら、演繹的セオリーに至るためには、標準化された膨大なデータが必要で、取得することは不可能だったからです。

COGNANOの生命認識エンジン

 

COGNANOでは、計算科学によって「未知のがんマーカーを発見する」などの認識単位も積み増しています。COGNANOのマシンラーニングチームは、複数のユニット稼働の結果、帰納的なデータがなくても、最適解を機械が予言するようになる日が来ると考えています。人間でいう「仮想法(Abduction)」に似た創発、つまり「経験してないのに(個別実験もしてないのに)わかってしまう!」が起きるようになります。

また、VHH抗体を検知ツールとして使用すれば、ウイルス感染や心筋梗塞など様々なパーソナルモニタリングが可能となり、IoTとして役立てることができるようになります。この意味は、カルテやアンケートや画像などの情報ではなく、分子データが、直接的なサービスに使用されるようになる、ということです。実用化においては、量産化や標準化にすぐれた点を活かし、VHH抗体は有用物資になります。つまり巨大情報(ソフトウェア)であると同時に、そのまま有用物資(ハードウェア)としても使える、バイオでは稀なケースです。

さて今回のパンデミックでは、治療ではなく「適切な判断をしたい」だけなのに、PCR検査場や病院に並ばなければならなかった……外来はコロナかどうかわからない患者でいっぱいになった……どこか違和感がなかったでしょうか?「戦時中だから」不便でも不平が言いにくかったのかもしれない。安全と医療の情報が、検査動線のどこかで混線しているのかもしれない。

 

21世紀後半の人類は、病院任せにしていたヘルス(感染症、がん、遺伝、疲労、寿命、精神状態などなど)を自分でチェックできるようになった。難しいバイオ知識もスマートスピーカーが教えてくれるようになった。小型デバイスで取得された情報は、スマホを経由して匿名で集積されるようになり、70億人分のデータが同時に解析されて、人類の健康という無形資産は増大した

 

ここに書いたシナリオは、まだまだ「知恵と工夫が未来を創る」式の世界観に基づいています。今後ヘルス情報の扱いは、さらに個人にシフトするでしょうし、増大するユーザ情報は、より深く正確なフィードバックをもたらすようになるでしょう。本来あるべき姿だし、そこに大きなビジネスが生まれるのは確実です。

 

新しい認識は新しい世界観を生み出して行く

でも、まつもとりーさんたちと一緒にやろうとしていることは、もっと長射程のビジョンです。ぼくたちは、自動生成的に意識変容が起こるような気がしているのです。パンデミックを体験したぼくたちの世代はもう、「スペイン風邪」のように天変地異で済ますことはできない。なぜなら、ぼくたちは生命理解へのプローブを手にしており、しかも、ウイルスも人間も、共通の生命原理のうえで存在していることを、既に知っているからです。バイオの視点が変われば、お金や消費や環境も、すこし違って見えるようになるかもしれない。今だって、ヒトは病気になれば、健康と命が一番だと感じてしまう、か弱い存在です。気がつくと、まつもとりーさんはじめCOGNANOに集まりつつあるITエンジニアとそんな話をするようになっていました。

資本やエネルギーが世界のあり方を変えるように、バイオが世界のあり方を変えていく。ひとりひとりの生命認識が集まって、集合知として生成されていきます。VHHデータはネイチャーそのものです。創業以来、COGNANOはネイチャーから学んでアートの方向に引き寄せ、演繹的な価値を抽出することができるようになってきました。これからは、ネイチャーに忠実でありつつ、それを超えて新しい世界観が生まれる時代に入って行きます。生命観は進化し、デジタルネイチャーと言えるものになるかもしれません。そのような認識が生まれる空間はウェブであるはずです。準備は整いました。

これからのCOGNANOにご期待ください!

 

バイオなのにITの会社になる、だけじゃなく、ITなのにバイオできるチームになる!生物情報のデジタル化によって、バイオとITの融合を進行中

 

 

ITエンジニアがバイオの会社に挑戦する話(出会い編)

タイトルでいうITエンジニアであり、COGNANO技術顧問のまつもとりーです。前回のエントリでCOGNANO社長である伊村さんからパスを頂いたので、僕と伊村さんの出会い、そして、ITエンジニアであり、情報学の研究者である僕が、なぜこのバイオ領域を専門とする会社のCOGNANOで一緒に仕事をするに至ったかについて、出会い編を簡単に書いてみようと思います。COGNANOのホームページでの会社紹介は以下のようになっています。

COGNANOは、コンピュータ支援型創薬を目指すベンチャー企業です。自社のアルパカから得られるVHHのビッグデータをもとに、新たな創薬プラットフォームを構築します。私たちの目標は、創薬設計・開発の最適化です。

COGNANOからの連絡

今から1年半前ぐらいでしょうか、ある時一通のメールが来て、そのメールは、バイオをネタにしたビジネスを考えていて、ITを使って応用させたいから相談に乗って欲しい、というような内容でした。連絡をくださったCOGNANO社長の伊村さんは京都大学で医学の博士号を取得し、京大病院に拠点をおく医者でもあり医学研究者でもあって、グローバルに論文を沢山書いている方で、最初はなんとなく縁を感じたのでお話を聞くことにしました。

初めての打ち合わせでは実際のビジネスの話やそこでの現状の全体的な取り組みの話を聞いたのですが、今だから言える話ではありますが、やはりITや昨今のウェブ技術の専門では無い方が多かったためか、本当に手探りで、プロダクトを作った後の話が考慮されていなかったり、そもそもプロダクトで何をミッション・ビジョンにしているのか、チームとして継続的に変化に対応していくための体制などについてもほぼ考慮されておらず、実装方法も非常に変化に弱い固定的なものになっていました。

セキュリティについてもほとんど考慮されていませんでした。正直なところ、進んでいる話を一旦止めないといけない、そうじゃないと失敗する、あるいは、もっと大きな問題が起きるかもしれない、と思ったのを覚えています。

伊村さんのビジョンと人柄への共感

本来の僕であれば、部外者の僕が頑張って色々説明して止めるのもどうかと思いましたし、さすがにやれることがあまりないかもしれないということで、この段階でお話をお断りすることが多いのですが、伊村さんの話を聞いていると、伊村さん自身の中にある医療をパーソナル化していくビジョンの話や、それを実現するためのバイオ側のVHHデータに関するコア技術の圧倒的な技術力の高さ、何より、伊村さん自身の謙虚でわからないことをわからないとはっきり言いながら人に頼ることのできる人柄に少しずつ魅了されていきました。こういう人なら、ちゃんと説明すれば止めることについても理解してくれそうだという信頼にもなっていきました。

また、バイオに関する技術が、例えば研究としても世界トップレベルの成果を出している話(これについては僕は専門じゃないので詳細は省きます)や公開されている論文をみていく中で、これと情報技術を紐付けることができれば、とってもおもしろいことができるんじゃないかと少しずつ実感してきました。

そこで、もっと理解を深めるために、VHHを始めとしたバイオの技術も少しずつ勉強し始めました。

かつての自身の妄想が蘇る

ここで、僕が学んだVHHという、抗体を情報で表したり、その情報を物質化することができる技術や、VHH抗体のデータをある種ビッグデータとして大量に保持しているCOGNANOのコア技術にふれる中で、伊村さんが述べる生物を情報で捉えるというアプローチは、まさにかつて僕が大学生の頃に「生物と無生物のあいだ」などを読む中で、インターネット技術を生命の観点から解釈できるのではないかと日々考えていたこととも重なり合い、自分の中では専門でなかったバイオ技術側の知識が伊村さんによってどんどん補完され、夢が現実になりつつある実感を得たのでした。

 

blog.matsumoto-r.jp

 

また、2016年頃になって、自身のインターネットに関わる技術が妄想についてきたこともあり、生命の特徴に踏み込んでWebシステムを解釈するような研究発表もしてきました。

 

speakerdeck.com

 

こういったこれまでの僕の活動と伊村さんとのディスカッションがどんどんとリアルな話へと紐付いていき、バイオの専門家と情報の専門家によって、お互い踏み込めなかった領域の知識が補完され、どんどんと創発的に話が出来上がっていく体験に非常にワクワクさせられました。

なにより、僕が自分のブログを「人間とウェブの未来」というブログ名にしていることにも、15年たった今、創発的に繋がったことを認識したのでした。もうこれは、とにかく一緒にやっていくとめちゃくちゃ面白くなるぞ、と。

資金調達と事業の言語化、これからのCOGNANO

そこから、チームやプロダウトを継続的に開発し、サイクルを回し続けるために、ある種二人三脚で事業やプロダクトのミッション・ビジョン、さらには最終的に目指すコンセプトや事業の計画などをどんどん整理し、資金調達を行うための言語化やピッチ資料の作成、様々な会社とのディスカッションなどを行ってきました。バイオの分野として他の会社とお話することは初めてなので、色々と新鮮な雰囲気を味わいました。

そして、約1年ぐらいかかりましたが、プレシードとしての資金調達などがうまくいき始め、各種プロトタイプのデバイスができたり、

つるべーさんの多大なる協力のもとプロダクトに関連する機械学習を活用した研究開発の成果がではじめ、コア技術としての特許や論文の取り組みもどんどん進んでいます。そして、いよいよITに関わるプロダクトやチームづくりにも本腰を入れられるようになってきました。そして、今に至ります。

さいごに

以上が、僕と伊村さんの出会いとこれまでの取り組みの経緯です。書き始めるとどんどん書き始めてしまいますので、一旦はこのあたりにしておきたいと思います。これからは、より継続性のあるチーム作りや環境整備、採用なども始めていきますので、是非COGNANOに注目頂けると幸いです。また、COGNANOに関するお話が何かありましたら、社長の伊村さんや僕まつもとりーまでご連絡頂ければと思います。

本エントリを出会い編としたからには、今後も継続的にITエンジニアとしてバイオにどう関わっているかについて書いていきます。

 

あるかないかわからないモノ:バイオ限界(後編)

COGNANO テックブログA, No.6

 

COGNANOのいむらです。がんの話を続けます。これは「因果関係という呪い」を解くおはなしです、、、

 

バイオは「物質を見つける」主義で、手っとり早く見つけるには遺伝子工学が向いているのですが、意外にも「がんの原因遺伝子」を絞りきれない、、、、までが前編でした。

 

ダークマター

「宇宙に充満するはずのダークマターを探す」みたいな話です。物理学者に尋ねれば、「ダークマターがないと宇宙が説明できんのだよ、見たことないけど」と言うのでしょうね。それに似ています。がん細胞にもキーがあるはずなんですが、遺伝子を調べても、はっきりした原因がなかなか見つからない。研究が進み、たくさんの「がん化のアクセル」「ガン化のブレーキ」はわかってきました。しかしよく考えると、自然の経緯でがんになるところを誰も見たことがないのです。

 

f:id:CogNano:20220217155404p:plain

https://wise2.ipac.caltech.edu/staff/jarrett/2mass/XSCz/index.html

NASAダークマター探索ページ

 

時・空のあいまいな系列、因果関係という迷路、仮説ドリブンのデータ取得、、、、から離れて、冷静になる必要があるのではないでしょうか。

 

違う景色を見るには

原因を探す、という思考をやめよう、というのが、ぼくたちがたどり着いた方法です。悪い細胞、良い細胞というキャラクター設定も捨てよう。バイオの旅で背負って来たリュックサックを道端において、いつもと違う景色を見よう。

 

がん細胞株というマテリアルがあります。がん患者の手術標本から樹立された無限増殖細胞で、実験室で培養できます。70年ほど前に子宮ガン組織から樹立されたHeLa細胞に始まり、現在では何千種類という株が世界中で培養されています。がん組織からスピンオフした細胞だから、がんの性質を引き擦っているに違いない。バイオ実験室で手軽に扱えることから、ずっと主役級のマテリアルでした。けれども、これを調べたらがんが分かるのかどうか、じつは保証がありません。元のがん細胞からは、とんでもなく違うモノになっている可能性もあります。

 

「時代遅れかもしれない?細胞株」作戦

作戦はこうです。過剰な期待をせず、がん細胞株だけじゃなく、正常細胞株も合わせて、すべての構成因子に、抗体というタグをもって淡々とリストする巨大な図書館(ビッグライブラリ)を作り、優秀な司書が索引を作ってくれれば、がんに関連が強いタグがたくさん見つかるのではないでしょうか。ノイズやフェイクもたくさん混入しているけれど、確からしい情報を掘り出してくれる有能な司書がいれば、、、、そうなると抗体図書館のサイズは大きいほど良いし、司書のサーベイ能力は批判的であるほど良い。また、索引は遺伝子だけでないほうがよい。タンパク、糖鎖、脂質、全てのジャンルの情報があってもよい。抗体を使った巨大な図書館建築はお家芸です。COGNANOは細胞の特徴を広範囲に記載した1億冊(=クローン)の書物を並べることができます。一方、スーパー司書は、ジャンクやポルノを厳しい目で排除してほしい一方で、些細な項目や未知のタグを、「今わからないから」という理由で安易に捨てるべきではないでしょう。理由に関わらず、がんとリンクが多い順に、ディレクトリを作成してくれたら、、、このセンスは、検索エンジンに似ているのではないでしょうか?

 

このようにして、新しいリスト作成を進めていきました。なにが原因でがんになるのか、という視点は考慮していませんし、リンク強度が高ければ価値があるけれど、低くてもウェルカムですし、無関係なタグも同じくらい重要です。成果はまだ公表していませんが、個人的には、むかし医学教育で学んだ「がん」のイメージが、ずいぶん変わりました。この辺りから、ぼくたちは、「ヒトの頭で考えるような因果関係に縛られない」深層学習に惹きつけられていったと思います。

 

悲しい記憶

100年前の医者は梅毒、マラリア結核などの感染症と戦っていました。しかしぼくの学生時代には、メインテーマはがんと成人病になっていました。組織標本を顕微鏡で学び、病名を覚え、試験を受けます。医師免許をもらうと末期癌の方の主治医をして、、、、と対がん戦闘員として養成された時代です。これは、初年兵がいきなり砲弾飛び交う最前線に放り込まれたようなもので、忘れることができない記憶です。

 

この30〜40年は、バイオ=分子細胞生物学が、病気という難問を解決してくれると信じた時代でした。いまだにアメリカではバイオへの投資熱は凄まじく、じっさい大きな成果を挙げたと言えます。しかし多くの課題は未解決です。どんなアプローチも認識の限界に突き当たります。繰り返しですが、限界の構造は2つ、

 

  1. ヒトがまるっと認識するには、生物が持つ情報スケールが大きすぎる上、そもそも情報化できていない
  2. ヒトが想定できるような「因果関係」に収束しない可能性がある

 

です。いまこれがCOGNANOが突破すべきテーマになっています。ということは、、、、結論として、ぼくはアルパカとアルゴリズムに仕える作業員になるということですね。長年研究してきて、やっと自分の仕事が見つかりました。ただ少し急いだ方がいいですね、、、

 

パンデミックの話に戻ります。オミクロン株が、またしてもどんどん変異し、世界中ほぼ全ての抗体は活性を失いました。ウイルスの回避能力に降伏した格好です。しかしCOGNANOの抗体は効力を失っていません。バイオ担当のまえださんは、この件に掛り切りで、ちょっと手が離せないかんじです。彼の頑張りでまもなく「オミクロン変異にも耐える」論文が受理される見込みなので、改めてツイッターなどでおしらせします。

 

ですので、次回のブログは、まつもとりーさんにリレーできるといいな、と思ってます、、、、スケジュールを聞いてみますね、ではでは!

 

f:id:CogNano:20220217160916j:plain

アルパカの家族