軟銀投巨資的機器人完勝人類科學(xué)家400倍,人工智能有望全面接管生物實驗室
2016 年 10 月,日本軟銀(SoftBank)領(lǐng)銜多家頂級風(fēng)投,向一家當(dāng)時還名不見經(jīng)傳的初創(chuàng)公司 Zymergen 投資總計 1.3 億美元。在此 B 輪融資完成后,美國前任能源部長、諾獎得主朱棣文也加入了 Zymergen 董事會。
簡單而言,Zymergen 是一家專注于合成生物學(xué)的美國初創(chuàng)公司,主要開發(fā)用于工業(yè)發(fā)酵的基因工程細(xì)菌,并結(jié)合機器學(xué)習(xí),進(jìn)行自動化分析和生物信息學(xué)處理。昨日,《Science》網(wǎng)站刊文首次披露這家神秘公司的創(chuàng)業(yè)野心以及背后的一些技術(shù)細(xì)節(jié)。
合成生物學(xué)雖然叫“生物學(xué)”,其實卻與工程學(xué)理念更為接近。相比機械零件、電路元件等傳統(tǒng)工程學(xué)科,合成生物學(xué)擺弄的生物零件更復(fù)雜、更多變。研究者通過調(diào)控相關(guān)基因通路對細(xì)胞進(jìn)行“編程”,讓它們像微型工廠或機器一樣,生產(chǎn)特定產(chǎn)品或完成特殊任務(wù)。
傳統(tǒng)的生物學(xué)操作方式是:提供一些有限數(shù)量的假設(shè),由人類科學(xué)家在實驗室里每個月進(jìn)行 10 次測試,但現(xiàn)在有一種機器人每周可執(zhí)行多達(dá) 1000 次實驗,這相當(dāng)于將效率提升了400倍。但這些機器人只能服從命令,這意味著輸入正確的命令是這一過程中真正的瓶頸。
這些機器人屬于 Zymergen 公司,這是一家專注于合成生物學(xué)的公司。2014年,這家公司搬進(jìn)了一個位于加州舊金山灣區(qū)的廢舊電子工廠。
在一大堆設(shè)備中,有一個名叫 Echo 的機械臂,它正抓起一個有著上百個裝滿液體的方格的塑料盒。在將塑料盒放入托盤前,Echo會對其條形碼進(jìn)行掃描,接下來會發(fā)生的事情,就不是人眼能看得見的了。
圖丨由AI控制的機械臂正在對微生物菌群進(jìn)行液移
Zymergen公司的聯(lián)合創(chuàng)始人、分子生物學(xué)家、運營和工程副總裁Jed Dean說:“這個過程并不是手工進(jìn)行移液的簡單復(fù)制,而是一種完全不同的方式。”
機器人并不是使用傳統(tǒng)的移液管吸取液體后再轉(zhuǎn)移到每個方格中,而是使用每秒 500 次的聲波脈沖,讓液體震動并形成小液滴,這些液滴要比每次人工移液的量小數(shù)千倍。所以,機器人并不會直接接觸液體。
實際上,整個流程中并沒有太多未來元素,稍微有點規(guī)模的生物實驗室中都在使用機器人和條形碼系統(tǒng)。哪怕是上文提到的移液技術(shù),這種稱為“聲波液移技術(shù)”(Acoustic Droplet Ejection)其實也已經(jīng)存在十多年了。
圖丨聲波液移技術(shù)可在非物理接觸情況下,實現(xiàn)微量液體的精準(zhǔn)提取
然而,有意思的是,當(dāng)Jed Dean被問到現(xiàn)在這些機器人在做什么實驗時,他居然理直氣壯的回答道:“我不知道?!?/span>
的確,整套實驗流程都由計算機程序自行設(shè)定及操作,如果想要知道實驗相關(guān)信息,只需要去電腦屏幕上看一眼就行了,何必要時時刻刻記在腦子里呢?
Zymergen公司的首席執(zhí)行官Joshua Hoffman說:“整個實驗過程中只有一名人類科學(xué)家參與,負(fù)責(zé)實驗結(jié)果分析和事實檢查?!钡庾x實驗數(shù)據(jù)、生成假設(shè)、規(guī)劃實驗這類工作,Zymergen的終極目標(biāo)將是“去除一切人類直覺的干擾”,實現(xiàn)科學(xué)實驗的全過程人工智能。
圖丨Zymergen公司的首席執(zhí)行官Joshua Hoffman
Zymergen的做法代表了生物技術(shù)公司的一種趨勢:利用人工智能來增強、甚至取代人類在科學(xué)研究中的作用,即實現(xiàn)“AI驅(qū)動的生物技術(shù)”
從宏觀上看,就像工廠里的生產(chǎn)流水線一樣,科學(xué)發(fā)現(xiàn)也是一個循序漸進(jìn)的過程:科學(xué)家們發(fā)表論文,然后指導(dǎo)在實驗室中完成實驗,進(jìn)而得到全新的發(fā)現(xiàn),最終又會以科學(xué)論文的形式呈現(xiàn)出來。這是一個標(biāo)準(zhǔn)的周期,就連當(dāng)今最典型的人工智能以自動化的優(yōu)勢代替人力勞動也是遵循這個路線:
圖丨“AI驅(qū)動的生物技術(shù)”流程圖
作為上述“AI驅(qū)動的生物技術(shù)”中的重要環(huán)節(jié),Zymergen所做的工作就是為生物燃料、塑料、藥品等提供工業(yè)化的微生物配方。為了提高微生物的生產(chǎn)效率,客戶們往往會將主力菌種直接送到Zymergen,然后由那里的機器人對每種微生物的基因進(jìn)行分析和修補,從而得到一個高效版本的的工程微生物。
但問題是,那些被客戶送到Zymergen的微生物已經(jīng)是高度優(yōu)化過的。所以說,如果要在這個基礎(chǔ)上進(jìn)一步提高效率,就只能進(jìn)行更深層次的基因組研究、設(shè)計實驗、分析數(shù)據(jù)。換句話說,越是要壓榨出最后那點效率提升,越是要求更先進(jìn)的技術(shù)手段。
圖丨Zymergen的實驗流程基本實現(xiàn)了完全自動化
那么,究竟怎樣用算法來設(shè)計實驗?一個原始微生物約有 5000 個基因,假設(shè)有10種可以改變給定的基因的方法,那么就有了 5 萬種不同的組合。然后,可以用1000個菌株進(jìn)行實驗,每一個菌株都有可能突變,也許 25 個菌株就會產(chǎn)生足夠的目標(biāo)化學(xué)品。這樣的菌株就可以用于下一輪實驗育種,其余的菌株則放入冷凍室。
實際上,只是盲目地提高效率并不會帶來科學(xué)發(fā)現(xiàn)上的重大進(jìn)展。因為如果把所有的突變都組合成一個單一的微生物,往往不能達(dá)到“1+1>2”的效果,很有可能顧此失彼——微生物反而因此呈現(xiàn)出“病態(tài)”,這類病態(tài)菌株可能還不如先前未經(jīng)改造的原始菌株。
因此,要選出正確的路徑,這就需要一張“地圖”。這張“地圖”可以顯示所有突變造成的影響,而且還是基于多個維度的,因為人類需要為機器學(xué)習(xí)設(shè)定一個方向。
舉例而言,在合成生物學(xué)中,一條代謝通路通常擁有十幾或幾十個基因表達(dá)產(chǎn)物——有些對生產(chǎn)率的改善微不足道,有些卻舉足輕重,而代謝通路之間也經(jīng)常存在交流,互相調(diào)節(jié)。想要成功制造一個工程細(xì)菌,一般要經(jīng)過成百上千次的實驗試錯,才能一步步逼近正確答案。
在分子生物學(xué)中所提到的“代謝通路”(metabolic pathway),通常是指某個或某幾個基因表達(dá)所涉及的全部酶或信號分子。細(xì)胞內(nèi)這些不同代謝通路組成了代謝網(wǎng)絡(luò),令生物保持其內(nèi)環(huán)境穩(wěn)定。
然而,Zymergen的模式卻完全不同,他們專門為此開發(fā)了一套機器學(xué)習(xí)系統(tǒng),讓人工智能技術(shù)從浩如煙海的實驗數(shù)據(jù)中進(jìn)行分析,指出代謝通路的要害,并根據(jù)需求找出相應(yīng)的、能實現(xiàn)特定功能的基因表達(dá),把這個表達(dá)寫入微生物中,最后生產(chǎn)出所需的微生物,從而避免了繁雜的試錯過程。
圖丨迷宮——細(xì)胞的代謝通路匯總
但是,這里有個尷尬的問題:當(dāng)機器人終于發(fā)現(xiàn)那些能提高產(chǎn)量的遺傳變化時,它們對背后具體的生物化學(xué)機制一無所知。
如果實驗不能加深我們對生物學(xué)原理的理解,那這真的能稱為“科學(xué)”么?對于 Zymergen 的首席技術(shù)官 Aaron Kimball 來說,這個哲學(xué)觀點可能并不那么重要,而且他的解釋也相當(dāng)直接:“能給我們帶來收入的是最終結(jié)果,而不是我們是否明白其中的原理?!?/span>
到目前為止,Zymergen公司的機器人實驗室將化學(xué)生產(chǎn)微生物的效率提高了10%以上。這個數(shù)字看起來并不起眼,但要知道,化學(xué)工業(yè)中有一些部門十分依賴微生物發(fā)酵,一點小的技術(shù)改進(jìn)都有可能節(jié)省大量的成本、帶來更多的收益,甚至?xí)^美國國家科學(xué)基金會 70 億美元的年度預(yù)算。
機器人也許會發(fā)現(xiàn)那些被科學(xué)家忽略了的有益遺傳變化,因為大多數(shù)能提高生產(chǎn)率的基因與人類所能預(yù)見的產(chǎn)物沒有直接關(guān)系。如果沒有正確的組合,一些基因可能根本無法表達(dá)。 Jed Dean說:“我已經(jīng)在幾種不同的微生物中看到了這種模式。如果不使用機器學(xué)習(xí),尋找正確的基因組合就像試圖破解極其復(fù)雜的密碼,人類的直覺和信心很容易被問題的復(fù)雜性所壓倒?!?/span>
科學(xué)研究能在多大程度上交給機器來完成,不同領(lǐng)域的研究人員會有不同的答案。加州大學(xué)戴維斯分校計算機科學(xué)家Ilias Tagkopoulos認(rèn)為:“為了最大限度地提高信息收益,為了更接近目標(biāo),我們應(yīng)該讓數(shù)據(jù)決定實驗步驟?!边@位教授的研究領(lǐng)域是遺傳學(xué),在他看起來永無止境的研究課題里,包括了預(yù)測細(xì)菌如何適應(yīng)不斷變化的醫(yī)院環(huán)境、設(shè)計出更健康的零食等諸多問題。
如果機器真的能夠在某些科研任務(wù)中取代部分人類勞動,想必很多科學(xué)家都會欣然接受。與工廠工人或出租車司機不同,大多數(shù)研究科學(xué)家都希望將部分工作自動化,特別是分子和細(xì)胞生物學(xué),其中人工移液、培養(yǎng)細(xì)胞、菌落數(shù)量統(tǒng)計等繁瑣且高成本的環(huán)節(jié)尤其如此。
一名研究生的小失誤可能會浪費數(shù)周的辛苦工作。更糟糕的是,為研究生設(shè)計實驗的那位博士數(shù)月的努力可能也付諸東流了。
圖丨高效運行中的Zymergen自動化設(shè)備
然而,人工智能為生物技術(shù)領(lǐng)域帶來的也不全是驚喜。在嘗試?yán)肁I技術(shù)解讀數(shù)據(jù)和設(shè)計實驗之后,也有一些生物學(xué)家表示失望。
斯坦福大學(xué)計算生物化學(xué)家Rhiju Das的主要工作是研究分子如何折疊以設(shè)計新藥。他表示,目前的機器學(xué)習(xí)方法仍然無法完成相應(yīng)任務(wù)。與人類科學(xué)家相比,AI在RNA設(shè)計問題上的表現(xiàn)非常糟糕,這些“設(shè)計”任務(wù)似乎還是需要人類的直覺。
圖丨Zymergen公司的自動化設(shè)備
此外,人工智能的“黑盒子”問題在生物技術(shù)領(lǐng)域似乎表現(xiàn)得更為突出,由 AI 控制的研究工作所取得成果將缺乏可解釋性。
對此,卡內(nèi)基·梅隆大學(xué)的計算機科學(xué)家Adrien Treuille提出了一個有趣的觀點:我們正在離“可解釋的”科學(xué)時代越來越遠(yuǎn)。研究人員不僅要依靠計算機來從事科研,而且甚至需要計算機去解釋其中的原理。生物學(xué)如此復(fù)雜,而目前的AI技術(shù)又處于起步階段,把一切都交給計算機,人類真的能放心嗎?