近日,AI預測蛋白質結構又取得新突破。“深層思維”公司宣布,該公司開發(fā)的人工智能程序“阿爾法折疊”(AlphaFold)已預測出約100萬
個物種的超過2億種蛋白質的結構,涵蓋科學界已編錄的幾乎每一種蛋白質。
據(jù)介紹,這些信息將上傳至可公開訪問的“阿爾法折疊蛋白質結構數(shù)據(jù)庫”。該數(shù)據(jù)庫由“深層思維”公司和歐洲生物信息學研究所合作開發(fā),
去年7月上線時已包含98.5%的人類蛋白質結構。
近幾年,AI預測蛋白質結構成績亮眼,各大國內(nèi)外企業(yè)也紛紛入局。在AI激活、數(shù)據(jù)驅動下,AI預測蛋白質結構正從幕后走向臺前,其產(chǎn)業(yè)化發(fā)
展也正進入一個新的階段。
AI預測蛋白質結構背后的計算生物學
蛋白質的三維結構決定了它在細胞中的功能。明確蛋白質的結構信息,在藥物研發(fā)等領域十分重要。傳統(tǒng)上,研究人員使用X射線晶體學等手段
測定蛋白質結構,耗時費力且花銷不菲,卻常無法獲得所需結果。“阿爾法折疊”通過學習實驗測定出的蛋白質結構信息,來預測其他蛋白質的三維
結構,其預測準確度相當高。歐洲生物信息學研究所的數(shù)據(jù)顯示,阿爾法折疊有35%的預測是高度準確的,可媲美實驗測定結果;另有45%的預測足
以在很多場景使用。
人工智能極大提升了蛋白質結構預測的效率,這也是AI預測蛋白質結構近幾年被人熟知的原因,但其背后的計算生物學卻已經(jīng)歷多年發(fā)展。計算
生物學是根據(jù)不同類型的生物數(shù)據(jù)構建算法和模型,從而理解生物系統(tǒng)本身,并推進相關研究及應用的學科。
隨著人工智能的發(fā)展,計算生物學正在被激活。浦發(fā)硅谷銀行《醫(yī)療健康行業(yè)投資與退出趨勢》報告顯示,2021年美國市場投向計算生物學公司
的金額達到59億美元,一年增長高達3倍,超過非計算生物學公司投資的兩倍。在2019年以來首次完成種子輪/A輪融資的707家生物制藥和研發(fā)工具公
司中,計算生物學公司有129家,占比為18%。2021年對計算生物學公司的投資額激增,幾乎是2019年和2020年募集資金總和的兩倍。
在我國,各研究機構和企業(yè)也正開展相關布局。如近日,由清華大學人工智能產(chǎn)業(yè)研究院孵化的AI制藥企業(yè)華深智藥對外宣布,其在AI和生命科學
結合領域取得突破:研究人員在蛋白質結構預測方面開發(fā)出全新技術。據(jù)華深智藥官方介紹,該技術僅從單條蛋白序列就能預測出蛋白質3D結構的算法。
加速藥物研發(fā)、為精準醫(yī)療提供助力
計算生物學正在改善傳統(tǒng)制藥行業(yè)高投入、高技術、高風險、長周期的特性,加速藥物研發(fā)過程。有分析機構認為,目前我國計算生物學發(fā)展的主
要方向仍是AI制藥,相關創(chuàng)業(yè)公司在2017—2021年呈現(xiàn)出爆發(fā)式增長,且都已獲融資。從商業(yè)模式上看,整個行業(yè)以面向企業(yè)提供服務為主。
除此之外,計算生物學也為精準醫(yī)療的實現(xiàn)提供了助力。
有分析機構認為,在應用方面,計算生物學產(chǎn)業(yè)可大致分為三類:一是計算推演生物性質及原理,如蛋白質結構預測、致病機理研究、蛋白質相互
作用預測、抗體和抗原的表位預測、基于基因組學尋找疾病成因或尋找新型的生物標志物等。二是搭建預測及判斷模型,如AI制藥中基于靶點的化合物性
質預測,疾病診斷、監(jiān)控、治療建模,涵蓋細胞、器官、人體的生物模擬器等。三是對生物體進行控制改造,如新療法、藥物開發(fā)、精準醫(yī)療和生物制
造。其中精準醫(yī)療或將成為計算生物學長期的重點發(fā)力方向。在這個方向上,國外已出現(xiàn)了基于多組學布局的企業(yè)。
如2021年11月,阿斯利康、德國默克、輝瑞和梯瓦等6家大藥廠與亞馬遜、以色列生物科技基金共同推出了創(chuàng)新實驗室——AION Labs。該實驗室
的模式是:在以色列初創(chuàng)生態(tài)系統(tǒng)下,建立和投資基于AI和計算生物學技術進行藥物發(fā)現(xiàn)和開發(fā)的初創(chuàng)公司,并為這些公司提供資源、指導,以及合作開
發(fā)新技術,最后反哺制藥行業(yè)。AION Labs 在一份聲明中指出,其投資的初創(chuàng)公司將利用AI和云計算更快、更高效地找到新的治療方法,推進以患者為
中心的精準醫(yī)療。
實現(xiàn)商業(yè)化,計算生物學還需邁過這些坎
雖然計算生物學已逐漸走入人們的視野,但它要想實現(xiàn)商業(yè)化還面臨著一些關鍵瓶頸問題有待突破。
首先是對生物底層原理的進一步明確。目前,還有大量關于生物學本身的底層機制有待研究透徹,在進行模型構建、生物驗證時,需要引入這些知識
來減少不符合領域認知的偏差,保證準確率。
其次是要有統(tǒng)一的計算和數(shù)據(jù)框架。計算生物學要最終落地,模型要能夠覆蓋多組學數(shù)據(jù)、多環(huán)節(jié)及功能并行。同時,還需要保證計算生物學中的多
種異構數(shù)據(jù),例如圖像、視頻、分子圖譜、DNA代碼、基因表達、電信號等,有明確的標準和通用格式,以便在不同算法和平臺之間互操作。
此外,還有消費級數(shù)據(jù)的獲取、工程落地能力、行業(yè)信任與模型可解釋性問題,以及數(shù)據(jù)隱私問題等。