說到AlphaGo,一般人都或多或少聽說過,它因擊敗了人類圍棋大師被譽為“世界壯舉”,標志著人類向通用型的人工智能邁出了具有里程碑意義的重要一步。
而如今在前沿科學研究中的AlphaFold2模型則是人工智能(AI)應用的另外一個標志,它因展現出AI for Science的巨大潛力,而受到了各界人士的青睞。
AlphaFold2助蛋白質結構預測,樹AI for Science新高度
蛋白質是組成人體細胞組織的重要成分,對蛋白質三維結構開展有效解析與預測,可為生物學、醫學、藥學乃至農業、畜牧業等行業未來研究與發展提供重
要依據,尤其對與人類健康直接相關的藥物研發意義重大。
然而,用X光、冷凍電鏡、核磁共振等傳統方法對蛋白質結構進行解析,遠趕不上氨基酸序列的增加速度,這會造成海量待測樣品在實驗室中等待數月乃至數
年。國際權威數據庫SWISS-PROT顯示,目前累計的蛋白序列的信息已經超過56萬,用傳統方法去完成這浩瀚繁多的測序無疑成為“不可能完成的任務”,須另辟
蹊徑。
科技創新的車輪滾滾向前。如前文所述,人工智能的發展為蛋白質測序效率帶來了契機。其中AlphaFold2模型讓人工智能在生物醫藥領域發揮著重要的作用。
一般來說,人工智能方法的預測精度超過90分,便可認為預測結果與實驗方法得到的蛋白質結構基本一致。而AlphaFold2的92.4分,其不僅可以分析X-射線晶
體學很難解決的楔入細胞膜中的蛋白質結構,還成功解開了蛋白質折疊問題,甚至可以幫助研究者們制造自然界中不存在的蛋白質。
AlphaFold2帶來的這些重大突破,標志著AI輔助藥物基礎理論研究進入新的階段,樹立了AI for Science新高度。
比如,目前全球設計的幾乎所有的藥物都作用于蛋白質,通俗講,需要像鑰匙開鎖般精確匹配,而此過程的第一步是確定哪把鑰匙開哪把鎖,用更專業的話說,
就是尋找藥物靶標,即弄清楚藥物分子作用與何種蛋白結合。而通過可解碼蛋白質結構的人工智能算法,就可快速篩選成千上萬的新藥物靶標,從而大大縮短新藥研
制周期;而制造自然界中并不存在的蛋白質,無疑可以更好幫助人類以前所未有的方式應對重大挑戰。
端到端優化AlphaFold2,讓人工智能更普適濟民
AlphaFold2為蛋白質結構解析與預測提供了通途,為人工智能在生物醫藥等領域的應用打開了新的窗口,然而隨其在產、學、研各細分領域中的落地,也遇到嚴
峻挑戰。例如,隨各種應用對于推理高通量和高性能的需求與日劇增,使用者需要更加充分地挖掘平臺計算潛力,來提升執行效率。
所謂高通量測序技術,也被稱為革命性的蛋白質測序方法,也是“十四五”時期生物經濟領域重點推進創新應用的一項關鍵技術,簡單講就是一次并行對大量核酸
分子進行平行序列測定的技術,但實施一次測序就能產出不低于100Mb的數據,這巨大的數據量給AlphaFold2的應用帶來很大困擾。
原來,AlphaFold2剛問世時由于算法和硬件架構本身等問題,如GPU的并行計算,但是這類硬件存在嚴重的內存限制,使得即便是使用單卡最大內存,能夠輸入去
預測的蛋白質序列長度也不足1000氨基酸。
面對突破這一瓶頸的急迫需求,英特爾^?架構產品——內置AI加速能力的至強^?可擴展平臺搭配傲騰?持久內存的產品組合,使得CPU平臺得以具備TB級的內
存容量,有潛力滿足高通量測序需求。基于這一優勢,英特爾針對不同氨基酸序列長度下蛋白質結構預測所需占用的內存開展了實驗,實踐表明該組合打破了限制預測
序列長度的 “內存墻”,實現了AlphaFold2的高通量優化。
結果顯示,從短到206個氨基酸,至長到2797個氨基酸,最終都達到了預期效果,驗證了至強^?可擴展平臺產品組合,能夠輕松應對AlphaFold2蛋白質測序從20
GB至510GB的內存占用,并有助于其實現更大范圍的蛋白結構探索。
在推動AlphaFold2提升普適性、拓展應用的進程中,英特爾在發揮至強^?可擴展平臺產品組合提供強勁通用算力的同時,亦充分利用豐富的軟件工具實施通量優化,
讓處理器內置的英特爾^?AVX-512技術,在英特爾^?oneAPI 軟件工具的激活與配合下,實現并行計算加速,為AlphaFold2應用進一步提供性能調優空間。
這一軟件級調優,經先在預處理階段對模型進行高通量優化,然后將模型遷移到PyTorch框架,接著再在PyTorch版本上進行細節上的推理優化,最后給予TB級內存支
持,即可實現更優的加速效果。
經由上述基于至強^?可擴展平臺對AlphaFold2實施的端到端優化,對于一個含有765氨基酸的蛋白質測試樣例,采用CPU 64個物理核并發模式,支持了最高3.2TB的
內存消耗,測試通量從未經任何優化的4.56序列/天提升105.35序列/天,效率提升達23.11倍;且如果在單節點上配備最高8TB內存,就可以支持完成高于10000氨基酸序列
長度下蛋白結構的預測,為人工智能在藥物研發等領域的廣泛應用展現了無限可能。
在國際學術期刊《Science》聯合英特爾推出的《架構師成長計劃》課程中,晶泰科技的首席研發專家楊明俊博士這樣談到:“以AlphaFold2為代表的研究成果,被認
為是開拓了科學研究的第四范式,就是基于大量的數據,然后采用以深度神經網絡為代表的模型,給出對問題的一個解答。蛋白質結構預測曾經被認為是不可能完成的一件
事情,如今被AI算法實現,這標志著AI在生物醫藥領域的進展邁入了一個全新的領域和階段。”
《“十四五”生物經濟發展規劃》明確把加快發展高通量基因測序技術,作為開展前沿生物技術創新的重要手段;支持采用人工智能等信息技術,實現藥物產業的精準
化研制,進而通過生物技術與信息技術融合更好惠民。
相信在這一進程中,英特爾的架構優勢也能物盡其用,其軟硬兼施對AlphaFold2生物信息測序效率實現端到端優化,并使其具備更高適用性的生動實踐,展現了人工智
能與科學研究的相互融合,并為人類在前沿科學領域的未來發展帶來了廣闊的想象空間。通過不斷地范式創新成果樹立新的“AI for Science”里程碑,以創造更美好的未來!
AI for Science:科學智能,用AI去學習科學原理,得到模型,進而去解決實際問題。
AlphaGo:阿爾法圍棋,是DeepMind公司的一個人工智能程序。
AlphaFold2:DeepMind公司的另一人工智能程序,用于蛋白質結構預測。
AI:人工智能。
GPU:圖形處理器,是一種專門做圖像和圖形相關運算工作的微處理器。
CPU:中央處理器,計算機系統的運算和控制核心。
AVX-512:英特爾^?高級矢量擴展512,是一組能夠針對各種工作負載和用途(如科學模擬、深度學習、3D建模與分析等)提高性能的指令。
oneAPI:一套完整的高級編譯器、庫以及移植、分析和調試器工具,其利用先進的硬件功能加速計算,可與現有的編程模型和代碼庫互操作。
PyTorch:是一個開源的Python(計算機編程語言)機器學習庫。
圖文及數據來源:英特爾(中國)有限公司