“大模型發展過程中,實現大模型的核心基礎技術并未見顛覆性的創新,而是通過長期迭代演進逐步發展到目前水平?!苯?,北京航空航天大學計算機系主任肖利民
教授在采訪中表示,通過“大算力+大模型+大數據”的高效組合,AI大模型逐步解決了需要大量標注樣本、跨領域自適應能力、多任務泛化能力等傳統AI落地難的問題,
使得通用人工智能(AGI)實質性落地應用成為可能。
談及AI大模型的關鍵技術,肖利民說,以GPT為代表的大模型,通過基于Transformer結構的模型疊加和并行化,面向海量非標注數據的自監督學習、多任務學習/
元學習/遷移學習,基于人類反饋的強化學習,基于跨媒體對齊的多模態翻譯和轉換等大模型核心創新技術的持續融合演進,使得大模型在跨領域多任務中表現出的智能
化水平有了質的變化。
大模型的發展和應用將賦能千行百業,為實體經濟中的企業提供更加智能化的技術和工具,促進各行業和領域的創新發展,推動新產品、新服務、新業態的出現。肖
利民表示,一方面,大模型可利用大量的數據進行分析和預測,幫助實體經濟中的企業做出更準確的決策。例如,通過對市場趨勢、消費者行為、供應鏈等的分析和預測
,企業可精準了解市場需求、更好優化產品和服務,提高運營效率和競爭力。另一方面,大模型可用于自動化和智能化系統,助力實體經濟中的企業提高生產效率和質量。
例如,在制造業中,大模型可用于質量控制、設備運維、供應鏈優化等復雜任務,實現智能化生產和運營。
入局大模型研發的門檻有多高,需要怎樣的算力支持?大模型的研發和構建在模型訓練、大數據收集、大數據清洗、核心技術研發及關鍵人才招攬等諸多方面都需要
付出高昂的代價。肖利民表示,大模型訓練需要有高算力、大內存、高互聯帶寬、高運行效率的智能計算平臺。以GPT 3.0為例,其模型參數總量達1750億個,訓練樣本
Tokens數達3000億個,計算量高達314ZFLOPS,最大數據集45TB,參數和模型狀態存儲量超過2.1TB,如果要求訓練在30天內完成,以A100芯片為例,訓練階段至少
需要1558塊A100GPU,耗費至少2337萬美元。
未來,不僅要關注大模型的研發和構建,更要注重大模型的精調和使用,以發揮大模型的實際效用。產業界越發關注大模型,但大模型并非多多益善,其研發、訓練
需要持續的算力、人才投入,通常只有大型龍頭企業或領軍企業才能負擔得起。基于通用大模型,聚焦場景需求解決實際問題,打造精耕細作的行業大模型,打通AI應用
的“最后一公里”,才能更好賦能實體經濟發展。(記者 吳雙)