“小愛,小愛,明天北京天氣如何?”當前,AI對話系統已經深刻融入人們日常生活的方
方面面,技術架構和路線更是百花齊放。
然而,作為前沿技術,AI對話系統標準缺失,造成其評價體系不一、在應用中呈現出水平參
差不齊等問題。針對這種狀況,清華大學智能技術與系統實驗室副主任黃民烈教授聯合學界和業
界科研機構共同制定了全球首個《AI對話系統分級定義》(以下簡稱《分級定義》),并于近日
正式發布?!斗旨壎x》旨在更好地評估AI對話系統的能力水平,推動AI對話系統在虛擬個人助
理、智能家居、智能汽車(車載語音)、情感陪護和心理健康等領域的應用有據可依。
起源于圖靈測試的AI對話系統,是人工智能領域最重要的研究方向之一。“如果說自然語言
處理是人工智能‘皇冠上的明珠’,那么AI對話系統則是自然語言處理中最難、最核心的任務之
一,是‘明珠中最亮的那顆’?!秉S民烈說。
黃民烈表示,近年來,隨著深度學習技術的不斷發展,AI對話系統已經從基于規則的第一代和
以傳統機器學習為核心的第二代,發展到以大數據和大模型為顯著特征的第三代,對話能力產生
了革命性變化,在開放話題上展現了驚人的對話能力,對進一步推動人工智能產業發展具有巨大
意義和價值。
“考慮到AI對話系統任務繁多、評價維度多樣、技術路線豐富,撰寫小組在制定《分級定義》
時僅關注完全由機器主導的對話系統,人機混合的對話系統不在考慮范圍內?!秉S民烈說。
黃民烈介紹,同時,為了在實際應用中發揮價值,《分級定義》的制定是從用戶可感知、可觀
察、可測量、可度量的角度出發,不考慮系統的具體技術實現方式,也不區分助理類任務、閑聊、
知識對話等,均以“場景”進行表述。
在上述原則之下,《分級定義》從自動對話能力、對話質量高低、單一/多個場景、跨場景的
上下文依賴和自然切換能力、擬人化程度、主動和持續學習能力、多模態感知與表達能力等角度出
發,將AI對話系統劃分為L0—L5共6個等級,等級越高,AI對話系統水平越高。
“從上述標準看,當前AI對話系統水平最高已發展至L2到L3之間,如常見的‘小愛同學’等A
I智能助理就處于這個水平。”黃民烈說。
與國外相比,我國AI對話系統水平如何?對此,小米技術委員會主席、AI實驗室主任王斌表示
,從目前的工業應用看,我國的AI對話系統與國外的AI對話系統沒有明顯差異,總體處在同一級別。
“現在AI對話系統整體處在向L3、L4發展的路上,距離理想還有一定的距離,還需要一到兩年
甚至更長時間的持續努力?!秉S民烈說,要向L4、L5邁進,需要破解記憶、聯想、推理、自學習能
力等方面的很多關鍵技術,要做出高表現力的語音合成,如果運用到元宇宙中,還需要做出動作和
表情細粒度的表達,都極具挑戰性。
在華為諾亞方舟實驗室語音語義首席科學家劉群看來,AI對話系統最高級別的應用為復雜情感
任務,《分級定義》的發布將促進AI對話系統在情感任務中體現更高水平的智能,從而促進人工智
能未來在情感陪伴、心理健康、虛擬人、元宇宙等方面的應用,大大降低人力和物力成本,促進前
沿科技走進大眾日常生活。