8月8日消息,近日,快手高級副總裁、研發線負責人于冰表示,AI大模型作為當下最重要的革命性技術,進入爆發期,有望開啟AGI時代,而多模態內容
生成與理解是其核心能力。
于冰認為,當前,多模態AI大模型因其在文本、代碼、圖像和視頻等多種內容上突出的生成與理解能力,有望為視頻生產、理解、分發、消費等全鏈路打開
新的技術視角,突破傳統音視頻編碼的技術天花板,突破基于用戶行為的搜廣推算法的傳統思路,將視頻內容創作從PGC、UGC帶動進入AIGC時代,創造AI
大模型驅動的視頻內容創作工具,激發創作者的創意空間,高效率、低成本地生產高質量的視頻內容。
而短視頻、直播作為最典型的多模態媒介,快手也抓住平臺基因,在AI大模型領域重度投入,全方位探索技術突破。于冰介紹,目前,快手在AI大模型的布局
體系分為三個層級:基于具備高性能、高并發、高算力的“大基建”,構建快手多模態的AI“大模型”,進而在搜廣推、內容創作、用戶增長、研發效能等領
域內打造“大應用”。
他提到,在多模態 AI大模型的加持下, AI技術和工具可全方位地賦能影視創作者,助其在創作、拍攝、后期等各階段激發創意、提升效率和內容質量,影視
制作的周期也能大幅提高,過去花費數年拍攝的大片有望數月完成。
快手自2011年成立至今,回顧過往經歷,于冰表示,業務發展會經歷入局、成長、成熟等多個階段,在業務發展的不同階段,快手所采取的研發策略也各有側
重。創新成長期更注重持續投入,探索新產品、新周期;而成熟階段則需聚焦優化效率,兼顧體驗,既保證產品體驗的競爭力,又保證業務的穩健成長。
于冰以快手音視頻業務為例,目前該業務已步入成熟期,研發策略重點也轉移至提升效率、優化成本,追求單位成本下算力、存儲和網絡使用效率的提升。快
手基于自研視頻質量評估KVQ、視頻增強修復KEP和KRP、視頻壓縮編碼算法KVC等一系列核心技術,形成數據驅動的視頻處理閉環,在兼顧體驗的同時極致
壓縮視頻。
2022年,快手技術toB業務StreamLake推出了首款自研智能視頻處理芯片SL200,該芯片集成了快手領先的視頻編解碼、圖像處理、AI推理、內容自適應編碼
等關鍵技術,具備高質量、高密度、智能化的特點。目前,SL200芯片已全面應用于快手的直播和短視頻業務,實現成熟技術通過StreamLake對產業賦能。
而在數字人領域,于冰介紹,快手全鏈路自研了光場掃描重建、超寫實人像建模、智能綁定、動作捕捉與驅動、物理仿真等數字人核心技術,推出「快手虛擬演
播助手(KVS)」和「快手智播」兩大解決方案。未來,結合智能編曲、圖像/視頻生成、LLM等AI能力,快手數字人技術將繼續在文旅、教育、游戲、直播電商
等領域廣泛應用,助力客戶打造高品質低成本的3D和2D數字人。(一橙)