??
人工智能的發展,與知識產權發生著緊密的關系。圖為今年上海舉行的世界人工智能大會中主題為“交響”的AIGC藝術展。 資料照片
??我國目前的生成式人工智能技術創新還處在初級階段,法律法規的制定應當給科技創新留有一定的發展空間,對產品在研發階段的數據合法性要求,
應當根據數據類型和基本倫理要求,采取開放包容的規范原則。解決生成式人工智能所涉及的知識產權難題,需要使用多種制度工具,建立多元化解決機制
,打造一套綜合性解決方案。
??生成式人工智能數據合法性
??成為焦點問題
??近期國家互聯網信息辦公室發布的《生成式人工智能服務管理暫行辦法》(下稱《辦法》)第七條規定:“生成式人工智能服務提供者應當依法開展預
訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;不得侵害他人依法享有的知識產權;涉及個人信息的,應當取得個人同意或者
符合法律、行政法規規定的其他情形;……”該條款的主要目的是規范生成式人工智能服務提供者數據來源的合法性問題,這也是當前全球范圍內生成式人工
智能數據合法性的焦點問題。
??數據來源合法性是生成式人工智能產品合規的必要條件,若數據來源不合法不合規,該產品將無法進入市場應用階段。但是,如果在生成式人工智能研發
階段就嚴格執行合法性標準,就會限制大數據的廣泛采集,阻礙研發進程,影響高品質、高智能產品的誕生。所以,《辦法》第三條也提出了“堅持發展和安
全并重、促進創新和依法治理相結合的原則,采取有效措施鼓勵生成式人工智能創新發展,對生成式人工智能服務實行包容審慎和分類分級監管”的基本原則。
??我國要在生成式人工智能這一領域有所突破創新,一定要有相對寬松的法律政策環境和技術生態建設,吸取傳統信息產業領域軟件和芯片技術“受制于人”
窘境的教訓,利用我國獨有的數據紅利以及政策環境,快速形成自主可控的生成式人工智能基礎技術體系。
??生成式人工智能所涉及的
??知識產權風險
??生成式人工智能數據訓練的需求,體現在數據數量、多樣性、質量、領域特定性、多模態性、實時性、長期演進性、平衡性、合規性以及多語言性等方面。
滿足這些需求,可以幫助生成式人工智能模型更好地適應各種場景和任務,提高其性能和可應用性。
??生成式人工智能的數據來源合法性,主要是指生成式人工智能收集的數據是否以合法、正當的方式取得,是否無損數據權益人的權益,是否取得相關知識產
權所有者的同意,在處理個人信息時是否取得了個人信息主體或其他數據權利人的同意等。
??生成式人工智能的數據來源主要分為兩個部分:第一部分為生成式人工智能的訓練數據庫,內容幾乎涵蓋所有能收集到的人類數字化信息,包括公共數據、
網絡信息(文本、圖片、音視頻)、數字化圖書、自媒體對話數據集、報刊雜志、科學論文等;第二部分為生成式人工智能在服務用戶的過程中所收集和輸出的
信息,也就是人工智能合成數據。第一部分的數據收集往往可能遭遇知識產權瓶頸;第二部分的數據收集的傳統知識產權風險較少。
??數據庫訓練的不同來源有不同的知識產權法律風險,可歸納為以下三個方面:一是來自于公有領域的內容,本身已經不存在著作權財產權保護問題,但會涉
及署名權、修改權等人身權問題;二是通過與著作權人一對一簽訂授權協議或者通過著作權集體管理機構合法授權獲得的內容,但這部分內容通常也難以做到百
分百的準確授權;三是利用“爬蟲”技術爬取的網絡信息,這也是生成式人工智能技術最常用的數據收集手段,其爬取的內容受網絡爬蟲協議條款約束,應視其
具體使用目的和對象判斷是否合法,若出于商業產品開發使用目的,一般會受到限制。
??在訓練數據庫的輸入階段和輸出階段,最大的著作權侵權風險是侵犯復制權和改編權。在輸入階段,如果將大量受著作權保護的作品用來訓練人工智能,這
本身看似出于學習目的,實則最終服務于商業目的,很難使用現有的著作權合理使用制度規避侵權責任。在輸出階段,如果生成的內容與原作品在表達上構成實
質性相似,則可能侵犯復制權;如果在保留原作品表達的基礎上形成了新的表達,則可能涉及改編權問題。
??美國對人工智能研發過程中的知識產權問題,目前采取相對統一的價值指導和原則性規定予以處理,尚未出臺具體規范。出于推動人工智能創新、審慎立法、
防止法律與技術進步脫節等考量,美國對人工智能的規制采取“先產業發展后立法”模式,即在AI研發過程中不提及版權,而是依賴于社會輿論、企業自覺、司
法和行政系統的事后回應來解決知識產權爭議。2023年7月,美國七大AI企業與拜登政府簽署協議,承諾采取自愿監管措施管理AI技術開發的法律風險,包括展
開安全測試、為AI生成內容添加數字水印、制定透明的隱私與知識產權保護政策等。
??多元化解決生成式人工智能的
??知識產權難題
??解決生成式人工智能所涉及的知識產權難題,需要使用多種制度工具,建立多元化解決機制,打造一套綜合性解決方案。
??借用早期互聯網治理規則
??生成式人工智能的發展可類比互聯網治理,引入類似合理使用原則、避風港機制等規則。
??合理使用原則:擴展著作權法中的合理使用原則,明確生成式人工智能在數據訓練和輸出過程中的合理使用標準。鼓勵AI開發者在使用受版權保護的數據時,
使其行為符合合理使用的要求,如非商業性用途、適度復制、不侵犯原作品的市場價值等。美國《版權法》采用“四要素分析法”來判斷合理使用,把人工智能使
用作品解釋為訓練數據的“轉換性使用”,美國的司法實踐已經作了探討。我國《著作權法》規定了“個人使用”、“適當引用”和“科學研究”等合理使用情形
,但目前生成式人工智能的商業性應用難以符合這些規定。此外,還可適當擴展爬蟲技術使用的合理性,特別是對公開的網絡信息內容,只要其屬于通過搜索爬蟲、
在遵守爬蟲協議的前提下獲取的數據,則均可視為來源合法的數據。在這個過程中,爬蟲技術無法識別被抓取內容的著作權問題,事實上,爬蟲海量抓取時也無法
逐一獲得版權授權(類似搜索引擎)。如果事后有權利人主張權利,可再根據具體情景判定善意侵權責任。
??避風港機制:避風港機制建立在網絡服務提供商和內容平臺與用戶之間共同承擔責任的基礎上。類比到生成式人工智能領域,可以探索建立AI開發者與用戶之
間的責任分擔機制。避風港機制要求網絡服務提供商和內容平臺主動采取措施來監測和清除違法內容。在生成式人工智能的發展中,開發者應當建立有效的自我監
管機制,定期自查模型的輸出內容,以確保符合合規要求。類似避風港的投訴處理機制也可以在生成式人工智能的領域內建立。允許用戶和權利人向AI開發者提出
投訴,并及時處理和回應投訴,有助于解決潛在的違法和侵權問題。避風港機制還要求網絡服務提供商和內容平臺公布其對違法內容的審核標準和處理措施。在生
成式人工智能的發展中,開發者應當公開透明地向用戶和社會說明模型輸出內容的規范和審核機制。
??通過集體管理組織解決授權難題
??著作權集體管理是目前法律框架下解決大量權利許可的一種比較可行的辦法,也是國際通行的做法。我國目前已有音樂、音像、文字、攝影和電影五個著作權
集體管理組織。人工智能研發機構可以通過這些著作權集體管理組織對特定作品進行著作權集體授權。我國《著作權集體管理條例(修訂草案征求意見稿)》第四
條也有提及。
??在生成式人工智能訓練數據的著作權授權過程中,AI開發者可以通過著作權集體管理組織獲得某一領域的作品授權,充分發揮著作權集體管理的保障效能,減
少開發者的數據合法性風險。即使在無法判斷某一作品權利人是否系著作權集體管理組織會員的情況下,也可以通過延展代理機制保證權利人的獲酬機會,表達人
工智能服務提供者尊重著作權的善意。
??利用開放授權的數據資源
??開放授權機制源于計算機軟件領域的開源許可證,是一種對世的著作權開放授權聲明,通過許可證約定使用者的權利和義務,目的是打破一對一的低效授權。
在遵循許可證條件的情況下,使用者可以自由、免費地使用和修改作品。這種開放授權機制后來擴展到文檔、圖片、音視頻領域。知識共享許可協議(Creative
Commons license,簡稱CC協議)為傳統作品的版權授權開辟了一條新路。
??開放授權的共同點是:承認著作權,要求署上原作者或著作權持有人的姓名,這是授權最基本的限制;允許免費的私人使用和商業使用;允許使用者修改及修
改后再發布;免責聲明:原作者或著作權持有人不承擔作品使用后的風險及產生的后果;終止授權:一旦違反開放授權條件時,終止一切授權,回歸傳統的知識產
權保護。
??以主流的深度學習框架為例,目前,人工智能軟件技術開發都使用開源許可證,主要有MIT許可證、BSD許可證、Apache許可證等。訓練數據庫也應多使用開
源資源,并推動更多科學作品的開放授權,推動生成式人工智能輸出數據的開放許可。
??利益平衡是我國知識產權法律體系的一項重要原則。人工智能訓練數據合法性問題,本質上是個人利益與公共利益沖突的體現。如果缺少利益平衡原則,在利益
分成時容易產生分歧。在公共利益方面,公眾受益于智能科技產品服務,由此享受到整體社會福祉的提升。同時,得益于傳統知識產權體系的保障,創作者能夠獲得
足夠的法律保護,其知識產權價值能夠保持長期穩定,知識產權成果能夠在市場流通賦值。當人工智能時代到來,傳統的知識產權規則再一次遇到挑戰,必須隨著利
益再平衡的需求進行調整。唯有如此,才能實現《辦法》的發展目標,推動人機良性互動的社會發展。
??(張平 作者為北京大學法學院教授)