ARTICLES
專業(yè)文章
以全球范圍AIGC訓練數據侵權訴訟為例梳理合理使用規(guī)則的適用
筆者在《以全球范圍AIGC訴訟為例梳理AIGC的侵權認定和權利限制規(guī)則 》一文中提及,近年來,世界范圍內人工智能(AI)訓練過程中的著作權侵權訴訟頻發(fā),著作權人通常指控人工智能平臺未經授權使用其作品進行大模型訓練進而侵犯其著作權(訓練階段一般涉及作品復制權)、或指控其構成不正當競爭等。值得注意的是,部分被告提出適用著作權法上的合理使用條款[1]進行不侵權抗辯,這在世界范圍內引起了討論。
正如著作權法的應有之義在于激勵創(chuàng)新,促進智力成果創(chuàng)作的繁榮,賦予著作權是促進創(chuàng)新的有力工具,但賦予著作權人的權利需要受到限制,否則會不恰當地減損社會公眾使用智力成果的公共利益,著作權法上的權利限制制度恰是平衡激勵創(chuàng)新和維護客觀公共利益的工具。若合理使用適用于人工智能訓練作品,則人工智能開發(fā)者在一定條件下不經著作權人授權即可使用他人作品用于大模型訓練而無需承擔侵權責任,一定程度上可以促進人工智能技術的發(fā)展;但如不恰當地擴張合理使用的范圍,可能會減損權利人利益進而破壞著作權法激勵創(chuàng)新的平衡機制。本文將總結全球范圍內人工智能使用他人作品訓練引發(fā)的著作權侵權案件,梳理各國的合理使用制度標準。
一、全球范圍內訓練數據侵權訴訟與合理使用抗辯
(一)美國
1、合理使用制度
美國《版權法》(17 U.S.C.)第108條至第122條之封閉式權利限制規(guī)定中沒有可針對性適用于人工智能訓練的規(guī)定,因此在美國發(fā)生的AI使用他人作品的侵權糾紛中,被告通常援引第107條規(guī)定的開放式合理使用進行不侵權抗辯。根據該條規(guī)定,美國法院在評估在任何特定情況下對作品的使用是否構成合理使用時,應考慮四個因素:(1)使用的目的和性質,包括此類使用是具有商業(yè)性質還是用于非營利教育目的;(2)受版權保護作品的性質;(3)所使用部分在受版權保護作品整體中所占的比例和實質性;以及(4)使用對受版權保護作品的潛在市場或價值的影響。以上四個因素會被法院綜合考量,以第一個因素為例,并不代表使用具有商業(yè)性質就一定不構成合理使用,也不代表使用具有非營利教育目的就一定構成合理使用。
根據《伯爾尼公約》、TRIPS協定和《世界知識產權組織版權條約》規(guī)定,著作權的限制和例外需滿足“三步檢驗法”標準,即在某些特殊情況下、不與作品的正常使用相沖突、沒有不合理地損害作者的合法權益。“三步檢驗法”作為國際通則被各個國家和地區(qū)的著作權法所接受和遵循,例如我國《著作權法》、歐盟《單一數字市場版權指令》、英國《版權法》、美國《版權法》的封閉權利限制規(guī)定均遵循了該等通則。而不同于較為封閉的權利限制與例外規(guī)定,美國的開放式合理使用具有較強的靈活性,在應對新作品傳播技術和商業(yè)模式挑戰(zhàn)時具有更大的適應性。例如在1999年的“圖像搜索引擎”案件[2]中,美國法院認定在互聯網的圖像搜索引擎中提供縮小圖像屬于合理使用。又如著名的某平臺數字圖書館案件[3]最終被認定為合理使用,在數字化作品與傳統版權業(yè)者利益相沖突時,法院認為對作品摘要的數字化復制構成轉換性使用(即符合前述第(1)個要件,轉換性程度越高,其他因素的考量比重可能較低)不屬于侵權。該開放式合理使用制度在其他法域也有應用,例如在2010年德國最高法判決的類似案件[4]中,法院認定制作搜索引擎有利于社會公眾獲得相關信息,以默示許可判定被告沒有侵權。
2、案例與評述
目前在多起AI使用他人作品訓練的著作權侵權案件中,具有廣泛適應性的開放式合理使用規(guī)定成為被告援引抗辯不構成侵權的有力工具。例如在Huckabee v. Bloomberg案中,被告在2024年3月22日提起駁回動議,辯稱其行為構成開放式合理使用,特別是作為財經新聞和分析服務提供商在非商業(yè)研究項目中使用版權作品訓練生成式AI模型更屬于合理使用的典型情形。5月3日,被告回應了原告對駁回動議的回復,認為法院以合理使用為由駁回版權侵權申訴有判例支持。[5]在Nazemian and Dubus v. N*案中,被告在2024年5月23日和7月1日的侵權抗辯中均引用開放式合理使用規(guī)定。[6]2024年6月24日,代表環(huán)球音樂、索尼音樂、華納音樂等大型唱片公司的美國唱片業(yè)協會RIAA起訴了AI音樂技術公司S公司等,理由是其在未經授權的情況下,非法使用了大量原告公司受版權保護的音樂作品作為AI大模型訓練數據,以提升其AI模型生成音樂的能力,從而構成了對原作品復制權、信息網絡傳播權等權利的侵犯。8月,S公司提交侵權答復,主張復制版權作品作為公眾不可見的后端技術流程的一部分,以創(chuàng)造最終不侵權的新產品,屬于版權法上的合理使用。[7]同日,S公司高管發(fā)表博文稱“我們根據在互聯網上可以找到的中高品質音樂來訓練我們的模型,其中確實包含受版權保護的內容,其中一些為大型唱片公司所有。但利用互聯網上的數據訓練人工智能模型,與孩子們在聽了搖滾樂后自己創(chuàng)作搖滾歌曲沒什么區(qū)別。學習不是侵權,過去不是,現在也不是?!?strong>[8]
筆者認為,在類似案件中,AI使用他人作品訓練的比例和體量通常較大,被告援引開放式合理使用的理由集中在使用目的和對版權作品潛在價值的影響兩個因素上,而轉換性和潛在市場影響判斷又通常與AI生成階段的表現(例如社會公眾獲取信息的便捷程度、生成內容與訓練內容的相似程度)相關,例如在Silverman v. OpenAI案件中,法院認為原告必須指出AI輸出內容與版權保護作品之間有實質相似性才足以證成替代性版權侵權。
總體而言,針對AI不同階段侵權問題的復雜性,美國法院持謹慎態(tài)度,基于部分原告未證明AI訓練刪除版權管理信息的事實損害而批準了被告的駁回動議,但尚未在開放式合理使用的判斷上作出明確回應。
(二)歐盟——以德國為例
1、合理使用制度
歐盟2001年《信息社會版權指令》(Directive 2001/29/EC)第5條第1款規(guī)定各成員國應當在國內法中規(guī)定臨時復制作為權利限制例外。符合該權利限制例外要求的臨時復制應當同時符合以下要件:(1)該復制是暫時的或附帶的;(2)該復制構成技術過程不可或缺的重要部分;(3)該復制僅為合法使用[9]作品或充當第三方之間通過網絡傳輸作品的中間人而傳輸作品之目的;且(4)該復制沒有獨立的經濟意義[10]。針對數據和機器學習的具體情形,歐盟2019年《數字單一市場版權指令》(Directive 2019/790)第3條規(guī)定了旨在科學研究目的的文本和數據挖掘(Text and Data Mining , TDM)[11]的例外,適用于研究組織和文化遺產機構為科學研究目的對其合法獲取的作品或其他內容進行文本和數據挖掘而進行復制和摘錄。第4條規(guī)定了一般情況下的TDM的權利限制例外,即為文本和數據挖掘目的復制和摘錄合法獲取的作品和其他內容,但一般情況下的TDM例外允許權利人聲明保留。該指令實際上賦予了規(guī)定條件下文本和數據挖掘行為的合法性,一般情況下的TDM例外不存在主體限制或使用技術目的限制,也可能同樣適用商業(yè)性使用目的行為。
2、案例與評述
2024年9月,德國漢堡地區(qū)法院一審判決AI訓練數據集的侵權案件。Kneschke是德國的一名攝影師,LAION是一家創(chuàng)建開發(fā)AI模型和數據集的德國非營利機構,其創(chuàng)建的數據集被Stable Diffusion、Midjourney等多家著名圖片生成AI平臺使用。數據集創(chuàng)建的大致流程是,對第三方現有的包含圖像鏈接和圖像描述的數據進行檢查,篩除掉其中圖像鏈接對應的圖像與圖像描述不匹配的項目后,由此創(chuàng)建新的數據集。這一流程中,LAION需要下載圖像鏈接對應的圖像進行分析。Kneschke擁有著作權的圖像包含在LAION創(chuàng)建的數據集內。Kneschke以LAION為被告提起訴訟,要求其停止復制其享有著作權的圖像以創(chuàng)建數據集。當地時間2024年9月27日,漢堡地區(qū)法院第10民事庭(案件編號310 O 227/23)駁回了原告的訴訟請求。
根據歐盟指令要求,《德國著作權法》(Urheberrechtsgesetz, “UrhG”)第44a條規(guī)定了臨時復制,條文內容與《信息社會版權指令》基本一致;同法第44b條規(guī)定了一般情況下的TDM例外,第60d條規(guī)定了用于科學研究的TDM例外。此三條權利限制規(guī)定正是本案被告援引抗辯不侵權的規(guī)定。法院認定被告在本案創(chuàng)建數據集的行為沒有違反三步檢驗法——創(chuàng)建數據集的行為本身并不能必然推導出其將生成相同或相似內容,后續(xù)使用是否為法律允許尚不能明確區(qū)分。筆者認為,法院由此為權利人沒有聲明保留的創(chuàng)建訓練數據集中的TDM行為提供了適用權利限制例外的空間。
針對科研目的的TDM例外,UrhG第60d條規(guī)定的TDM例外適用于以科學研究為目的開展TDM的非商業(yè)研究機構、將所有利潤投資于科研的研究機構或是由國家批準為公益開展活動的研究機構。但是,與私營企業(yè)合作、受其影響并將成果優(yōu)先供其適用的研究機構不在此限。法院認定LAION創(chuàng)建涉案數據集的行為屬于科學研究的范疇,涉案數據集的免費公開可以印證LAION的非商業(yè)目的。同時,法院認定LAION不屬于前述被排除在范圍外的、受私營企業(yè)影響的研究機構。綜上,根據第60d條,原告的訴訟請求被法院駁回。
筆者傾向于認為,本案實質上僅針對創(chuàng)建數據集的行為進行評價,其不涉及創(chuàng)建數據集之后使用數據集訓練人工智能的行為以及訓練后的人工智能生成內容的行為。法院在創(chuàng)建數據集階段的討論中,將訓練和生成階段的難以預見性排除到了適用限制例外的考慮之外,沒有考慮創(chuàng)建數據集的目的,也無法回答被告主張其訓練數據在生成階段具有轉化性的抗辯問題,同時本案被告具有科學研究性質的非商業(yè)目的,對于商業(yè)性質的AI產品參考意義其實是較為有限的。
(三)日本
筆者認為,在法律規(guī)定上,日本對適用合理使用制度較為樂觀。作為封閉式權利限制立法的典型,日本《著作權法》上的權利限制規(guī)定自1970年全面修訂以來即以適用條件規(guī)定詳盡著稱,但完全封閉的特點亦受到了理論和實務的批評,關于引進美國開放式合理使用規(guī)定或使權利限制規(guī)定更富有彈性的意見亦絡繹不絕。
日本2009年修改后的《著作權法》第四十七條之七首次規(guī)定了計算機信息解析過程中對復制權和演繹權的權利限制。日本2018年修改后的《著作權法》第三十條之四合并了原第四十七條之七的規(guī)定,該條規(guī)定不以享受作品中表達的思想或感情為目的(下稱“享受目的”)時,可以對作品進行信息解析等不伴隨自然人知覺識讀的計算機處理,前提是不能對著作權人利益造成不當損害。包含第三十條之四在內的部分權利限制規(guī)定加入這一前提被認為是對封閉式立法模式的緩和,這也為AI大模型的訓練提供了著作權權利限制的依據。但由于該規(guī)定僅能適用于訓練階段,因此其理論上仍不能適用于AI生成內容包含受著作權保護內容的情形。同時,對封閉式立法模式的緩和也意味著法院將享有更大的自由裁量權。日本文化廳指出,是否構成該前提的例外情形,具體應交由司法具體個案判斷,標準大致是判斷是否對作品原有市場造成了替代,并舉例稱目的本為信息解析用的數據庫商品不能依該條復制并進行信息解析。[12]
除此之外,日本2018年修改后新設的第四十七條之五允許了在計算機信息處理過程中創(chuàng)造出新的知識或信息的情況下進行包含所需信息的作品的定位信息(如作品標題、作者姓名以及鏈接等)搜索和信息解析并提供其結果。與第三十條之四相比,在AI場景下,第四十七條之五對部分AI生成內容階段的作品使用行為也進行了豁免,然而其在生成階段對作品的使用僅限于附隨性質的輕度使用(可能的場景如AI基于搜索結果總結時附帶地包含了作品的一小部分)。對于文生圖等場景中,生成的圖片仍與原作品實質性相似等情況,則難以適用本規(guī)定。
根據日本文化廳的總結[13],在生成式AI的場景下,第三十條之四和第四十七條之五的適用性如下,目前,日本尚無公開或已被報道的AI大模型侵權案例。
點擊可查看大圖
二、中國訓練數據侵權訴訟與合理使用抗辯
2024年6月20日,北京互聯網法院開庭審理了全國首例涉及AI繪畫大模型訓練著作權侵權案,[14]版權人對未經許可抓取其作品用于輸入AI模型的行為和使用版權作品作為物料訓練AI的行為提起訴訟。在該案中,被告的抗辯理由包括:一是原告主張權利的作品與涉案AI生成圖片不存在實質性相似;二是被告大模型訓練行為即使使用原告作品亦應構成合理使用,目前該案正在審理中。
目前,我國《著作權法》第二十四條仍屬于封閉式的合理使用規(guī)定,同時通過“不得影響該作品的正常使用,也不得不合理地損害著作權人的合法權益”規(guī)定將“三步檢驗法”轉化為國內立法,但第二十四條無法適用AI訓練問題的具體場景。2011年最高人民法院印發(fā)《關于充分發(fā)揮知識產權審判職能作用推動社會主義文化大發(fā)展大繁榮和促進經濟自主協調發(fā)展若干問題的意見》的通知第8條規(guī)定:“在促進技術創(chuàng)新和商業(yè)發(fā)展確有必要的特殊情形下,考慮作品使用行為的性質和目的、被使用作品的性質、被使用部分的數量和質量、使用對作品潛在市場或價值的影響等因素,如果該使用行為既不與作品的正常使用相沖突,也不至于不合理地損害作者的正當利益,可以認定為合理使用。”筆者認為該規(guī)定實際上引入了美國開放式合理使用的判斷因素,但在中國具體的合理使用的實際案件中適用前述最高法意見則可能不恰當地超出了法律規(guī)定的范疇。
基于目前國內立法的封閉限制,有觀點主張擴充封閉條款的規(guī)定,將人工智能數據訓練納入目前法律規(guī)定的合理使用的范疇,例如“AI善治論壇 人工智能法律治理前瞻”專題研討會發(fā)布《中華人民共和國人工智能法(學者建議稿)》第二十四條指出:“人工智能開發(fā)者使用他人享有著作權的數據進行模型訓練時,如果該使用行為與數據原本的使用目的或功能不同,并且不影響該數據的正常使用,也沒有不合理地損害數據權利人的合法權益,則該使用行為屬于數據合理使用。對于符合上述合理使用情形的數據使用行為,人工智能開發(fā)者可以不經數據權利人許可,不向其支付報酬,但是應當以顯著的方式標注數據來源?!?/p>
但筆者認為,AI數據訓練適用合理使用或權利限制制度的難點仍在于使用目的不同和不合理損害權利人的合法權益標準難以認定。這可能與AI生成階段的侵權性質緊密相關,特別是在AI生成內容與訓練數據未產生差異構成實質性相似(對作品原有市場造成了替代)的情形下,必然損害到訓練數據權利人的合法權益,該等情形下適用合理使用規(guī)則顯然不合理,依據三步檢驗法進行判斷最終仍需根據個案進行確定。
[注]?
[1]?《伯爾尼公約》、TRIPS協定和《世界知識產權組織版權條約》規(guī)定各成員國可以對著作權專有權利作出限制。因此各國規(guī)定了對著作權的限制和例外,但在名稱和立法體例上有一定區(qū)別。為了表述方便,除特指外,本文將不需要向著作權人取得許可,也不需要向其支付報酬即可使用作品的制度統稱“合理使用”。美國《版權法》第107條(17 U.S.C. 107)所規(guī)定的“Fair Use”本文則稱為“開放式合理使用”。美國《版權法》第108條至第122條還規(guī)定了其他封閉的、特定情形下的權利限制規(guī)定,例如第120條規(guī)定可以以攝影等圖片形式復制建筑作品。
[2] Kelly v. Arriba soft corp., 77F. Supp. 2d 1116 (D. C. cal. 1999).
[3] Authors Guild v. G*, Inc., No. 13-482x (2d Cir. 2015).
[4] BGH, IZR 69/08 of 29 April 2010 – Vorschaubilder Ⅰ.
[5] Huckabee v. Meta Platforms, Inc., 1:23-cv-09152, bakerlaw, from https://www.bakerlaw.com/huckabee-v-bloomberg/.
[6] Nazemian et al v. N* Corporation, 4:24-cv-0265x, bakerlaw, from https://www.bakerlaw.com/nazemian-v-nvidia-corporation/.
[7] UMG Recordings, Inc. v. S*, 1:24-cv-1161x.
[8]https://www.ithome.com/0/785/809.htm.
[9] 根據該指令序言第33段的解釋,合法使用指經權利人授權的使用或未受法律限制的使用。
[10] 這一要件并不是指不得以營利或商業(yè)使用為目的臨時復制作品。以復制目的僅為合法使用作品為例,由于作品具有特定的經濟價值,使用作品的行為必然將具有經濟意義。這一要件的著眼點在于該臨時復制行為是否產生了與合法使用作品的行為不同的或是可分割的經濟意義,或是產生了合法使用作品之外的經濟利益。參見 C?302/10第47-54段。
[11] 根據該指令第2條的定義條款,文本和數據挖掘意指旨在分析數字形式的文本和數據以生成包括但不限于模式、趨勢和相關性信息的任何自動化分析技術。
[12] 這本身亦是2018年修改前原第47條之七明文列舉的除外情形。文化庁著作権課「デジタル化?ネットワーク化の進展に対応した柔軟な権利制限規(guī)定に関する基本的な考え方」9頁(2019年10月24日)
[13] 基于日本文化廳參考資料翻譯整理,https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_07.pdf。
[14] 北京互聯網法院:《北京互聯網法院開庭審理全國首例涉及AI繪畫大模型訓練著作權侵權案》,https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQpGpGsA,2024年6月20日。