ARTICLES
專業(yè)文章
AIGC產(chǎn)品的生命周期透視(下)大模型與產(chǎn)品的運(yùn)行合規(guī)
引言
筆者此前已在《AIGC產(chǎn)品的生命周期透視(上)數(shù)據(jù)與代碼的授權(quán)合規(guī)》一文中就AIGC產(chǎn)品訓(xùn)練初期的數(shù)據(jù)內(nèi)容、數(shù)據(jù)集以及代碼的授權(quán)合規(guī)提出建議,本文將繼續(xù)探討大模型、AIGC產(chǎn)品的運(yùn)行合規(guī)路徑,從而通過上下篇將AIGC產(chǎn)品生命周期進(jìn)行完整梳理,剖析AIGC產(chǎn)品從0到1過程中的合規(guī)風(fēng)險(xiǎn),以期更好助力中國(guó)大模型和AIGC產(chǎn)品行業(yè)的蓬勃發(fā)展,為AIGC產(chǎn)品合規(guī)提供有益借鑒。
為幫助讀者全面理解AIGC產(chǎn)品的生命周期,在上篇中筆者以下圖為例將AIGC產(chǎn)品分為數(shù)據(jù)內(nèi)容;數(shù)據(jù)集;代碼、算法與程序;大模型;AIGC產(chǎn)品;生成內(nèi)容等6個(gè)重要風(fēng)險(xiǎn)合規(guī)要點(diǎn),本篇仍引用此圖繼續(xù)討論剩余3個(gè)合規(guī)風(fēng)險(xiǎn)要點(diǎn)。
一、大模型的運(yùn)行合規(guī)
1、大模型運(yùn)行的風(fēng)險(xiǎn)
從上圖顯示的技術(shù)流程來看,大模型本質(zhì)上已經(jīng)脫離數(shù)據(jù)集獨(dú)立運(yùn)行,在經(jīng)過模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練后,數(shù)據(jù)集中的相關(guān)內(nèi)容被“內(nèi)化"成大模型一部分,由AIGC產(chǎn)品接入后根據(jù)用戶輸入而生成內(nèi)容。所以,大模型可謂是AIGC產(chǎn)品形成流程中的核心權(quán)利節(jié)點(diǎn),既是進(jìn)一步開發(fā)AIGC產(chǎn)品、獲得收益的基石,但亦要首當(dāng)其沖地承擔(dān)各類合規(guī)風(fēng)險(xiǎn),是被數(shù)據(jù)內(nèi)容權(quán)利人維權(quán)的首要對(duì)象。例如自2023年6月起,作為GPT系列模型的所有人,Open AI接連遭遇作家集體訴訟案,訴其在未經(jīng)許可的情況下批量復(fù)制受版權(quán)保護(hù)的作品并輸入到大語(yǔ)言模型中;除此之外,Open AI及相關(guān)公司還遭遇了30億美金的集體訴訟,訴其未經(jīng)用戶同意將抓取的私人信息用于創(chuàng)建其人工智能產(chǎn)品。
從大模型內(nèi)部細(xì)分來看,大模型自完成預(yù)訓(xùn)練始,又可分為通用版本、微調(diào)版本、優(yōu)化修改形成Demo版本或衍生版本。例如在通用大模型上加入金融、法律、醫(yī)藥等行業(yè)的私有數(shù)據(jù)、參數(shù)進(jìn)行微調(diào),形成適用特定行業(yè)的垂直模型。當(dāng)然,此類衍生和微調(diào)同樣需遵守通用版本大模型的許可協(xié)議,從而避免侵害大模型權(quán)利的風(fēng)險(xiǎn)。此外,與前一環(huán)節(jié)的數(shù)據(jù)集訓(xùn)練不同,模型訓(xùn)練所使用的數(shù)據(jù)集往往采集自公開網(wǎng)絡(luò)數(shù)據(jù),而大模型微調(diào)環(huán)節(jié)使用的私有數(shù)據(jù)將涉及商業(yè)秘密、受競(jìng)爭(zhēng)法保護(hù)的數(shù)據(jù)權(quán)益等,例如Bloomberg-GPT收縮其通用數(shù)據(jù)集比例至48.73%,其他51.2%屬于新增的金融數(shù)據(jù),這包括收費(fèi)數(shù)據(jù)和私有數(shù)據(jù)。[1]
2、大模型運(yùn)行的合規(guī)路徑
(1)訓(xùn)練數(shù)據(jù)合規(guī)仍是根基
AIGC產(chǎn)品生成內(nèi)容的源頭實(shí)質(zhì)來自于原始數(shù)據(jù)集,大模型通過訓(xùn)練(也是模仿學(xué)習(xí)的過程)數(shù)據(jù)集內(nèi)容從而實(shí)現(xiàn)自我創(chuàng)作,但如果大模型生成內(nèi)容對(duì)于訓(xùn)練數(shù)據(jù)的依賴性較強(qiáng),即使經(jīng)過訓(xùn)練后其自我生成的內(nèi)容與數(shù)據(jù)集內(nèi)容仍存在相同或相似,就將可能導(dǎo)致侵權(quán)風(fēng)險(xiǎn)。由此,在上篇中筆者建議,控制訓(xùn)練數(shù)據(jù)內(nèi)容的合規(guī)是從根源上把控模型及后續(xù)產(chǎn)品合規(guī)的關(guān)鍵,例如通過原創(chuàng)數(shù)據(jù)內(nèi)容開展訓(xùn)練、使用獲得授權(quán)數(shù)據(jù)內(nèi)容、使用清洗和優(yōu)化的數(shù)據(jù)內(nèi)容等,從而彌補(bǔ)大模型本身依賴于數(shù)據(jù)集原始數(shù)據(jù)內(nèi)容的弊端。當(dāng)然,大模型若能夠?qū)崿F(xiàn)真正的“獨(dú)立創(chuàng)作",根據(jù)用戶輸入而生成內(nèi)容能與數(shù)據(jù)集內(nèi)容完全不同,亦或是能夠在不接觸(實(shí)際是不使用對(duì)應(yīng)數(shù)據(jù)內(nèi)容訓(xùn)練)的情形下而基于相同創(chuàng)意創(chuàng)作相同或相似作品,那么關(guān)于數(shù)據(jù)內(nèi)容能否被用于模型訓(xùn)練的問題就需要通過合理使用抗辯解決,關(guān)于該部分此前筆者在
二、AIGC產(chǎn)品的運(yùn)行合規(guī)
1、AIGC產(chǎn)品運(yùn)行的風(fēng)險(xiǎn)
(1)前端開發(fā)/SaaS(軟件即服務(wù))風(fēng)險(xiǎn)
經(jīng)過前端開發(fā),用戶可以直接使用程序或軟件獲得相關(guān)服務(wù),開發(fā)過程中如使用第三方代碼,受許可協(xié)議約束,該第三方代碼許可協(xié)議可能與訓(xùn)練代碼和大模型的開源協(xié)議產(chǎn)生沖突,并可能限制后續(xù)修改和商用。
(2)責(zé)任主體風(fēng)險(xiǎn)
AIGC產(chǎn)品提供者是2023年8月15日生效的《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱“《辦法》")規(guī)定的信息內(nèi)容責(zé)任主體,負(fù)有網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者責(zé)任和網(wǎng)絡(luò)信息安全義務(wù),需嚴(yán)格遵守《辦法》及《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》對(duì)個(gè)人信息處理、生成內(nèi)容標(biāo)識(shí)、投訴舉報(bào)渠道等服務(wù)規(guī)范的要求。
(3)上線備案風(fēng)險(xiǎn)
根據(jù)《辦法》第十七條,境內(nèi)AIGC產(chǎn)品如向社會(huì)公眾開放且“具有輿論屬性或社會(huì)動(dòng)員能力",應(yīng)在行政機(jī)關(guān)進(jìn)行算法備案。結(jié)合《具有輿論屬性或社會(huì)動(dòng)員能力的互聯(lián)網(wǎng)信息服務(wù)安全評(píng)估規(guī)定》及目前的備案實(shí)踐來看,絕大多數(shù)AIGC產(chǎn)品都負(fù)有備案義務(wù)。在網(wǎng)信辦于2023年6月及8月公布的兩批次備案信息共計(jì)151個(gè)算法中,不乏在線智能客服、商品三維圖像合成、文本轉(zhuǎn)語(yǔ)音等較為功能較為單一的算法。
(4)用戶參與風(fēng)險(xiǎn)
用戶輸入內(nèi)容可能存在知識(shí)產(chǎn)權(quán)侵權(quán)、涉密、違反法律法規(guī)等情形。如果該AIGC產(chǎn)品同步將用戶輸入內(nèi)容納入數(shù)據(jù)集或模型改進(jìn),則相關(guān)侵權(quán)內(nèi)容可能對(duì)既有的合規(guī)數(shù)據(jù)集造成“污染",增加數(shù)據(jù)集侵權(quán)風(fēng)險(xiǎn)和違法風(fēng)險(xiǎn)。
(5)數(shù)據(jù)安全風(fēng)險(xiǎn)
使用AIGC產(chǎn)品產(chǎn)生的用戶數(shù)據(jù)的使用、存儲(chǔ)、處理和分級(jí)管理應(yīng)符合數(shù)據(jù)合規(guī)要求。尤其值得注意的是,境內(nèi)第三方主體在其提供的AIGC產(chǎn)品嵌入境外大模型API的,涉及用戶數(shù)據(jù)及個(gè)人信息向境外傳輸,可能觸及《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》等跨境數(shù)據(jù)合規(guī)要求。
2、AIGC產(chǎn)品運(yùn)行的合規(guī)路徑
(1)沖突避免
正如筆者上篇詳細(xì)論證怎樣采取技術(shù)手段隔絕傳染性,開發(fā)者在前端開發(fā)中首先應(yīng)注意第三方許可協(xié)議是否與開源代碼和模型的許可協(xié)議沖突,同時(shí)注意協(xié)議是否限制修改和商用,發(fā)現(xiàn)相關(guān)沖突時(shí),采取封裝代碼、管道通信等技術(shù)方式進(jìn)行隔離,從而避免違約風(fēng)險(xiǎn)。
(2)履行行政義務(wù)
開發(fā)者應(yīng)按照《辦法》履行合規(guī)要求,與注冊(cè)其服務(wù)的使用者簽訂服務(wù)協(xié)議,明確雙方權(quán)利義務(wù)。并遵守個(gè)人信息處理、生成內(nèi)容標(biāo)識(shí)、投訴舉報(bào)、信息刪除機(jī)制和算法備案等制度要求,就人工智能服務(wù)生成內(nèi)容設(shè)置水印等顯著標(biāo)識(shí)、設(shè)立面向公眾的知識(shí)產(chǎn)權(quán)侵權(quán)投訴渠道和違法內(nèi)容投訴渠道、提前在行政機(jī)關(guān)進(jìn)行算法備案。
而若AIGC產(chǎn)品的底層使用的是境外大模型,優(yōu)先考慮將境外大模型本地化、或在境內(nèi)服務(wù)器進(jìn)行私有云部署,強(qiáng)化客戶數(shù)據(jù)安全,避免數(shù)據(jù)出境帶來的申報(bào)監(jiān)管成本。若需采用API嵌入,則應(yīng)審慎評(píng)估向用戶開放的功能可能收集的數(shù)據(jù)范圍、敏感度等,根據(jù)《數(shù)據(jù)安全法》《數(shù)據(jù)出境安全評(píng)估辦法》等承擔(dān)申報(bào)評(píng)估、與外方簽署標(biāo)準(zhǔn)合同等合規(guī)義務(wù)。
(3)防范污染
從最大程度規(guī)避風(fēng)險(xiǎn)的角度來看,建議AIGC產(chǎn)品盡量不要存儲(chǔ)用戶輸入內(nèi)容進(jìn)入訓(xùn)練數(shù)據(jù)集,以規(guī)避污染風(fēng)險(xiǎn)。2023年5月5日,Open AI表示,Open AI已有一段時(shí)間沒有拿付費(fèi)客戶的數(shù)據(jù)訓(xùn)練其GPT等大語(yǔ)言模型。近期行業(yè)內(nèi)也已有以小體量數(shù)據(jù)進(jìn)行模型訓(xùn)練的嘗試。2023年6月,微軟已開始使用規(guī)模更小的數(shù)據(jù)訓(xùn)練模型,盡管在數(shù)據(jù)集和模型大小方面可能會(huì)比競(jìng)品模型小幾個(gè)數(shù)量級(jí),但高質(zhì)量的小數(shù)據(jù)也能讓模型具備良好的性能。
退一步講,如商業(yè)考慮確有使用用戶輸入內(nèi)容進(jìn)行優(yōu)化訓(xùn)練的需要,則建議將用戶輸入內(nèi)容隔離于既有數(shù)據(jù)集單獨(dú)存儲(chǔ),并對(duì)用戶輸入內(nèi)容進(jìn)行一定“清洗"。同時(shí),在用戶協(xié)議中明確其輸入內(nèi)容將用于AIGC產(chǎn)品及其大模型的優(yōu)化,并在功能界面進(jìn)行明顯提示,要求用戶就其輸入內(nèi)容及行為的合法合規(guī)性自負(fù)責(zé)任。開發(fā)者可根據(jù)產(chǎn)品性質(zhì)借鑒Open AI模式,在MaaS、SaaS和API采用不同的信息收集和退出選項(xiàng)。例如對(duì)于通過API交互方式,適用“選擇-進(jìn)入(opt-in)"的模式,只有在用戶明確同意的情況下,才利用API交互內(nèi)容進(jìn)行相關(guān)服務(wù)的優(yōu)化和升級(jí);對(duì)于通過非API方式交互例如ChatGPT,則適用“選擇-退出(opt-out)"的模式,默認(rèn)使用用戶輸入內(nèi)容進(jìn)行模型訓(xùn)練和優(yōu)化,若用戶不同意則不再使用。[2]
三、AIGC產(chǎn)品生成內(nèi)容的運(yùn)行合規(guī)
1、AIGC生成內(nèi)容的風(fēng)險(xiǎn)
(1)用戶輸入情況不可控
用戶可能輸入違反法律法規(guī)和公序良俗、涉及仇恨、暴力類命令,或要求生成某一公眾人物的形象、聲音等,這些輸入可能導(dǎo)致生成內(nèi)容存在違法、侵犯人格權(quán)等情形。
最新的動(dòng)態(tài)表明,部分AIGC產(chǎn)品已具備編輯能力,即根據(jù)用戶的命令直接編輯用戶輸入的圖像、歌曲等,這可能侵犯原作品著作權(quán)人的修改權(quán)等權(quán)利。以圖像為例,如對(duì)圖像中特定元素進(jìn)行局部修改,例如對(duì)照片中的人臉進(jìn)行AI換臉、修改照片中的某品牌名稱為諷刺貶低性名稱等,也可能涉嫌侵犯自然人肖像權(quán)及法人名譽(yù)權(quán)、構(gòu)成不正當(dāng)競(jìng)爭(zhēng)等。
(2)生成內(nèi)容的著作權(quán)侵權(quán)爭(zhēng)議
AIGC生成內(nèi)容是否構(gòu)成著作權(quán)法意義上的“作品",能否作為作品獲得著作權(quán)法保護(hù),仍存在爭(zhēng)議,此前筆者在《以全球主流AIGC產(chǎn)品用戶協(xié)議為例梳理AIGC生成內(nèi)容的權(quán)利歸屬與使用限制》)。同時(shí)設(shè)置免責(zé)條款:(1)排除對(duì)生成內(nèi)容合規(guī)性作任何保證;(2)要求用戶就生成內(nèi)容承擔(dān)全部法律責(zé)任。開發(fā)者應(yīng)在產(chǎn)品功能界面進(jìn)行進(jìn)一步提示,充分履行告知義務(wù)。但如前所述,由于《辦法》已明確由AIGC產(chǎn)品提供者承擔(dān)網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者責(zé)任,僅憑免責(zé)條款可能難以完全免除AIGC產(chǎn)品提供者的責(zé)任,僅能起到盡可能靠近技術(shù)中立抗辯的功能,仍需AIGC產(chǎn)品提供者采取前述其他合規(guī)舉措,方可將AIGC生成內(nèi)容的侵權(quán)風(fēng)險(xiǎn)降到最低。
四、結(jié)語(yǔ)
人工智能生成服務(wù)在全球范圍內(nèi)面臨機(jī)遇和挑戰(zhàn),AIGC全流程合規(guī)有助于人工智能產(chǎn)業(yè)的蓬勃發(fā)展,也有助于內(nèi)容和知識(shí)領(lǐng)域的向好前行?!掇k法》的施行是對(duì)人工智能服務(wù)進(jìn)行法律規(guī)制的前序。筆者認(rèn)為,開發(fā)者應(yīng)重視AIGC產(chǎn)品的全流程合規(guī),確保數(shù)據(jù)和代碼的授權(quán)合規(guī),重視大模型和產(chǎn)品的運(yùn)行合規(guī),由此促進(jìn)人工智能生成內(nèi)容對(duì)社會(huì)的增益,維護(hù)社會(huì)的整體利益和可持續(xù)性發(fā)展。
[注]?
[1] Shijie Wu, et al. (2023). BloombergGPT: A Large Language Model for Finance, p6.?https://arxiv.org/abs/2303.17564
[2] https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance