ARTICLES
專業(yè)文章
AI公司出海系列(二):不可忽視的重點(diǎn)歐盟數(shù)據(jù)合規(guī)挑戰(zhàn)
在AI公司出海系列文章的第一篇,筆者分析并梳理了歐盟AI法案規(guī)制脈絡(luò)及五大關(guān)鍵要點(diǎn)(具體請(qǐng)見(jiàn)《AI公司出海系列(一) : 歐盟AI法案規(guī)制脈絡(luò)及五大關(guān)鍵要點(diǎn)》)。在針對(duì)AI部署體系化監(jiān)管的同時(shí),歐盟監(jiān)管機(jī)構(gòu)對(duì)于AI研發(fā)與投放中必然會(huì)遇到的數(shù)據(jù)合規(guī)問(wèn)題也保持了充分的關(guān)注,發(fā)布了一系列的框架性的咨詢性文件、指南、指引等指導(dǎo)性文件,并積極開(kāi)展了很多討論與研究工作。與此同時(shí),歐盟已經(jīng)開(kāi)始出現(xiàn)針對(duì)AI大模型訓(xùn)練及應(yīng)用場(chǎng)景的數(shù)據(jù)合規(guī)領(lǐng)域的舉報(bào)和監(jiān)管案例。這些活躍的立法和執(zhí)法動(dòng)態(tài),都在提醒有出海歐洲計(jì)劃的大模型公司需要重視歐盟在數(shù)據(jù)合規(guī)方面的要求,采取妥善方案應(yīng)對(duì)相關(guān)挑戰(zhàn)。
總體來(lái)說(shuō),AI大模型企業(yè)出海由于特殊的業(yè)務(wù)模式和強(qiáng)監(jiān)管的實(shí)際情況,所面臨的數(shù)據(jù)合規(guī)要求落地比此前更為復(fù)雜,與此同時(shí),出海歐洲的大模型公司要想在數(shù)據(jù)合規(guī)風(fēng)險(xiǎn)把控方面獲得較高的確定性,也存在一定困難。這一方面是因?yàn)锳I技術(shù)及應(yīng)用場(chǎng)景的廣泛且變化很快,業(yè)界實(shí)踐在一定程度上領(lǐng)先于監(jiān)管實(shí)踐;另一方面,因?yàn)锳I技術(shù)本身的特點(diǎn)及其在大模型訓(xùn)練中對(duì)于海量公開(kāi)信息或者已有業(yè)務(wù)數(shù)據(jù)的應(yīng)用,個(gè)人信息主體權(quán)益保護(hù)等問(wèn)題的實(shí)踐較為困難,各個(gè)公司的實(shí)踐做法并不統(tǒng)一,且相關(guān)合規(guī)解決方案是否能有效解決風(fēng)險(xiǎn)也有待觀察和討論。
盡管如此,歐盟層面及各成員國(guó)的數(shù)據(jù)監(jiān)管機(jī)構(gòu)近期都在積極探索人工智能領(lǐng)域的數(shù)據(jù)合規(guī)問(wèn)題。EDPB、EDPS、CNIL等均已出臺(tái)指南和/或指引,例如《人工智能審計(jì):人工智能審計(jì)清單》(Al Auditing:Checklist for Al Auditing)《基于大語(yǔ)言模型的聊天機(jī)器人使用清單》(Checklist for the use of LLM-based chatbots)等,EDPS發(fā)布的《關(guān)于生成式人工智能的數(shù)據(jù)合規(guī)指南》(Generative AI and the EUDPR: First EDPS Orientations for ensuring data protection compliance when using Generative AI systems)雖主要面向歐盟公共機(jī)構(gòu),但也仍非常具有參考價(jià)值。
本文將結(jié)合近期出臺(tái)的重要指引以及數(shù)據(jù)保護(hù)機(jī)構(gòu)公開(kāi)的調(diào)查報(bào)告等,回顧GDPR樹(shù)立的數(shù)據(jù)保護(hù)要求與基石,結(jié)合其他相關(guān)法律法規(guī)及AI大模型由于其技術(shù)與業(yè)態(tài)遇到的新挑戰(zhàn),梳理AI公司出海歐盟需要重點(diǎn)關(guān)注的5方面數(shù)據(jù)合規(guī)問(wèn)題,幫助AI公司在不確定性中盡量找到確定性,有效管控出海過(guò)程中可能遇到的數(shù)據(jù)合規(guī)風(fēng)險(xiǎn)和挑戰(zhàn)。
一、使用個(gè)人信息開(kāi)展AI大模型開(kāi)發(fā)、訓(xùn)練及迭代優(yōu)化的合法性基礎(chǔ)問(wèn)題
一般互聯(lián)網(wǎng)平臺(tái)收集使用個(gè)人信息主要在提供服務(wù)的界面(例如:注冊(cè)登錄、下單購(gòu)買等),AI大模型則在其提供服務(wù)和優(yōu)化鏈條的每一環(huán)都基本需要采集大量的數(shù)據(jù),且來(lái)源是多樣和不同的,這給AI大模型如何有效為每一環(huán)節(jié)、每一流向的數(shù)據(jù)采集建立堅(jiān)實(shí)的合法性基礎(chǔ)帶來(lái)了不少挑戰(zhàn)。探討這一話題則不可避免需再次回顧歐盟《通用數(shù)據(jù)保護(hù)條例》(下稱“GDPR”)第6條中所明確6大合法性基礎(chǔ),包括但不限于獲得個(gè)人信息主體的同意(consent),基于合法利益(legitimate interest),基于公共利益(public interest),履行法定義務(wù)所必需(legal obligation)等。在上述合法性基礎(chǔ)中,對(duì)于一般商業(yè)化的AI公司而言,獲得個(gè)人信息同意和基于合法利益則是最可能適用也是最相關(guān)的合法性基礎(chǔ):
(1)將個(gè)人信息主體同意作為合法性基礎(chǔ)
獲得個(gè)人信息主體同意是出海歐盟的企業(yè)最熟悉的合規(guī)基本功課之一了,但放到現(xiàn)在AI大模型業(yè)態(tài)中,仍需重新強(qiáng)調(diào)。企業(yè)不僅需首先梳理哪些場(chǎng)景適用這一合法性基礎(chǔ),還需考慮新的業(yè)態(tài)如何符合GDPR項(xiàng)下的對(duì)于有效同意精細(xì)的要求,尤其是如何充分告知。依據(jù)GDPR及EDPB的相關(guān)指引,企業(yè)如需獲得有效同意,那么需同時(shí)滿足4大關(guān)鍵要素:
a)個(gè)人信息控制者充分告知了個(gè)人信息主體;
b)個(gè)人信息主體做出的同意是明確的;
c)個(gè)人信息主體的同意是針對(duì)具體數(shù)據(jù)處理目的所做出的;
d)個(gè)人信息主體的授權(quán)同意是在自由的情況下做出的,沒(méi)有受到不當(dāng)?shù)挠绊懀ɡ纾汗椭髋c雇員之前通常認(rèn)為存在不平等的話語(yǔ)權(quán),從而存在不當(dāng)影響)。
(2)將合法利益作為合法性基礎(chǔ)
在很多情況下,個(gè)人信息控制者很難獲得GDPR所要求的有效同意,例如,在數(shù)據(jù)開(kāi)發(fā)階段使用網(wǎng)絡(luò)爬取的個(gè)人信息、使用其他業(yè)務(wù)條線中已掌握的個(gè)人信息等。如AI公司不能夠做到匿名化此類數(shù)據(jù)或者大模型的開(kāi)發(fā)確實(shí)需要非匿名化的個(gè)人信息,那么則需考慮其他合法性基礎(chǔ),而實(shí)踐中我們注意到被AI公司援引最多的則是合法性基礎(chǔ),即為了滿足個(gè)人信息控制者或者其他第三方的合法利益。
對(duì)于大部分的AI公司而言,將合法利益作為無(wú)法獲得同意之外的合法性基礎(chǔ)似乎是最佳方案,但歐盟本身對(duì)于是否確實(shí)有合法利益的審查是非常審慎的。歐盟法院(CJEU)在過(guò)往案件的審理中已建立成熟的“三階層”審查機(jī)制,合法利益在實(shí)踐中也頻頻遭遇挑戰(zhàn)。例如,在數(shù)字權(quán)利非政府組織Noyb向歐盟11個(gè)數(shù)據(jù)保護(hù)監(jiān)管機(jī)構(gòu)發(fā)起的對(duì)Meta AI的投訴中,就將Meta AI使用合法利益作為收集處理用戶數(shù)據(jù)的合法性基礎(chǔ)作為違法行為之一[1]。就這一問(wèn)題的詳細(xì)分析,我們將在本系列的后續(xù)文章中,結(jié)合更多AI公司的實(shí)際做法來(lái)進(jìn)行解讀。
不得不提示的是,如涉及收集處理敏感個(gè)人信息,還需注意,敏感個(gè)人信息的處理是原則上被禁止的,除非滿足GDPR所明確的例外情況。
二、如何落實(shí)數(shù)據(jù)準(zhǔn)確性原則?數(shù)據(jù)標(biāo)注如何開(kāi)展??
數(shù)據(jù)準(zhǔn)確性原則是GDPR的基石性原則,要求所梳理的數(shù)據(jù)應(yīng)是準(zhǔn)確、最新的。這一原則在AI大模型使用大量數(shù)據(jù)進(jìn)行訓(xùn)練這一特點(diǎn)之下顯得尤為重要,與AI大模型的準(zhǔn)確性及歐盟AI法案中重點(diǎn)提及的數(shù)據(jù)質(zhì)量要求息息相關(guān)。在實(shí)踐中,AI大模型開(kāi)發(fā)者主要通過(guò)標(biāo)注來(lái)確保所使用數(shù)據(jù)的準(zhǔn)確性,標(biāo)注的具體標(biāo)準(zhǔn)既要考慮業(yè)務(wù)與技術(shù)需要,也需控制操作的可實(shí)踐性,而標(biāo)注的開(kāi)展既可能使用自動(dòng)化工具,也可能通過(guò)人工標(biāo)注來(lái)實(shí)現(xiàn)。由此可見(jiàn),在通過(guò)管理數(shù)據(jù)標(biāo)注的要求確保數(shù)據(jù)準(zhǔn)確性的過(guò)程中需關(guān)注較為綜合的風(fēng)險(xiǎn)來(lái)源。
CNIL在其發(fā)布的《AI系統(tǒng)開(kāi)發(fā)的數(shù)據(jù)保護(hù)指南》系列文件中專門提及了所建議的確保標(biāo)注質(zhì)量的一些措施,可作為有益參考。具體可以分為以下兩方面:
(1)建立體系化的標(biāo)注流程與標(biāo)準(zhǔn)
體系化的標(biāo)注流程可以理解為標(biāo)準(zhǔn)全生命周期標(biāo)準(zhǔn)化管理,包括最為核心的標(biāo)注標(biāo)準(zhǔn)的建立,標(biāo)注人員數(shù)據(jù)訪問(wèn)權(quán)限的設(shè)置,人工干預(yù)和調(diào)整的機(jī)制,標(biāo)注驗(yàn)證和核查的流程,標(biāo)注操作日志等記錄文件的保存與追蹤等。
(2)引入論理委員會(huì)進(jìn)行綜合評(píng)估與督導(dǎo)
CNIL建議,作為良好實(shí)踐,可以組織建立由多學(xué)科背景專家成立的倫理委員會(huì),由倫理委員會(huì)參與標(biāo)注標(biāo)準(zhǔn)的建立與實(shí)施,并加入決策數(shù)據(jù)標(biāo)注與處理方案的過(guò)程。
結(jié)合目前中國(guó)AI大模型開(kāi)發(fā)的實(shí)踐,我們理解很多數(shù)據(jù)標(biāo)注工作的開(kāi)展也通過(guò)外包給第三方供應(yīng)商來(lái)實(shí)現(xiàn)更好的成本控制。如通過(guò)外包的方式進(jìn)行數(shù)據(jù)標(biāo)注,那么在實(shí)踐中,實(shí)際上開(kāi)發(fā)者還應(yīng)該注意采取足夠的合同約束和技術(shù)安全保障措施,確保第三方供應(yīng)商能夠充分實(shí)踐標(biāo)注流程與標(biāo)準(zhǔn),同時(shí)也確保第三方人員訪問(wèn)和操作時(shí)不會(huì)造成重大的數(shù)據(jù)安全事件。結(jié)合數(shù)據(jù)安全保護(hù)的實(shí)戰(zhàn)經(jīng)驗(yàn),這類措施可能包括建立單獨(dú)的操作網(wǎng)絡(luò)和/或物理空間、對(duì)于關(guān)鍵人員進(jìn)行背調(diào)、簽訂保密協(xié)議等。如果第三方位于境外,還需重點(diǎn)關(guān)注數(shù)據(jù)跨境傳輸?shù)囊蟆?/p>
三、在使用個(gè)人信息開(kāi)展AI大模型開(kāi)發(fā)、訓(xùn)練等過(guò)程中,何時(shí)及如何開(kāi)展DPIA??
數(shù)據(jù)保護(hù)影響評(píng)估(Data Protection Impact Assessment, 簡(jiǎn)稱“DPIA”)是GDPR所明確的一項(xiàng)專項(xiàng)合規(guī)機(jī)制,要求數(shù)據(jù)控制者在特定場(chǎng)景下對(duì)數(shù)據(jù)處理活動(dòng)進(jìn)行評(píng)估,并制定風(fēng)險(xiǎn)緩釋措施(如需),衡量及控制對(duì)于個(gè)人信息的風(fēng)險(xiǎn)。結(jié)合GDPR第35條的規(guī)定,歐盟在關(guān)于DPIA的指南[2]中進(jìn)一步細(xì)化了需要開(kāi)展DPIA的場(chǎng)景。EDPB指出,數(shù)據(jù)處理活動(dòng)如果滿足以下兩個(gè)因素及以上,就應(yīng)開(kāi)展DPIA:
(1)開(kāi)展對(duì)于個(gè)人信息主體有法律影響或類似顯著影響的自動(dòng)化決策;
(2)進(jìn)行評(píng)估或打分活動(dòng),包括但不限于用戶畫(huà)像等;
(3)進(jìn)行體系化監(jiān)控;
(4)收集敏感數(shù)據(jù)或高度個(gè)人化的數(shù)據(jù);
(5)大規(guī)模收集個(gè)人數(shù)據(jù);
(6)收集弱勢(shì)群體(例如未成年人)的個(gè)人數(shù)據(jù);
(7)交叉或組合數(shù)據(jù)集;
(8)創(chuàng)新使用或應(yīng)用新技術(shù)或解決方案;
(9)數(shù)據(jù)處理活動(dòng)可能會(huì)影響個(gè)人信息主體行權(quán)或使用相關(guān)服務(wù)或履行相關(guān)合同。
AI大模型的開(kāi)發(fā)、優(yōu)化流程可能涉及上述的多個(gè)因素,特別是第5項(xiàng)、第7項(xiàng)、第8項(xiàng),如果AI大模型所對(duì)應(yīng)的產(chǎn)品涉及未成年人等特定人群服務(wù),還大概率落入上述第4項(xiàng)所描述的范疇,因此大概率需要開(kāi)展DPIA。
就DPIA的具體開(kāi)展而言,GDPR并沒(méi)有提供固定的方法論,而是提倡應(yīng)依據(jù)具體的場(chǎng)景來(lái)開(kāi)展風(fēng)險(xiǎn)評(píng)估,并采取措施緩釋風(fēng)險(xiǎn)。企業(yè)在開(kāi)展DPIA時(shí)可尋求專業(yè)機(jī)構(gòu)的協(xié)助。如在此前的業(yè)務(wù)經(jīng)營(yíng)中已開(kāi)發(fā)了成熟的DPIA流程與評(píng)估模板,仍應(yīng)結(jié)合AI大模型的具體場(chǎng)景進(jìn)行評(píng)估要素的優(yōu)化與調(diào)整。
盡管從發(fā)生風(fēng)險(xiǎn)的可能性而言,DPIA的缺失并不容易查知,但DPIA是GDPR所構(gòu)建的合規(guī)體系中一項(xiàng)重要的工具。此外,在執(zhí)法實(shí)踐中,我們也注意到,企業(yè)如被調(diào)查,發(fā)生違規(guī)事件和/或數(shù)據(jù)安全事件,歐盟的數(shù)據(jù)保護(hù)監(jiān)管機(jī)構(gòu)會(huì)將企業(yè)是否開(kāi)展過(guò)事前的DPIA作為一個(gè)檢查項(xiàng)進(jìn)行考慮。例如,瑞典數(shù)據(jù)保護(hù)機(jī)構(gòu)(IMY)在2023年11月對(duì)厄斯特松德市兒童和教育委員會(huì)做出的處罰中特別強(qiáng)調(diào),委員會(huì)在未事前開(kāi)展DPIA的情況下就將Google Workspace集成至自己的系統(tǒng),導(dǎo)致對(duì)于兒童的個(gè)人信息主體權(quán)益造成很大的潛在風(fēng)險(xiǎn),違反了GDPR第35條第(1)款,對(duì)其處以約20萬(wàn)人民幣的罰款。除此之外,西班牙、希臘、荷蘭、意大利等多國(guó)都有將企業(yè)未開(kāi)展DPIA作為處罰原因的案例。AI產(chǎn)品和服務(wù)目前是歐盟監(jiān)管的重點(diǎn)與熱點(diǎn),中國(guó)企業(yè)出海也特別容易受到關(guān)注,因此,DPIA不僅是一項(xiàng)內(nèi)功,更是企業(yè)應(yīng)當(dāng)搭建的合規(guī)盾牌,這也是本文特別提及這一較為基礎(chǔ)的GDPR要求的原因。
四、個(gè)人信息主體權(quán)利如何保護(hù)?
依據(jù)GDPR,個(gè)人信息主體享有訪問(wèn)權(quán)、更正權(quán)、刪除權(quán)、限制處理權(quán)、數(shù)據(jù)可攜帶權(quán)、反對(duì)權(quán)和撤回同意權(quán)。本身權(quán)利及響應(yīng)路徑等的要求已較為成熟,但理論上而言,AI企業(yè)用于大模型訓(xùn)練的數(shù)據(jù)池中所涵蓋的個(gè)人信息實(shí)際上也需要考慮所對(duì)應(yīng)個(gè)人信息主體行權(quán)的要求,但這一業(yè)務(wù)場(chǎng)景下的具體實(shí)踐則顯得比較困難。就這一問(wèn)題,CNIL在其發(fā)布的指引(征求意見(jiàn)稿)中有所討論,并指出如果數(shù)據(jù)控制者確實(shí)能夠識(shí)別訓(xùn)練所用數(shù)據(jù)池所含個(gè)人信息所對(duì)應(yīng)的個(gè)人,那么應(yīng)回應(yīng)其行權(quán)請(qǐng)求。就一些重點(diǎn)權(quán)利的實(shí)現(xiàn)而言,我們結(jié)合目前出臺(tái)的指引(包括征求意見(jiàn)稿),提煉出了AI企業(yè)針對(duì)個(gè)人信息主體提出的訪問(wèn)權(quán)、刪除權(quán)及數(shù)據(jù)可攜帶權(quán)應(yīng)建立的響應(yīng)機(jī)制要求。因篇幅所限,在此暫不展開(kāi)。
總體來(lái)說(shuō),GDPR中個(gè)人信息主體權(quán)利保護(hù)的相關(guān)機(jī)制,對(duì)于數(shù)據(jù)控制者而言提出了非常高的要求,具體實(shí)踐中的尺度如何把握也暫不明朗。但不可不提的是,GDPR也設(shè)置了一些數(shù)據(jù)控制者可不響應(yīng)請(qǐng)求的豁免,包括但不限于:
(1)數(shù)據(jù)控制者無(wú)法識(shí)別數(shù)據(jù)主體的情況;
(2)依據(jù)GDPR第12條,行權(quán)請(qǐng)求是毫無(wú)根據(jù)或過(guò)度的,
(3)接收請(qǐng)求的機(jī)構(gòu)不是有關(guān)處理的數(shù)據(jù)控制者;
(4)請(qǐng)求是不被歐盟法律和/或成員國(guó)法律所允許的;
(5)……
當(dāng)然,在這種情況下,數(shù)據(jù)控制者也應(yīng)通知個(gè)人,告知其權(quán)利受到限制,并解釋拒絕行使權(quán)利請(qǐng)求的理由。
五、個(gè)人信息跨境傳輸合規(guī)問(wèn)題如何解決?
GDPR所樹(shù)立的數(shù)據(jù)跨境傳輸要求是全球數(shù)據(jù)跨境傳輸監(jiān)管框架的藍(lán)本之一,也是執(zhí)法最為活躍和深入的一項(xiàng)要求。對(duì)于出海的企業(yè)而言,由于算力中心和/或研發(fā)團(tuán)隊(duì)大概率位于中國(guó),不可避免可能會(huì)產(chǎn)生數(shù)據(jù)跨境傳輸?shù)膯?wèn)題。中國(guó)企業(yè)涉及將歐盟境內(nèi)所收集的個(gè)人信息傳輸至境內(nèi)的場(chǎng)景可能包括但不限于:
(1)使用歐盟居民的數(shù)據(jù)進(jìn)行大模型訓(xùn)練以開(kāi)發(fā)出更適合歐盟用戶的產(chǎn)品和/或服務(wù),但服務(wù)器等設(shè)施位于歐盟境外;
(2)使用歐盟境外團(tuán)隊(duì)進(jìn)行數(shù)據(jù)標(biāo)注、結(jié)果矯正、AI大模型迭代等工作;
(3)客服等團(tuán)隊(duì)位于歐盟境外;
(4)……
相較于其他行業(yè)而言,GDPR對(duì)于應(yīng)用AIGC的行業(yè)和經(jīng)營(yíng)場(chǎng)景下跨境傳輸數(shù)據(jù)的行為所提出的合規(guī)要求并沒(méi)有實(shí)質(zhì)性變化,因此我們?cè)诖瞬辉儋樖?。但如上所述,?duì)于AI企業(yè)而言,數(shù)據(jù)跨境傳輸?shù)膱?chǎng)景相較于傳統(tǒng)的互聯(lián)網(wǎng)企業(yè)而言更為多樣和廣泛。因此,企業(yè)需要依據(jù)自身出海的情況準(zhǔn)確識(shí)別涉及的業(yè)務(wù)場(chǎng)景,確保所采取的合規(guī)措施能夠較為全面地覆蓋,避免因跨境問(wèn)題導(dǎo)致大額處罰或?qū)τ跇I(yè)務(wù)有顛覆性的調(diào)查等情況。
總結(jié)
整體而言,我們結(jié)合業(yè)務(wù)形態(tài)及監(jiān)管態(tài)勢(shì),為AI出海企業(yè)梳理和總結(jié)了應(yīng)重點(diǎn)關(guān)注的要求,舉要治繁,綱舉目張,避免企業(yè)產(chǎn)生紅線性風(fēng)險(xiǎn)。上文結(jié)合業(yè)務(wù)模式對(duì)于重點(diǎn)關(guān)注合規(guī)要求所進(jìn)行的延伸分析與合規(guī)措施,希望能為AI企業(yè)出海部署成本可控、可操作的合規(guī)方案提供有益參考。在本系列的后續(xù)文章中,我們將結(jié)合實(shí)際案例,探討AI出海的具體實(shí)務(wù)場(chǎng)景所面臨的一些高頻問(wèn)題,例如隱私政策的設(shè)置策略、標(biāo)注問(wèn)題等等。
[注]?
[1] https://noyb.eu/en/noyb-urges-11-dpas-immediately-stop-metas-abuse-personal-data-ai
[2]?Guidelines on Data Protection Impact Assessment (DPIA) and determining whether processing is “l(fā)ikely to result in a high risk” for the purposes of Regulation 2016/679