ARTICLES
專業(yè)文章
新基建主題系列——大數(shù)據(jù)從何而來,涉足大數(shù)據(jù)業(yè)務(wù)需留意的網(wǎng)絡(luò)爬蟲技術(shù)合規(guī)風(fēng)險(xiǎn)
?
?
網(wǎng)絡(luò)爬蟲織網(wǎng),為大數(shù)據(jù)分析捕捉信息
?
1、什么是網(wǎng)絡(luò)爬蟲
?
網(wǎng)絡(luò)爬蟲/爬蟲程序(Web Crawler),也稱網(wǎng)絡(luò)機(jī)器人(Web robots)、網(wǎng)絡(luò)游客、蜘蛛爬蟲,根據(jù)《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,這是一種按照指定規(guī)則,可自動(dòng)、批量從互聯(lián)網(wǎng)爬行抓取數(shù)據(jù)信息的程序。網(wǎng)絡(luò)爬蟲技術(shù)作為采集大數(shù)據(jù)的主要方式之一,和重要的大數(shù)據(jù)信息來源,已經(jīng)被廣泛并成熟地應(yīng)用于各種互聯(lián)網(wǎng)商業(yè)模式和使用場景,例如:新零售、社交、新聞、地圖、互聯(lián)網(wǎng)金融等。
?
基于不同的使用場景,網(wǎng)絡(luò)爬蟲可以分為通用爬蟲和專用爬蟲:
?
-
通用爬蟲主要應(yīng)用于搜索引擎服務(wù),其主要工作是無特定目標(biāo)隨機(jī)地抓取海量網(wǎng)頁內(nèi)容并下載到本地,儲(chǔ)存為鏡像快照并識別網(wǎng)頁文字關(guān)鍵詞;
?
-
專用爬蟲為爬取特定范圍的網(wǎng)頁而設(shè)計(jì),使用者可以設(shè)置一個(gè)爬取的主題或范圍,通過圖像識別、機(jī)器學(xué)習(xí)等技術(shù)的幫助,爬取互聯(lián)網(wǎng)上的特定內(nèi)容。
?
2、網(wǎng)絡(luò)爬蟲與大數(shù)據(jù)的聯(lián)系
?
網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)是大數(shù)據(jù)企業(yè)數(shù)據(jù)分析的重要源頭之一,例如:一些大數(shù)據(jù)分析企業(yè)開發(fā)的"購物平臺大數(shù)據(jù)分析軟件"會(huì)借助爬蟲技術(shù)大量收集購物平臺的信息,如買家關(guān)鍵詞搜索熱度、某關(guān)鍵詞引向的成交量、某關(guān)鍵詞產(chǎn)品的定價(jià)分布等等,當(dāng)收集到足夠多的原始信息樣本后,再借助大數(shù)據(jù)分析技術(shù),向其客戶提供商品流行趨勢、定價(jià)策略的分析;一些信用調(diào)查公司也是運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù),從渺如煙海的互聯(lián)網(wǎng)信息中識別并抓取特定主體的信用相關(guān)信息,進(jìn)而通過對大數(shù)據(jù)的分析,相應(yīng)得出信用結(jié)論。
?
網(wǎng)絡(luò)爬蟲合規(guī)風(fēng)險(xiǎn)分析
?
通過網(wǎng)絡(luò)爬蟲技術(shù)爬取到的數(shù)據(jù)信息有以下幾種分類方式:(1)按照數(shù)據(jù)可得性,可以分為公開網(wǎng)絡(luò)數(shù)據(jù)信息和非公開網(wǎng)絡(luò)數(shù)據(jù)信息(如需付費(fèi)觀看的信息,或是內(nèi)部數(shù)據(jù)庫信息);(2)按照數(shù)據(jù)歸屬主體,可以分為個(gè)人信息數(shù)據(jù)、企業(yè)商業(yè)數(shù)據(jù)和社會(huì)公開數(shù)據(jù)。
?
目前,我國還沒有已經(jīng)生效的針對應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)的規(guī)范性文件,從事大數(shù)據(jù)業(yè)務(wù)的企業(yè)在評估和分析其網(wǎng)絡(luò)爬蟲技術(shù)手段是否合規(guī),可以從以下幾個(gè)方向考慮:
?
1.?爬取數(shù)據(jù)的行為是否合規(guī);
2.?爬取的數(shù)據(jù)本身是否存在合規(guī)問題;以及,
3. 爬取數(shù)據(jù)之后對數(shù)據(jù)的使用及存儲(chǔ)等是否合規(guī)。
?
1、爬取數(shù)據(jù)的行為是否合規(guī)
?
網(wǎng)絡(luò)爬蟲技術(shù)采取的是"廣撒網(wǎng)"模式,爬蟲腳本自動(dòng)運(yùn)行后,在確定的爬取網(wǎng)站范圍內(nèi)對各網(wǎng)站上載的信息進(jìn)行遍歷。但基于商業(yè)利益等因素的考量,部分網(wǎng)站的部分/全部數(shù)據(jù)信息是不允許其他主體爬取的,因而會(huì)選擇通過制定和公布機(jī)器人協(xié)議(robots協(xié)議)或通過設(shè)置技術(shù)性障礙或通過平臺服務(wù)協(xié)議等方式來限制或禁止外部爬蟲訪問特定的數(shù)據(jù)信息。該等措施通常被稱為"反爬蟲安排"[1]。盡管存在反爬蟲安排,但有些企業(yè)還是會(huì)繞過或無視這些反爬蟲的規(guī)制,進(jìn)而給其自身帶來合規(guī)風(fēng)險(xiǎn),主要包括被認(rèn)定為未經(jīng)授權(quán)(包括網(wǎng)站授權(quán)和個(gè)人授權(quán))收集數(shù)據(jù)、導(dǎo)致網(wǎng)站無法正常運(yùn)營,構(gòu)成犯罪的,還可能需要承擔(dān)刑事責(zé)任(如非法侵入計(jì)算機(jī)信息系統(tǒng)罪、破壞計(jì)算機(jī)信息系統(tǒng)罪、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪等)。
?
為方便閱讀,我們將上述爬取數(shù)據(jù)的行為可能導(dǎo)致的企業(yè)合規(guī)風(fēng)險(xiǎn)以下表展示:
序號 |
合規(guī)風(fēng)險(xiǎn) |
法律責(zé)任 |
|
1 |
未經(jīng)網(wǎng)站授權(quán)收集數(shù)據(jù):若被爬取數(shù)據(jù)的網(wǎng)站并未開放或授權(quán)數(shù)據(jù)采集,以爬蟲方式收集數(shù)據(jù)信息的行為可能會(huì)違反機(jī)器人協(xié)議或侵犯網(wǎng)站其他相關(guān)權(quán)益 |
民事責(zé)任: (1)?侵犯著作權(quán)或其他民事侵權(quán)責(zé)任 (2)構(gòu)成不正當(dāng)競爭 |
司法實(shí)踐中,法院認(rèn)為,機(jī)器人協(xié)議應(yīng)當(dāng)被認(rèn)定為搜索引擎行業(yè)內(nèi)公認(rèn)的、應(yīng)當(dāng)被遵守的商業(yè)道德,是數(shù)據(jù)權(quán)利人針對爬蟲方的一種維權(quán)途徑,以明示禁止爬取行為;如果爬蟲方不遵守機(jī)器人協(xié)議,未經(jīng)網(wǎng)站授權(quán),其收集數(shù)據(jù)行為明顯不當(dāng),可能構(gòu)成侵權(quán)或不正當(dāng)競爭[2]。在無前述機(jī)器人協(xié)議的情況下,網(wǎng)站作為權(quán)利人,可以主張爬蟲方侵犯著作權(quán)[3]或構(gòu)成不正當(dāng)競爭[4]。? |
刑事責(zé)任 |
嚴(yán)重的未經(jīng)網(wǎng)站授權(quán)爬取數(shù)據(jù)行為可能會(huì)構(gòu)成犯罪,比如侵犯著作權(quán)罪[5]、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪[6]、非法侵入計(jì)算機(jī)信息系統(tǒng)罪。? |
||
2 |
未經(jīng)個(gè)人授權(quán)收集數(shù)據(jù):在爬蟲方通過網(wǎng)絡(luò)爬蟲技術(shù)收集個(gè)人信息時(shí),可能被界定為《網(wǎng)絡(luò)安全法》項(xiàng)下的網(wǎng)絡(luò)運(yùn)營者,進(jìn)而需根據(jù)《網(wǎng)絡(luò)安全法》和《信息技術(shù)個(gè)人信息安全規(guī)范》(GB/T 35273-2017)[7]等規(guī)定,在收集個(gè)人信息前,獲得個(gè)人信息主體的授權(quán)同意;間接獲取個(gè)人信息時(shí),應(yīng)向個(gè)人信息提供方了解個(gè)人信息主體是否授權(quán)同意轉(zhuǎn)讓、共享、公開披露等 |
民事責(zé)任 |
爬蟲方未經(jīng)個(gè)人授權(quán)收集自然人的姓名、出生日期、身份證件號碼、個(gè)人生物識別信息、住址、電話號碼等以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識別自然人個(gè)人身份的各種信息,或超范圍過度收集個(gè)人信息的,可能因違反《網(wǎng)絡(luò)安全法》、《信息技術(shù)個(gè)人信息安全規(guī)范》和/或《互聯(lián)網(wǎng)個(gè)人信息安全保護(hù)指南》,而被要求承擔(dān)侵權(quán)責(zé)任。 |
行政處罰 |
爬蟲方未經(jīng)個(gè)人授權(quán)收集個(gè)人信息的,或超范圍過度收集個(gè)人信息的,可能違反《網(wǎng)絡(luò)安全法》第四十一條,企業(yè)和直接負(fù)責(zé)的主管人員和其他直接責(zé)任人員分別被處以責(zé)令改正、警告、沒收違法所得、罰款,甚至責(zé)令暫停相關(guān)業(yè)務(wù)、停業(yè)整頓、關(guān)閉網(wǎng)站、吊銷相關(guān)業(yè)務(wù)許可證或者吊銷營業(yè)執(zhí)照。 ? 若爬蟲方取得的信息為非公開渠道的信息,涉及竊取或者以其他非法方式獲取個(gè)人信息,將可能面臨被沒收違法所得,并處罰款。 |
||
? |
? |
刑事責(zé)任 |
爬蟲方未經(jīng)個(gè)人授權(quán)收集能夠識別公民個(gè)人身份或者涉及公民個(gè)人隱私的個(gè)人信息的,可能被認(rèn)定為是"竊取或者以其他方法非法獲取公民個(gè)人信息",構(gòu)成侵犯公民個(gè)人信息罪[8]。? |
3 |
導(dǎo)致網(wǎng)站無法正常運(yùn)營[9]:因爬蟲導(dǎo)致網(wǎng)站負(fù)荷過大,大量正常用戶請求堵塞,訪問出現(xiàn)速度慢或部分頁面無法顯示等現(xiàn)象。? |
民事責(zé)任 |
如果使用爬蟲技術(shù)導(dǎo)致網(wǎng)站無法被正常訪問,可能構(gòu)成侵權(quán)并承擔(dān)對網(wǎng)站經(jīng)營者所遭受損失的侵權(quán)賠償責(zé)任。 |
刑事責(zé)任 |
如果使用爬蟲技術(shù)獲取信息被認(rèn)定為對計(jì)算機(jī)信息系統(tǒng)功能進(jìn)行干擾,造成其不能正常運(yùn)行,則可能觸犯破壞計(jì)算機(jī)信息系統(tǒng)罪。 |
||
?
2、爬取數(shù)據(jù)的合規(guī)性
?
爬蟲方除應(yīng)當(dāng)評估其數(shù)據(jù)爬取行為是否合規(guī)外,還應(yīng)當(dāng)評估和分析其爬取所得的數(shù)據(jù)本身是否可能侵犯他人的權(quán)利,例如:涉及個(gè)人信息保護(hù)、侵犯著作權(quán)或商業(yè)秘密。
侵犯個(gè)人信息與隱私權(quán) |
|
||
侵犯著作權(quán)/構(gòu)成侵犯著作權(quán)罪 |
|
||
侵犯商業(yè)秘密 |
若爬蟲方獲取的數(shù)據(jù)信息符合我國《反不正當(dāng)競爭法》項(xiàng)下對商業(yè)秘密的定義,即不為公眾知悉、具有商業(yè)價(jià)值并經(jīng)權(quán)利人采取相應(yīng)保密措施的商業(yè)信息,且這類爬蟲行為可能被認(rèn)定為是電子侵入或以其他不正當(dāng)手段獲取,則可能會(huì)被認(rèn)定為侵犯他人的商業(yè)秘密[10] |
?
3、爬取數(shù)據(jù)之后對數(shù)據(jù)的使用及存儲(chǔ)等是否合規(guī)
?
在爬蟲方已合規(guī)取得數(shù)據(jù)信息的情況下,企業(yè)還應(yīng)當(dāng)留意其后續(xù)使用、存儲(chǔ)該等數(shù)據(jù)信息是否合規(guī),例如:是否存在超范圍使用、侵犯著作權(quán)、不正當(dāng)競爭、信息泄露等問題。
超范圍使用爬蟲數(shù)據(jù) |
|
||
不正當(dāng)競爭 |
企業(yè)在使用通過爬蟲技術(shù)取得的同類網(wǎng)站相關(guān)信息且直接不加修改地使用數(shù)據(jù)時(shí),可能被認(rèn)定為搭便車、構(gòu)成混淆等不正當(dāng)競爭行為。在司法實(shí)踐中,法院認(rèn)為,通過爬蟲技術(shù)手段獲取其他同類網(wǎng)站付出人力、物力、財(cái)力和時(shí)間等經(jīng)營成本搜集整理的信息數(shù)據(jù)后,直接在自己的網(wǎng)站上展示并以此獲取商業(yè)利益的行為,因未付出勞動(dòng)、未支出成本、未做出貢獻(xiàn),屬于反不正當(dāng)競爭法理論中典型的"不勞而獲"和"搭便車"的行為;同時(shí),由于使用內(nèi)容完全一致,使用爬蟲數(shù)據(jù)的一方可能會(huì)對同類網(wǎng)站構(gòu)成實(shí)質(zhì)性替代,這種經(jīng)營模式違反公平原則和誠實(shí)信用原則,違反公認(rèn)的商業(yè)道德,構(gòu)成不正當(dāng)競爭[12] |
||
侵犯著作權(quán) |
爬蟲方在使用所收集的涉及他人著作權(quán)的數(shù)據(jù)內(nèi)容時(shí),應(yīng)注意不得實(shí)施抹去權(quán)利人的信息、對作品進(jìn)行不當(dāng)剪裁等行為[13],否則可能侵犯權(quán)利人的復(fù)制權(quán)、署名權(quán)、修改權(quán)、信息網(wǎng)絡(luò)傳播權(quán)等著作權(quán) |
||
未能保證爬蟲數(shù)據(jù)信息安全 |
企業(yè)在保存獲取的數(shù)據(jù)信息時(shí),爬蟲方應(yīng)當(dāng)嚴(yán)格遵循《網(wǎng)絡(luò)安全法》對網(wǎng)絡(luò)安全等級保護(hù)制度的要求、防止網(wǎng)絡(luò)數(shù)據(jù)泄露或被竊取、篡改,也應(yīng)當(dāng)符合存儲(chǔ)大數(shù)據(jù)的互聯(lián)網(wǎng)數(shù)據(jù)中心的建設(shè)標(biāo)準(zhǔn),采取技術(shù)措施和其他必要措施,保證其收集及保管的數(shù)據(jù)信息的安全 |
?
企業(yè)合規(guī)建議
?
1、作為爬蟲方
?
(1) 注意其他網(wǎng)站的機(jī)器人協(xié)議的具體內(nèi)容和限制;
(2) 嚴(yán)格管控?cái)?shù)據(jù)采集的范圍,不超范圍采集,當(dāng)涉及個(gè)人信息的需格外慎重;
(3) 使用過程中需要甄別爬蟲收集的信息的權(quán)屬,確保對信息權(quán)利人著作權(quán)、個(gè)人信息等的保護(hù),并確保不超范圍使用;
(4) 不得將爬蟲技術(shù)及采集到的數(shù)據(jù)信息用于不正當(dāng)競爭或其他缺乏合理性、合法性的用途;
(5) 當(dāng)抓取的信息侵犯其他方權(quán)益時(shí),應(yīng)及時(shí)通知相關(guān)方刪除、斷開或自行刪除、斷開使用該等侵權(quán)數(shù)據(jù)的鏈接;
(6) 在存儲(chǔ)爬蟲所收集的數(shù)據(jù)時(shí),應(yīng)當(dāng)注意信息安全。
?
2、作為反爬蟲方
?
(1) 組建專業(yè)的信息安全團(tuán)隊(duì);
(2) 編制合理的機(jī)器人協(xié)議,將其內(nèi)容合同化,同時(shí)注意不得利用機(jī)器人協(xié)議進(jìn)行不正當(dāng)競爭行為;
(3) 合理利用爬蟲技術(shù)監(jiān)控互聯(lián)網(wǎng)中的其他主體是否有不合理使用自己的數(shù)據(jù)信息的情況。
?
[注]?
[1] 通常而言,"反爬蟲安排"包括以下三類:
(1)?在IT支持團(tuán)隊(duì)中設(shè)置專門的反爬蟲團(tuán)隊(duì)并開發(fā)阻止爬蟲腳本自動(dòng)運(yùn)行的"墻",比如設(shè)置需要滑動(dòng)進(jìn)行驗(yàn)證或需要按次序點(diǎn)擊的驗(yàn)證碼等;在內(nèi)容格式加密上做文章,比如采取將關(guān)鍵數(shù)據(jù)轉(zhuǎn)為圖片,或采用JavaScript混淆技術(shù)等。
(2) 爬蟲的"潛規(guī)則",例如,爬蟲使用方主動(dòng)約束爬蟲的爬取吞吐量,避免因爬蟲造成的訪問量過載導(dǎo)致網(wǎng)站癱瘓 。
(3) 在網(wǎng)站中掛出機(jī)器人協(xié)議文件(robots.txt),該協(xié)議是網(wǎng)站的所有者通過明示的方式,對不同主體派出的爬蟲進(jìn)行授權(quán),寫明可訪問和不可訪問的文件信息而制定的爬蟲行為準(zhǔn)則。機(jī)器人協(xié)議并非也不能直接用技術(shù)手段阻止爬蟲進(jìn)行數(shù)據(jù)搜集,缺乏強(qiáng)制性,但業(yè)內(nèi)普遍認(rèn)為,制定機(jī)器人協(xié)議應(yīng)當(dāng)是行業(yè)內(nèi)的通行規(guī)則,沒有遵守協(xié)議的行為明顯不當(dāng),應(yīng)當(dāng)在發(fā)生爭議時(shí)承擔(dān)相應(yīng)的不利后果。
[2] 見"浙江泛亞電子商務(wù)有限公司訴百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司等侵犯著作權(quán)糾紛案"一審民事判決書,案號:(2006)一中民初字第6273號;"百度與奇虎公司不正當(dāng)競爭糾紛案"一審民事判決書,案號:(2013)一中民初字第2668號。
[3] 見"亞長城影視文化(北京) 有限公司與精倫電子股份有限公司侵犯影視作品信息網(wǎng)絡(luò)傳播權(quán)案",案號:(2014)鄂民三終字第00107號。
[4]?見"深圳市谷米科技有限公司與被告武漢元光科技有限公司、邵凌霜、陳昴、劉江紅、劉坤朋、張翔不正當(dāng)競爭"民事判決書,案號:(2017)粵03民初822號。
[5] 見"何超侵犯著作權(quán)案",案號:(2016)滬03刑終1號。
[6] 見"邵凌霜、陳昴、劉江紅、劉坤朋、張翔犯非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪案",案號:(2017)粵0305刑初153號。
[7] 國家標(biāo)準(zhǔn)化管理委員會(huì)及國家市場監(jiān)督管理總局已于2020年3月6日發(fā)布新版《信息安全技術(shù) 個(gè)人信息安全規(guī)范》(GB/T 35273—2020),但新版規(guī)范于2020年10月1日正式實(shí)施,目前仍需參考《信息技術(shù)個(gè)人信息安全規(guī)范》(GB/T 35273-2017)。
[8] 見"秦帥等侵犯公民個(gè)人信息罪案",案號:(2018)京0108刑初770號。
[9] 我國目前正研究出臺《數(shù)據(jù)安全管理辦法》,在已公布的征求意見稿中提出,網(wǎng)絡(luò)運(yùn)營者采取自動(dòng)化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;此類行為嚴(yán)重影響網(wǎng)站運(yùn)行,如自動(dòng)化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動(dòng)化訪問收集時(shí),應(yīng)當(dāng)停止。
[10] 見"北京微夢創(chuàng)科網(wǎng)絡(luò)技術(shù)有限公司與北京淘友天下技術(shù)有限公司等不正當(dāng)競爭案"一審民事判決書,案號:(2015)海民(知)初字第12602號。
[11] 參見http://finance.caixin.com/2019-10-22/101474132.html,"北京金融局摸排區(qū)內(nèi)大數(shù)據(jù)公司爬蟲業(yè)務(wù)"。
[12] 見"上海漢濤信息咨詢有限公司與愛幫聚信(北京)科技有限公司、愛幫聚信(北京)信息技術(shù)有限公司不正當(dāng)競爭糾紛一案"民事判決書,案號:(2010)海民初字第24463號。
[13] 在實(shí)踐中,有一種情形較為多見:視頻網(wǎng)站爬取其他網(wǎng)站的視頻信息,在自己的網(wǎng)站上提供播放服務(wù),或小說網(wǎng)站"盜取"正版小說網(wǎng)站的收費(fèi)作品,在自己的網(wǎng)站上免費(fèi)供網(wǎng)友閱讀,這些情形均可能涉及侵犯著作權(quán)人的信息網(wǎng)絡(luò)傳播權(quán)。
?