由於網絡數據的抓取行為具有高效檢索、批量復制、低成本的特點,成為許多企業獲取數據資源的途徑。正因如此,壹旦抓取的數據設計了他人的權益,企業將面臨諸多法律風險。本文將從數據抓取行為的相關概述、數據抓取的相關立法規定,並結合近期數據抓取行為的典型案例,探討數據抓取行為的合規點。
壹.數據抓取行為概述
數據爬取行為是指按照設定的關鍵字、采樣對象等規則自動爬取萬維網信息的程序或腳本的行為。,並大規模復制抓取結果。
在用爬蟲爬取數據的過程中,能否把握住法律邊界,對企業來說是生死攸關的問題。近年來,大數據和人工智能的廣泛應用,以及對各種數據的剛性需求,使得數據行業徘徊在“灰色邊緣”。面對網絡數據安全的“強監管”形勢,做好數據合規和數據風險控制迫在眉睫。我國目前還沒有相關的法律法規專門對數據抓取進行規範,而是根據數據抓取的“質”的不同,主要通過《中華人民共和國著作權法》(以下簡稱《著作權法》)、《中華人民共和國反不正當競爭法》(以下簡稱《反不正當競爭法》)和《中華人民共和國反不正當競爭法》。
第二,梳理數據抓取相關的法律責任
(壹)承擔刑事責任
1,非法侵入計算機信息系統罪
《刑法》第二百八十五條第1款規定“非法侵入計算機信息系統罪”。違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。
典型案例:李等人非法侵入計算機信息系統(2018)川3424,第169號。
本案中,被告人李某利用“爬蟲”軟件抓取涼山州公安局交警支隊車管所公布的大量車牌號信息,然後利用該軟件以多線程提交、批量刷、驗證碼自動識別等方式突破系統安全防護措施,,並將抓取的車牌號提交“交通安全服務管理平臺”車輛報廢查詢系統進行比對,並根據反饋自動記錄未登記車牌號,建立全國未登記車牌號數據庫。之後編寫客戶端查詢軟件,李通過QQ、淘寶、微信等方式,以每月300-3000元的價格出售不同省市的數據庫訪問權限。
法院認為,被告人李文某為謀取私利,侵入國家事務領域的計算機信息系統,違反國家規定,被告人的行為已構成非法侵入計算機信息系統罪。
2.非法獲取計算機信息系統數據罪
《刑法》第二百八十五條第二款規定:違反國家規定,侵入前款規定以外的計算機信息系統,或者以其他技術手段獲取計算機信息系統中存儲、處理、傳輸的數據,或者非法控制計算機信息系統,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。同時,《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件適用法律若幹問題的解釋》第1條對“情節嚴重”作出具體規定:“非法獲取計算機信息系統的數據或者非法控制計算機信息系統的,應當認定為刑法第二百八十五條第二款規定的“情節嚴重”:(壹)獲取支付結算、證券交易等。(二)獲取第(壹)項以外的500組以上身份認證信息的;(三)非法控制計算機信息系統二十個以上的;(四)違法所得五千元以上或者造成經濟損失壹萬元以上的;(五)其他情節嚴重的。”
典型案例:李、王非法獲取計算機信息系統數據,非法控制計算機系統(2021)滬0104第148號。
本案中,公司在未經淘寶(中國)軟件有限公司授權的情況下,受李某指使,公司負責人被告人王某、高某等人共同協作,利用IP代理、“X-sign”簽名算法等手段,突破、繞過淘寶網的“反爬蟲”保護機制,進而通過數據抓取程序,非法抓取淘寶公司在淘寶直播過程中存儲的各類主播的播放地址和銷量。至案發時,蔡邑公司已將非法獲取的數據進行整合並出售牟利。違法所得人民幣22萬元。法院認為,被告人李、王、高等人構成非法獲取計算機信息系統數據罪,分別被判處二年六個月至壹年三個月不等的有期徒刑,並處罰金。
法院認為,被告人李文某為謀取私利,侵入國家事務領域的計算機信息系統,違反國家規定,被告人的行為已構成非法侵入計算機信息系統罪。
3、提供入侵、非法控制計算機信息系統的程序和工具。
《刑法》第二百八十五條第三款規定該罪為:提供專門用於侵入、非法控制計算機信息系統的程序、工具的,或者明知是用於侵入、非法控制計算機信息系統的程序、工具而向他人提供,情節嚴重的,依照前款的規定處罰。《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件適用法律若幹問題的解釋》也將此類程序、工具列為“具有規避或者突破計算機信息系統安全保護措施的功能,未經授權或者超越授權獲取計算機信息系統數據的”。
典型案例:陳暉犯侵入、非法控制計算機信息系統程序、工具罪(2021),粵0115,句首5號。
本案中,被告人陳暉為牟取非法利益,在浙江淘寶網絡有限公司旗下的大麥網平臺上編寫了該地區的爬蟲軟件進行搶票,並將該軟件以1888元至6888元不等的價格出售給他人,非法獲利120000元。09年7月65438日,被告人陳暉被公安機關抓獲。經鑒定,上述爬蟲軟件具有以非常規方式構造和發送網絡請求的功能,模擬用戶在大麥網平臺手動下單和購買商品;具有非常規手段模擬用戶身份識別和輸入圖形驗證碼的功能,可以非常規方式訪問大麥網平臺資源,繞過大麥的人機識別驗證機制。com平臺。
我們認為,被告人陳暉提供專門用於侵入、非法控制計算機信息系統的程序、工具,情節特別嚴重,依法應予懲處。
4.侵犯公民個人信息罪
刑法第253條規定了本罪。違反國家有關規定,向他人出售或者提供公民個人信息,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。違反國家有關規定,出售或者向他人提供在履行職責或者提供服務過程中獲取的公民個人信息的,依照前款的規定從重處罰。竊取或者以其他方法非法獲取公民個人信息的,依照第壹款的規定處罰。
典型案例:杭州魔蠍數據科技有限公司、周江祥、袁東侵犯公民個人信息罪(2020)浙0106刑初437號
本案中,被告人周江祥為公司法定代表人兼總經理,負責公司整體運營,被告人袁東為公司技術總監兼技術總監,負責相關程序設計。魔蠍公司主要與各類網貸公司和小銀行合作,為網貸公司和銀行提供需要貸款的用戶的個人信息和多維度的征信數據。方式是魔蠍公司在上述網貸平臺A**中嵌入前端插件it。網貸平臺用戶在網貸平臺APP借款時,借款用戶需要使用魔蠍公司提供的前端插件。輸入其通信運營商、社保、公積金、淘寶、JD.COM、薛鑫的賬號和密碼。com、征信中心等網站。蠍子公司的爬蟲程序經貸款用戶授權後,代替貸款用戶登錄上述網站,進入其個人賬戶,利用各種爬蟲技術,在上述企事業單位網站上抓取(復制)貸款用戶本人賬戶內的通話記錄、社保、公積金等數據。
法院認為,被告人杭州魔蠍數據科技有限公司以其他手段非法獲取公民個人信息,情節特別嚴重,其行為已構成侵犯公民個人信息罪。被告人周江祥、袁東分別是被告公司侵犯公民個人信息行為直接負責的主管人員和其他直接責任人員,其行為均已構成侵犯公民個人信息罪。
5.侵犯著作權罪
根據《刑法》第217條規定,以營利為目的,實施下列侵犯著作權或者與著作權有關的權利行為之壹,違法所得數額較大或者有其他嚴重情節的,處三年以下有期徒刑,並處或者單處罰金;違法所得數額巨大或者有其他特別嚴重情節的,處三年以上十年以下有期徒刑,並處罰金: (壹)未經著作權人許可,通過信息網絡向公眾復制、發行其文字作品、音樂、美術、視聽作品、計算機軟件等法律、行政法規規定的作品的;(二)出版他人享有專有出版權的圖書;(三)未經制作者許可,復制、發行、通過信息網絡向公眾傳播其制作的錄音錄像制品的;(四)未經表演者許可,復制發行其表演的錄音錄像制品,或者通過信息網絡向公眾傳播其表演的;(五)制作、銷售假冒藝術品的;(六)故意避開或者破壞著作權人為保護其作品、音像制品等著作權或者與著作權有關的權利所采取的技術措施。未經著作權人或者與著作權有關的權利人許可。
典型案例:譚某某等人侵犯著作權罪(2020)京0108刑初237號。
本案中,自2018年以來,在譚某某等12被告人的管理或運營下,被告人公司在未經科技有限公司、京幻網絡科技有限公司等權利公司許可的情況下,利用網絡爬蟲技術抓取正版電子書,推廣運營《鴻雁傳書》、《TXT全免費小說》等10余部。根據公安機關依法調取的涉案侵權作品的信息資料、賬戶交易明細、鑒定結論、廣告推廣協議等證據,經勘驗、檢查、鑒定,法院認定涉案作品侵犯了掌閱科技有限公司、北京幻想網絡科技有限公司享有專有信息網絡傳播權的文字作品4603件,侵犯了中文在線數字出版集團有限公司享有專有信息網絡傳播權的文字作品469件。
法院認為,公司及直接負責的主管人員秦某某等12被告人未經著作權人許可,以營利為目的,復制發行他人享有著作權的作品。情節特別嚴重,其行為已構成侵犯著作權罪,應予懲處。
(2)構成不正當競爭
我國《反不正當競爭法》第12條規定:“經營者通過網絡從事生產經營活動的,應當遵守本法規定。經營者不得利用技術手段,通過影響用戶選擇或者其他方式,實施下列妨礙或者破壞其他經營者合法提供的網絡產品或者服務正常運行的行為: (壹)未經其他經營者同意,在其合法提供的網絡產品或者服務中插入鏈接,強制跳轉目標;(二)誤導、欺騙或者強迫用戶修改、關閉或者卸載其他經營者合法提供的網絡產品或者服務;(三)惡意不兼容其他經營者合法提供的網絡產品或者服務;(四)妨礙或者破壞其他經營者依法提供的網絡產品或者服務正常運行的其他行為。
典型案例:深圳市騰訊計算機系統有限公司與騰訊科技(深圳)有限公司、某新媒體公司不正當競爭糾紛案。
本案中,兩原告是微信公眾平臺的運營者和管理者,被告新媒體公司是某網站的運營者,利用爬蟲技術抓取微信公眾平臺上的文章等信息內容數據,通過網站提供微信官方賬號信息搜索、導航、排名等數據服務。原報道稱,被告使用被控侵權產品,突破微信公眾平臺數據抓取的技術措施,並將其商業化,妨礙了平臺的正常運營,構成不正當競爭。被告辯稱,抓取並提供微信官方賬號數據服務的行為不構成不正當競爭,其抓取的文章不是騰訊的數據,而是微信微信官方賬號的用戶數據,其網站盈利較少。
法院認為,被告違反誠實信用原則,在用戶同意的情況下使用原告收集的具有商業價值的數據,足以實質性替代其他經營者提供的部分產品或者服務,破壞了公平競爭的市場秩序,屬於《反不正當競爭法》第十二條第二款第四項規定的妨礙和破壞其他經營者合法提供的網絡產品或者服務正常運行的行為,構成不正當競爭。
(3)行政責任
我國目前爬蟲行為的行政責任主要規定在《網絡安全法》中,其中涉嫌違反第二十七條規定:“任何個人或者組織不得從事非法侵入他人網絡、幹擾他人網絡正常功能、竊取網絡數據等危害網絡安全的活動;不得提供專門用於從事侵入網絡、幹擾網絡正常功能和防護措施、竊取網絡數據等危害網絡安全活動的程序和工具;明知他人從事危害網絡安全的活動,不得為其提供技術支持、廣告推廣、支付結算等服務。”,需要承擔壹定的行政責任。該法第六十三條還對違反第二十七條規定了具體的行政處罰措施,包括“沒收違法所得”、“拘留”、“罰款”。同時,對違反第二十七條規定受到處罰的相關人員也作出了崗位限制。
此外,《數據安全管理辦法(征求意見稿)》第16條對爬蟲的應用進行了限制:“網絡運營者應當以自動方式訪問、收集網站數據,不得妨礙網站的正常運行;這種行為嚴重影響了網站的運營。自動訪問采集流量超過網站日均流量三分之壹的,網站要求停止自動訪問采集時應當停止。”同時,第三十七條還規定了相應的行政責任:網絡經營者違反有關規定的,由有關部門給予公開曝光、沒收違法所得、暫停相關業務、停業整頓、關閉網站、吊銷相關經營許可證或者吊銷營業執照。
第三,數據抓取行為的合規準則
(壹)嚴格規範數據抓取行為
1.如果目標網站有反爬協議,則應嚴格遵守網站中設置的Robots協議。Robots協議的全稱(也稱為爬蟲協議、機器人協議等。)是“網絡爬蟲排除標準”,網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不可以抓取。協議尊重信息提供者的意願,維護其隱私權;保護其用戶的個人信息和隱私不受侵犯。機器人協議代表了壹種契約精神。互聯網公司只有遵守這個規則,才能保證網站和用戶的隱私數據不被侵犯。可以說,無論是從保護網民隱私的角度,還是從尊重版權內容的角度,遵守robots協議都應該是正規互聯網公司的無聲之舉,任何違反robots協議的行為都應該為此付出代價。
2、合理限定抓取的內容。在設置抓取策略時,要註意編碼禁止抓取視頻、音樂等清晰的版權作品數據,或者針對某些特定網站批量抓取用戶生成的內容;當使用和傳播捕獲的信息時,我們應該檢查捕獲的內容。如發現個人信息、隱私或他人商業秘密,應及時制止並刪除。對於內部系統數據,嚴禁入侵。
3.抓取行為不應該妨礙網站的正常運行。企業應合理控制抓取頻率,盡量避免抓取數據過於頻繁,特別是超過《數據安全管理辦法(征求意見稿)》明確規定的自動訪問和采集流量超過網站日均流量三分之壹的要求,應嚴格遵守網站要求,及時停止數據抓取。
(2)抓取個人信息時遵守合法、公正、必要的原則。
在中國,合法、公正和必要的原則散見於消費者保護法、網絡安全法、全國人大常委會關於加強網絡信息保護的決定和個人信息安全法等法律和規範中。擬抓取用戶個人信息的網絡運營者應嚴格遵守上述法律法規的規定,以個人用戶事先同意為原則,避免抓取超出用戶授權範圍的信息。同樣,數據接收方也應審查爬蟲獲取他人信息的合法性,以了解個人信息的主體是否同意享有個人信息數據。
(三)抓取商業數據時,謹防不正當競爭。
在數字內容領域,數據是內容產業的核心競爭資源,內容平臺處理的數據往往具有極高的經濟價值,因此非法抓取行為在壹些特定的應用場景下會被認為是不正當競爭。特別是如果雙方商業模式相同或相似,獲取對方信息會對對方造成直接損害,企業要重點防範。如果是這種情況,就要謹慎使用爬取來獲取被爬取網站的數據。
四。結論
隨著大數據時代的到來和數字技術的蓬勃發展,數據的價值日益凸顯。壹些企業利用數據抓取技術更高效地獲取和使用相關數據,從而彌補企業數據不足的現狀,支撐企業的商業發展。對於這些企業來說,“網絡爬蟲抓取信息數據怎麽合法?”“爬行數據時如何實現合規性?”這是壹個亟待解決的大問題。作為法律工作者,應從法律的專業角度為企業提供強有力的合規指導,為促進高新技術企業發展,進壹步提升國家科技創新能力做出應有的貢獻。