大模型訓(xùn)練數(shù)據(jù)合規(guī)探究
圖片
隨著《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱“暫行辦法”)、《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》(GB/T 45652-2025,以下簡(jiǎn)稱“安全規(guī)范”)等監(jiān)管法規(guī)的出臺(tái),企業(yè)在數(shù)據(jù)采集、處理和使用各環(huán)節(jié)都面臨著嚴(yán)格的合規(guī)考驗(yàn)。本文將分析不同來(lái)源訓(xùn)練數(shù)據(jù)的法律風(fēng)險(xiǎn),并提出相應(yīng)的建議。
訓(xùn)練數(shù)據(jù)的不同來(lái)源
訓(xùn)練數(shù)據(jù)的來(lái)源一般包括自采數(shù)據(jù)、自有數(shù)據(jù)、商業(yè)授權(quán)數(shù)據(jù)和開(kāi)源數(shù)據(jù)集。大模型訓(xùn)練數(shù)據(jù)的獲取途徑中,部分企業(yè)通過(guò)爬蟲(chóng)等技術(shù)手段從互聯(lián)網(wǎng)公開(kāi)渠道獲取訓(xùn)練數(shù)據(jù),但此類方式可能面臨多重法律風(fēng)險(xiǎn)。
▲CFP
首先,技術(shù)層面上,由于眾多網(wǎng)站通過(guò)“反爬蟲(chóng)安排”措施(包括robots協(xié)議、探嗅訪問(wèn)者信息軟件等)限制數(shù)據(jù)訪問(wèn)和采集,企業(yè)若繞過(guò)或違反前述技術(shù)限制,不僅可能構(gòu)成侵犯著作權(quán)、不正當(dāng)競(jìng)爭(zhēng)等民事侵權(quán)行為,嚴(yán)重情形還可能被追究非法侵入計(jì)算機(jī)信息系統(tǒng)罪、破壞計(jì)算機(jī)信息系統(tǒng)罪、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪等刑事責(zé)任。
其次,個(gè)人信息保護(hù)方面,未經(jīng)授權(quán)爬取或過(guò)度收集個(gè)人信息的行為可能違反《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》(以下簡(jiǎn)稱“個(gè)人信息保護(hù)法”)等,導(dǎo)致企業(yè)及其負(fù)責(zé)人面臨處罰。處罰包括責(zé)令改正、警告、罰款,甚至被責(zé)令停業(yè)整頓、吊銷營(yíng)業(yè)執(zhí)照,相關(guān)責(zé)任人還可能被禁止擔(dān)任企業(yè)高管及個(gè)人信息保護(hù)負(fù)責(zé)人。
再次,對(duì)于他人享有著作權(quán)的作品(如文本、圖像和網(wǎng)站布局等),若在保護(hù)期限內(nèi)(自然人作品為作者終生后50年,法人作品為首次發(fā)表后50年)未經(jīng)授權(quán)使用,則構(gòu)成侵權(quán),企業(yè)將面臨相關(guān)的知識(shí)產(chǎn)權(quán)訴訟風(fēng)險(xiǎn)。
實(shí)踐中,有些企業(yè)依賴自有數(shù)據(jù)豐富應(yīng)用場(chǎng)景,將企業(yè)經(jīng)營(yíng)過(guò)程積累的用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)用于模型訓(xùn)練,但在使用過(guò)程存在顯著的法律風(fēng)險(xiǎn)。當(dāng)企業(yè)將包含技術(shù)信息、經(jīng)營(yíng)信息等商業(yè)秘密的內(nèi)部數(shù)據(jù)用于模型訓(xùn)練時(shí),存在通過(guò)模型輸出泄露商業(yè)秘密的重大風(fēng)險(xiǎn)。尤其在公開(kāi)服務(wù)場(chǎng)景下,其他用戶通過(guò)精心設(shè)計(jì)的提示詞可能誘導(dǎo)模型泄露訓(xùn)練數(shù)據(jù)的敏感信息,導(dǎo)致企業(yè)商業(yè)秘密被非法獲取和使用。
對(duì)于員工個(gè)人信息的使用,若企業(yè)未經(jīng)員工明確同意即將內(nèi)部人事檔案、績(jī)效考核、健康檔案等員工個(gè)人信息用于模型訓(xùn)練,或超出必要范圍使用員工個(gè)人信息,不僅違反個(gè)人信息保護(hù)法的相關(guān)規(guī)定,還可能損害勞動(dòng)關(guān)系穩(wěn)定,引發(fā)勞動(dòng)爭(zhēng)議。此外,企業(yè)在日常經(jīng)營(yíng)中收集的用戶數(shù)據(jù),如消費(fèi)記錄、行為偏好、聯(lián)系方式等,若未在用戶協(xié)議中明確約定將相關(guān)數(shù)據(jù)用于模型訓(xùn)練,或未獲得用戶單獨(dú)授權(quán)同意便將數(shù)據(jù)用于訓(xùn)練目的,則可能因超出用戶授權(quán)范圍而承擔(dān)相應(yīng)的法律責(zé)任。嚴(yán)重時(shí)還可能面臨用戶集體訴訟,造成重大經(jīng)濟(jì)損失和聲譽(yù)損害。
向第三方數(shù)據(jù)供應(yīng)商購(gòu)買(mǎi)商業(yè)授權(quán)訓(xùn)練數(shù)據(jù)場(chǎng)景中,企業(yè)常面臨因盡職調(diào)查不足而產(chǎn)生的法律風(fēng)險(xiǎn)。在供應(yīng)商主體資質(zhì)方面,若未對(duì)數(shù)據(jù)供應(yīng)商的經(jīng)營(yíng)范圍、業(yè)務(wù)資質(zhì)、數(shù)據(jù)來(lái)源等進(jìn)行全面審查,可能導(dǎo)致從無(wú)合法數(shù)據(jù)處理資質(zhì)的供應(yīng)商處獲取數(shù)據(jù),或獲取來(lái)源不明的數(shù)據(jù),進(jìn)而承擔(dān)數(shù)據(jù)來(lái)源不合法的連帶責(zé)任。在合同權(quán)責(zé)劃分方面,若未在數(shù)據(jù)購(gòu)買(mǎi)合同中明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、安全保護(hù)措施、侵權(quán)責(zé)任承擔(dān)等核心條款,一旦發(fā)生數(shù)據(jù)泄露、質(zhì)量問(wèn)題或權(quán)屬爭(zhēng)議,企業(yè)可能因合同約定不明而無(wú)法向供應(yīng)商追責(zé)或主張賠償。
數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)中,若未要求供應(yīng)商提供數(shù)據(jù)的完整授權(quán)鏈條證明,或者未核實(shí)供應(yīng)商是否就個(gè)人信息的收集、使用取得了數(shù)據(jù)主體的授權(quán)同意,則可能面臨侵犯?jìng)€(gè)人信息權(quán)益的法律風(fēng)險(xiǎn)。
數(shù)據(jù)安全保護(hù)方面,若未在合同中明確要求供應(yīng)商對(duì)敏感數(shù)據(jù)進(jìn)行脫敏處理,或者未約定數(shù)據(jù)傳輸、存儲(chǔ)的具體安全標(biāo)準(zhǔn),可能因數(shù)據(jù)泄露等數(shù)據(jù)安全事故而承擔(dān)相關(guān)法律責(zé)任。
很多企業(yè)為了節(jié)約成本,會(huì)選擇使用開(kāi)源數(shù)據(jù)集進(jìn)行模型訓(xùn)練,但其面臨著因違反開(kāi)源許可協(xié)議而產(chǎn)生的法律風(fēng)險(xiǎn)。目前,主流的開(kāi)源數(shù)據(jù)集通常采用不同類型的開(kāi)源許可協(xié)議。每種協(xié)議對(duì)數(shù)據(jù)的使用范圍、條件和限制都有特定要求,若違反相關(guān)規(guī)定,可能引發(fā)侵權(quán)糾紛。其中,較為常見(jiàn)的開(kāi)源許可協(xié)議包括:CC(Creative Commons)系列協(xié)議,如CC BY要求在使用數(shù)據(jù)時(shí)必須注明原作者,CC BY-SA則額外要求使用者必須以相同方式共享,CC BY-NC禁止將數(shù)據(jù)用于商業(yè)用途;MIT許可證雖然較為寬松,允許商業(yè)使用且對(duì)再分發(fā)無(wú)限制,但仍要求在產(chǎn)品中包含版權(quán)聲明和許可證聲明;Apache許可證在允許商業(yè)使用的同時(shí),還要求用戶在進(jìn)行修改時(shí)保留原有的版權(quán)說(shuō)明,并對(duì)所作修改進(jìn)行聲明;GPL(GNU通用公共許可證)則更為嚴(yán)格,要求任何基于GPL協(xié)議的衍生作品必須同樣采用GPL協(xié)議,意味著使用GPL數(shù)據(jù)訓(xùn)練的模型可能需要開(kāi)源。
此外,由于開(kāi)源數(shù)據(jù)集大多來(lái)源于境外,其中包含大量與我國(guó)法律法規(guī)、價(jià)值觀念不相符的內(nèi)容。如果企業(yè)未經(jīng)過(guò)充分的內(nèi)容審核和安全評(píng)估,將其用于模型訓(xùn)練,可能導(dǎo)致模型輸出違法違規(guī)內(nèi)容,面臨受監(jiān)管處罰風(fēng)險(xiǎn)。
訓(xùn)練數(shù)據(jù)的合規(guī)建議
企業(yè)通過(guò)爬蟲(chóng)等技術(shù)手段進(jìn)行數(shù)據(jù)采集時(shí),應(yīng)建立完善的數(shù)據(jù)來(lái)源記錄制度。根據(jù)安全規(guī)范的要求,對(duì)采集的互聯(lián)網(wǎng)網(wǎng)站數(shù)據(jù)需記錄其統(tǒng)一資源定位符,確保不同類型數(shù)據(jù)具備多個(gè)不同來(lái)源,保障數(shù)據(jù)來(lái)源的多樣性與可追溯性。筆者認(rèn)為,企業(yè)應(yīng)建立嚴(yán)格的分級(jí)管控機(jī)制,對(duì)擬采集的數(shù)據(jù)來(lái)源進(jìn)行事前評(píng)估,若某一來(lái)源的語(yǔ)料內(nèi)容含違法不良信息超過(guò)5%,則應(yīng)放棄采集該來(lái)源語(yǔ)料。
在數(shù)據(jù)預(yù)處理和使用環(huán)節(jié),企業(yè)應(yīng)為所采集的數(shù)據(jù)樣本添加包含數(shù)據(jù)來(lái)源網(wǎng)頁(yè)統(tǒng)一資源定位符在內(nèi)的元數(shù)據(jù)信息,通過(guò)不少于10000個(gè)關(guān)鍵詞的關(guān)鍵詞庫(kù)以及覆蓋全部29種安全風(fēng)險(xiǎn)的分類模型進(jìn)行安全風(fēng)險(xiǎn)識(shí)別。對(duì)于經(jīng)識(shí)別存在安全風(fēng)險(xiǎn)的數(shù)據(jù)樣本應(yīng)予以徹底過(guò)濾,包含個(gè)人信息的數(shù)據(jù)需嚴(yán)格遵守個(gè)人信息保護(hù)法的規(guī)定,確保取得相關(guān)個(gè)人的同意,涉及敏感個(gè)人信息的數(shù)據(jù)更應(yīng)取得個(gè)人的單獨(dú)同意,存在知識(shí)產(chǎn)權(quán)侵權(quán)問(wèn)題的數(shù)據(jù)不得用于模型訓(xùn)練。
企業(yè)使用自身積累的數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí),應(yīng)當(dāng)格外注意商業(yè)秘密保護(hù)、個(gè)人信息保護(hù)和數(shù)據(jù)使用授權(quán)等方面的合規(guī)要求。根據(jù)安全規(guī)范的規(guī)定,企業(yè)應(yīng)對(duì)內(nèi)部業(yè)務(wù)數(shù)據(jù)進(jìn)行嚴(yán)格的分類分級(jí)管理,采取身份鑒別、訪問(wèn)控制、加密、備份等技術(shù)措施進(jìn)行安全防護(hù),并建立完整的數(shù)據(jù)處理活動(dòng)記錄機(jī)制。企業(yè)應(yīng)建立知識(shí)產(chǎn)權(quán)負(fù)責(zé)人制度,對(duì)包含商業(yè)秘密的內(nèi)部數(shù)據(jù)進(jìn)行充分的安全風(fēng)險(xiǎn)評(píng)估,確保相關(guān)商業(yè)秘密不會(huì)通過(guò)模型輸出被泄露。
個(gè)人信息保護(hù)和用戶數(shù)據(jù)使用方面,對(duì)于員工人事檔案、績(jī)效考核、健康檔案等個(gè)人信息的使用,應(yīng)嚴(yán)格遵循個(gè)人信息保護(hù)法規(guī)定,取得員工明確同意,涉及敏感信息時(shí)需獲得單獨(dú)同意。針對(duì)用戶消費(fèi)記錄、行為偏好等數(shù)據(jù),應(yīng)在用戶服務(wù)協(xié)議中明確約定用于模型訓(xùn)練的目的、方式和范圍,并告知知識(shí)產(chǎn)權(quán)相關(guān)風(fēng)險(xiǎn),同時(shí)建立數(shù)據(jù)安全事件應(yīng)急響應(yīng)機(jī)制,確保及時(shí)有效處置安全事件。
向第三方數(shù)據(jù)供應(yīng)商購(gòu)買(mǎi)訓(xùn)練數(shù)據(jù)時(shí),企業(yè)應(yīng)建立供應(yīng)商管理體系和數(shù)據(jù)質(zhì)量控制機(jī)制。根據(jù)安全規(guī)范的要求,交易合同應(yīng)確保具備法律效力,并對(duì)供應(yīng)商數(shù)據(jù)進(jìn)行嚴(yán)格審核。企業(yè)應(yīng)重點(diǎn)核實(shí)供應(yīng)商的數(shù)據(jù)處理資質(zhì)和安全保護(hù)機(jī)制,要求提供數(shù)據(jù)來(lái)源的完整授權(quán)鏈條證明,無(wú)法提供語(yǔ)料來(lái)源、質(zhì)量、安全承諾及證明材料的供應(yīng)商不應(yīng)采用。
合同權(quán)責(zé)和數(shù)據(jù)安全管控方面,應(yīng)明確約定數(shù)據(jù)的所有權(quán)、使用權(quán)范圍、質(zhì)量標(biāo)準(zhǔn)及安全措施,明確知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)和個(gè)人信息保護(hù)的責(zé)任劃分。供應(yīng)商應(yīng)對(duì)數(shù)據(jù)權(quán)屬作出無(wú)瑕疵保證,并對(duì)個(gè)人信息進(jìn)行脫敏處理。企業(yè)應(yīng)通過(guò)關(guān)鍵詞庫(kù)、分類模型等技術(shù)識(shí)別安全風(fēng)險(xiǎn),重點(diǎn)關(guān)注違法不良信息和知識(shí)產(chǎn)權(quán)侵權(quán)問(wèn)題,保存完整的數(shù)據(jù)處理記錄,確保可追溯、可審計(jì)。
使用開(kāi)源數(shù)據(jù)集進(jìn)行模型訓(xùn)練時(shí),企業(yè)應(yīng)當(dāng)建立完善的開(kāi)源數(shù)據(jù)集合規(guī)管理制度。根據(jù)安全規(guī)范第5.1條的要求,企業(yè)在使用開(kāi)源語(yǔ)料時(shí),應(yīng)具備該語(yǔ)料來(lái)源的開(kāi)源許可協(xié)議或相關(guān)授權(quán)文件,并對(duì)其中所涉及的主要知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)進(jìn)行識(shí)別,特別是對(duì)于包含文學(xué)、藝術(shù)、科學(xué)作品的數(shù)據(jù),應(yīng)重點(diǎn)識(shí)別其中的著作權(quán)侵權(quán)問(wèn)題。
開(kāi)源協(xié)議管理方面,企業(yè)應(yīng)充分了解并遵守不同開(kāi)源許可協(xié)議的具體要求,如CC協(xié)議族中CC BY要求注明原作者,而GPL協(xié)議則要求衍生作品必須采用相同協(xié)議,意味著企業(yè)如果使用GPL許可的代碼進(jìn)行開(kāi)發(fā),最終產(chǎn)品及其源代碼都必須以GPL方式開(kāi)源,企業(yè)如遵循其開(kāi)源要求很可能導(dǎo)致商業(yè)機(jī)密泄露或引發(fā)法律風(fēng)險(xiǎn)。因此,在選用時(shí)需要特別謹(jǐn)慎。
數(shù)據(jù)安全評(píng)估方面,鑒于開(kāi)源數(shù)據(jù)集多來(lái)源于境外,其中可能包含與我國(guó)法律法規(guī)和價(jià)值觀念不相符的內(nèi)容,企業(yè)應(yīng)建立嚴(yán)格的數(shù)據(jù)內(nèi)容審核機(jī)制,采用關(guān)鍵詞庫(kù)、分類模型和人工抽檢等多重方式對(duì)數(shù)據(jù)進(jìn)行安全風(fēng)險(xiǎn)識(shí)別。對(duì)于違反社會(huì)主義核心價(jià)值觀、包含歧視性內(nèi)容、涉及商業(yè)違法違規(guī)或侵犯他人合法權(quán)益等內(nèi)容,應(yīng)予以及時(shí)識(shí)別和過(guò)濾。
實(shí)際應(yīng)用中,企業(yè)還應(yīng)建立開(kāi)源數(shù)據(jù)使用臺(tái)賬,記錄數(shù)據(jù)來(lái)源、開(kāi)源協(xié)議類型、使用范圍等信息,并定期對(duì)開(kāi)源數(shù)據(jù)的使用情況進(jìn)行合規(guī)審計(jì)。此外,企業(yè)宜建立開(kāi)源社區(qū)監(jiān)測(cè)機(jī)制,及時(shí)跟蹤和評(píng)估開(kāi)源數(shù)據(jù)的更新變化情況,確保持續(xù)符合相關(guān)法律法規(guī)要求。
訓(xùn)練數(shù)據(jù)處理的合規(guī)重點(diǎn)
實(shí)踐中,訓(xùn)練數(shù)據(jù)處理的通用合規(guī)重點(diǎn)包括以下幾個(gè)方面:數(shù)據(jù)安全防護(hù)措施;應(yīng)急響應(yīng)機(jī)制建設(shè);數(shù)據(jù)處理活動(dòng)的審計(jì)與追溯要求。
大模型訓(xùn)練數(shù)據(jù)的安全防護(hù)體系中,根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建從數(shù)據(jù)分類分級(jí)到技術(shù)防護(hù)措施的全方位防護(hù)機(jī)制。
數(shù)據(jù)分類分級(jí)管理方面,企業(yè)應(yīng)基于數(shù)據(jù)的敏感程度、重要性和潛在影響建立科學(xué)的分級(jí)標(biāo)準(zhǔn),對(duì)預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)進(jìn)行系統(tǒng)化分類,并針對(duì)不同級(jí)別的數(shù)據(jù)制定差異化的管理策略和防護(hù)要求,從而實(shí)現(xiàn)數(shù)據(jù)安全防護(hù)資源的合理配置。
技術(shù)防護(hù)措施層面,企業(yè)應(yīng)構(gòu)建多層次的安全防護(hù)體系,通過(guò)身份鑒別確保只有經(jīng)過(guò)授權(quán)的人員才能訪問(wèn)訓(xùn)練數(shù)據(jù)。通過(guò)訪問(wèn)控制機(jī)制對(duì)不同角色人員的數(shù)據(jù)訪問(wèn)權(quán)限進(jìn)行精細(xì)化管理,采用加密技術(shù)對(duì)數(shù)據(jù)的存儲(chǔ)和傳輸進(jìn)行安全保護(hù),并通過(guò)數(shù)據(jù)備份確保在發(fā)生安全事件時(shí)能夠及時(shí)恢復(fù)數(shù)據(jù)。同時(shí),企業(yè)還應(yīng)建立安全監(jiān)測(cè)預(yù)警機(jī)制,采用漏洞掃描、入侵檢測(cè)等技術(shù)手段對(duì)訓(xùn)練數(shù)據(jù)的安全狀況進(jìn)行持續(xù)性監(jiān)測(cè),及時(shí)發(fā)現(xiàn)數(shù)據(jù)安全缺陷并采取相應(yīng)的防護(hù)措施。
人員管理方面,企業(yè)應(yīng)建立數(shù)據(jù)安全管理團(tuán)隊(duì),明確相關(guān)人員的職責(zé)分工,并定期開(kāi)展數(shù)據(jù)安全意識(shí)教育和技能培訓(xùn)。對(duì)于直接接觸訓(xùn)練數(shù)據(jù)的人員,應(yīng)實(shí)施嚴(yán)格的準(zhǔn)入管理和行為監(jiān)控,確保相關(guān)人員具備必要的數(shù)據(jù)安全意識(shí)和操作技能。
根據(jù)安全規(guī)范的要求,企業(yè)應(yīng)構(gòu)建針對(duì)預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)的專項(xiàng)應(yīng)急響應(yīng)機(jī)制。在組織架構(gòu)方面,應(yīng)設(shè)立應(yīng)急響應(yīng)小組并明確職責(zé)分工,包括應(yīng)急決策、事件處置、技術(shù)支持、信息通報(bào)等角色;在預(yù)案制定方面,應(yīng)針對(duì)數(shù)據(jù)泄露、數(shù)據(jù)竊取、數(shù)據(jù)投毒等不同類型的安全風(fēng)險(xiǎn)制定詳細(xì)的處置流程和應(yīng)對(duì)措施,確保事件發(fā)生時(shí)能夠快速響應(yīng)、有效處置;在演練評(píng)估方面,應(yīng)定期組織應(yīng)急演練并對(duì)演練效果進(jìn)行評(píng)估,持續(xù)優(yōu)化應(yīng)急響應(yīng)機(jī)制,確保在發(fā)生數(shù)據(jù)安全事件時(shí)能夠及時(shí)恢復(fù)業(yè)務(wù)運(yùn)營(yíng)。
根據(jù)安全規(guī)范和暫行辦法以及《生成式人工智能服務(wù)安全基本要求》的規(guī)定,企業(yè)應(yīng)對(duì)訓(xùn)練數(shù)據(jù)處理活動(dòng)建立完整的審計(jì)追溯體系。在數(shù)據(jù)采集環(huán)節(jié),應(yīng)記錄數(shù)據(jù)來(lái)源及其統(tǒng)一資源定位符、采集時(shí)間、采集方式等基礎(chǔ)信息;在數(shù)據(jù)預(yù)處理環(huán)節(jié),應(yīng)記錄數(shù)據(jù)清洗規(guī)則、標(biāo)注人員信息、標(biāo)注規(guī)則、人工標(biāo)注數(shù)據(jù)的規(guī)模和類型等內(nèi)容;在數(shù)據(jù)使用環(huán)節(jié),應(yīng)記錄數(shù)據(jù)的訪問(wèn)、調(diào)用和處理等操作信息。特別是對(duì)于標(biāo)注活動(dòng),應(yīng)記錄標(biāo)注任務(wù)規(guī)則、標(biāo)注工具使用方法、標(biāo)注內(nèi)容質(zhì)量核驗(yàn)方法等信息,確保數(shù)據(jù)處理活動(dòng)的每個(gè)關(guān)鍵節(jié)點(diǎn)均可追溯、可還原。【作者:馬軍,系寧人律師事務(wù)所主任;買(mǎi)爾旦·買(mǎi)買(mǎi)提,系寧人律師事務(wù)所律師助理】