生成式人工智能的问世给企业数据合规事业带来独特挑战,在知识产权、个人信息与隐私、侵权主体认定以及数据定价上均存在法律风险。《数据二十条》创新性地提出了建立数据三权分置路径,对解决上述企业数据治理难题具有独特的现实优势,包括知识产权侵权的替代性救济手段、协调个人与企业法律关系、以“权利义务对等原则”穿透侵权主体的面纱以及通过促进数据流通完善数据定价机制。对此,应当协调推进目前各项立法议程、加大区块链等先进技术的应用力度,并推广数据经纪人机制等手段,从而填补目前监管空缺,完善生成式人工智能企业数据合规路径。
自2020年4月中央、国务院明确将数据列为生产要素以来,我国数据市场进一步蓬勃发展。IDC研究报告显示,中国大数据市场总体IT投资规模将在2026年增至约364亿美元,在4年时间里实现市场规模翻倍。然而,现实中的数据合规工作仍然存在着不正当竞争、非法获取、存储或泄露用户个人信息数据、泄露敏感数据等问题。在这样的背景下,旨在完善数据合规制度,更好发挥数据要素作用的新政策应运而生。与此同时,以ChatGPT为代表的生成式人工智能技术受到社会各界关注,监管机构出台了相应的管理办法。
2022年12月19日,《中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称《数据二十条》)正式发布。《数据二十条》旨在从数据产权、流通交易、收益分配等方面建构数据基础制度。该文件有两大亮点:第一,开创性提出数据产权结构性分置制度。《数据二十条》明确提出要“建立保障权益、合规使用的数据产权制度”。其中最显著的一环便是探索数据产权结构性分置制度。该文件将数据产权的类型明确划分为“数据资源持有权”“数据加工使用权”和“数据产品经营权”。第二,《数据二十条》提出要建立公共数据、企业数据、个人数据分类分级确权授权制度。企业数据被定义为“各类市场主体在生产经营活动中采集加工的不涉及个人信息和公共利益的数据”。同时,该文件明确指出要针对企业数据探索授权使用新模式。此处所倡议的新模式,应当是指“通过数据交换的授权模式来促进不同企业主体间的数据交互,而不是指企业数据对外提供的商业交付授权模式”。
2023年7月出台的《生成式人工智能服务管理暂行办法》放弃了原征求意见稿中对生成式人工智能的明确定义,改以言明其监管范围为“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务”(以下称“生成式人工智能服务”)。因此,本文所探讨的“生成式人工智能”主要指狭义上的以GPT为主的通过以“预训练+微调”为特征的工作机制生成内容的人工智能工具。以ChatGPT为例,生成式人工智能依靠大型语言模型、新型人机交互接口以及打分模型等实现深度学习,按照用户指令生成相应目标内容。实际上,生成式人工智能被认为将在未来经济活动中发挥极其重要的作用,尤其是在药物开发、材料科学、芯片设计等方面。然而生成式人工智能同时也蕴含着许多法律风险,如其在准备阶段、运算阶段以及生成阶段中存在着巨大的数据安全风险、算法偏见风险等问题。
结合生成式AI的运行原理、应用功能来看,其对企业数据合规主要有知识产权侵权、个人信息与隐私泄露问题以及由数据定价困难而产生的数据垄断、抑制企业创新等问题。
生成式AI基于深度学习原理而运行,需要注入大量的数据并标记。就ChatGPT而言,模型依托海量数据库信息而存在,其中包括提取大量用户自行输入的信息、商业开源软件中大量的互联网开源数据以及直接爬取自其他互联网资源的数据。如此,人工智能生成物在被构思、设计、定型乃至于生成的过程中便可能涉及由其他知识产权人的权利标的,既可以是著作权、专利权、商标权所保护的作品、产品或商标,也可以是商业秘密。
有学者认为人工智能生成物不应当受著作权法及专利权法保护。理由包括“其乃完全由人工智能开发,缺少人类主体参与”,以及“其为应用某种算法和规则的结果,在本质上与人类创作不同”等。持肯定论者则从激励理论出发,强调人工智能生成物的可专利性与可版权性实为确保人工智能投资者权益、促进创新所必不可少的保障措施。然而,不论人工智能生成物是否可以作为诸知识产权法律法规下的保护对象,知识产权侵权行为并不以被控侵权客体是否具有可版权性、可专利性为前提。我国专利法认定专利侵权行为须具备“产品受专利权保护”“侵权人以生产经营为目的”“侵权人未经专利权人许可”以及“侵权人实施了专利权人的专利”等要件。而著作权法总体上要求认定著作权侵权行为具备“未经权利人许可”“存在特定的侵权行为”“以营利为目的”等要件。故而,生成式AI所产生的人工智能生成物是否可受知识产权法保护并不妨碍知识产权侵权行为的认定。而在具体的侵权情形上,既可以是由于非法获取(如商业秘密),也可以是非法使用、实施行为,目前已有相关争议产生。
2023年6月13日,某作文公司在其多个社交平台上发文,声称其长期合作伙伴学某网校在未经其授权的情况下爬取了某作文公司的数据,用来训练其大模型产品,并于次日进一步公布学某使用“爬虫”技术的证据。学某网校则主张自身行为乃行使双方此前合作协议下之约定。最终,某作文公司表示将采取司法救济路径解决纠纷,请求学某网校支付1元赔偿金、公开道歉并删除已爬取的数据。鉴于本案所涉当事人彼此之间所订立的合作协议具体内容尚未完全向外界披露,故而直接针对本案进行准确的法律分析缺乏对事实的准确认定。然而即便如此,本案也已体现出以下值得关注之处。
首先,适用责任规则进行保护的传统模式遭遇瓶颈。一方面,对侵权行为的证明存在困难。某作文公司方面认为学某网校方面违反合同约定缓存、存储其数据库中大量数据,并将其用于自身人工智能模型训练的主张在现实中存在举证困难。尽管某作文公司证明了学某网校调取数据量陡增,并且由于其爬取频率极高、数量极大,而可较轻易地将其判定为爬取行为,但是要证明学某网校将其数据用于自身大模型的训练存在困难。未来学某网校公司所正式推出的生成式人工智能模型可以在爬取数据的基础上生成新的作品,而要证明新作品乃主要依赖于旧作品所产生在技术上有一定可能存在着证明难题——生成式AI的可解释性困境导致人类主体可能无法完全理解生成式AI具体的运行过程。这也是现实中大量企业所将要面临的难题。另一方面,举证责任的分配也存在一定的困难。对于原告笔神公司而言,已然存在如上所述的达到证明标准之困境。抛去可解释性困境不谈,从公平角度出发,此类案件在表面上看来由被告企业承担举证责任更符合现实。尽管我国已经针对个人信息权益正式立法引入过错推定原则,要求信息处理者承担证明自己没有过错的责任,否则应当承担损害赔偿等侵权责任,然而针对企业数据权益的立法安排却长期没有达成共识。倘若依民法典进行处理,其中依据过错推定原则进行举证责任的分配须有法律的明确规定。这也就是说,在缺乏特别立法以及民法对企业数据侵权举证责任的特殊规定的情况下,人民法院应当适用过错责任原则,由原告承担举证责任。实际上,与个人信息保护相比,企业与企业之间有关企业数据权益的纠纷实际上并不存在个人信息处理者和自然人之间地位不平等这一重要事实。故而实行举证责任倒置在正当性上也有所欠缺。
其次,生成式AI时代下企业数据的多样性给知识产权利益保护带来了新困境。本案中,某作文公司旗下有大量成稿作文以及作文模板。然而如果生成式AI所涉知识产权案件中的原告本身对其中一部分并不享有著作权,甚至也是以非法手段获取了其中一部分的数据,那么法院在确定数据归属、认定损害赔偿数额上便遭遇到巨大的技术难题。现实中,此类现象已经层出不穷。美国与艾伦人工智能研究所的共同报告发现,谷歌C4数据库中盗版书网站赫然在列。此外,企业数据与公共数据、个人数据之间本身便存在相互流动。以ChatGPT为例,其开发者OpenAI在其用户协议中明确指出,开发者有权利用用户输入的内容,以维持其服务。对于个人而言,其构思为企业所掌握、成为其数据库的一部分并为其所用牟取经济利益,而自己却无法获得该项智力活动的经济成果,难免是不公平的。而倘若开发者在用户协议中根本没有设置其有权利用用户输入内容的条款,却在运行中使用用户智力成果进行构思,则有知识产权侵权之风险。
《生成式人工智能服务管理暂行办法》第9条明确规定生成式人工智能产品服务提供者对涉及个人信息的事项承担个人信息处理者的法定责任。而第7条则强调在训练数据处理活动中使用个人信息须征得个人信息主体同意或符合法律、行政法规规定的其他情形。生成式AI在收集、使用数据的过程中均可能涉及违法。生成式AI可通过用户输入内容,亦可通过爬取互联网公开数据的方式获得数据,或通过违法手段获得受技术措施加密的个人隐私。后者的情形显然构成对个人信息保护法的违反。但对于前两者,个人信息保护法第27条似乎在形式上认可其合法性。然而,该法条规定“个人明确拒绝的除外”,且“对个人权益有重大影响的,应当依照本法规定取得个人同意”。
首先,第27条第1分句属于包含了例外情形的默认规则。由于该法条下所述公开的个人信息能够为不特定的第三人所访问,故而在合理范围内处理个人信息原则上不需要告知信息主体并取得其同意。但根据该条规定,个人信息主体有权以明确拒绝的形式排除对其所公开的个人信息数据的使用。然而现实中个人如何行使明确拒绝的权利却在生成式AI时代中遭遇困境。从实际角度来看,个人既不可能选择将其所有个人信息均不予公开,也不可能事无巨细为每一条公开的个人信息数据设置详细的可用范围,以向企业明示权限范围。而更为重要的是生成式AI使用数据的方式具有一定的隐蔽性,其所爬取的个人信息在被使用之后所贡献生成的内容并不必然可由外界轻易预测。设想,某一个人信息主体在其公开的微博相册上上传与自己伴侣出游时所拍照片,且该主体并不希望自己的照片为他人所获取以作广告宣传之用。然而可能存在某一特定模型在爬取包括前述照片的互联网开源数据时识别出用户的要求并不属于“广告宣传用途”而直接使用原照片的情形。在此情形下,原用户未必乐意见得本人与伴侣的合照为他人所用,但也不可能选择将所有的照片设置为不公开——如此,将照片上传至社交平台反而失去了社交价值。透过此设想的情形可知,公开的个人信息在生成式AI面前所受的法律保护仍然是存在漏洞的。
其次,该法条的第2分句也对企业可使用的公开的个人信息范围加以约束。从权利保护的角度而言,“对个人权益有重大影响”的情形宜得到较为宽泛的解释,具体可参考个人信息保护法第55条下之情形。然而依据该条来看,“委托处理个人信息、向其他个人信息处理者提供个人信息、公开个人信息”将属于对个人权益有重大影响。如此,自然人、法人或其他组织在使用人工智能模型的过程中输入他人个人信息时需事先得到个人信息主体的同意。
综上,生成式人工智能的出现使目前以“知情—同意”为特征的个人信息数据保护模式遭受着严峻考验。生成式人工智能在创造巨大经济价值的同时,也面临着原数据法体系下涉及个人信息的严格合规义务。在数字经济繁荣的今天,互联网企业的成功经验,甚至基本运营都仰赖个人信息数据的自由流动。实际上,“任何法律制度中都从不存在一种宽泛的‘拒绝数字化权’”。生成式AI被认为是“中国经济的新动能”。倘若采纳过于严苛的知情同意机制,将导致个人信息的公共属性被忽略,进而阻碍数字经济的发展。此,原数据法体系下坚持便缺乏必要性。此外,随着数据库的扩张以及算法的改进,数据聚合效应日益显著。即使个人信息主体从未提供或分享过个人数据,大数据也可以通过算法来整合不同数据库中的数据。多条类似的信息发生聚合和深度处理后,可能其识别性特征会发生改变,从而引发个人信息权益侵害风险。换言之,不管个人信息主体同意与否,由个人对全部或部分数据享有完全的支配权在现实中也并不存在技术上的可行性。最后,即使企业取得了用户在其初次使用其个人信息数据时的许可,其在人工智能模型再训练阶段再次使用原数据应当再次告知用户并取得同意。显然,前一次知情同意的范围不应当被延伸到后续的再训练之中,因为二者的应用场景和使用目的并不相同。
生成式AI运行全过程中有多方主体参与,包括算法开发者(其中又包括编程人员、开发人员以及训练人员)、服务使用者等,各方参与者均有可能被认定为侵权人。甚至有学者基于对人工智能法律人格的承认,认为其本身可承担一定法律责任。但不论是否承认人工智能法律人格地位,学术界也认为在某些情形下应当保留由自然人、法人等传统责任主体承担法律责任的可能性。然而,在现有法律体系下准确认定使用生成式AI数据侵权相关责任承担主体存在一定困难。
生成式AI不仅由算法驱动,有时更有用户主动输入数据之情形。有学者指出在简单的指令输入输出型生成式AI场景下,原则上应追究指令输入人(即服务使用者)的责任,而在自主生成式AI场景下原则上应当追究开发者的责任。然而从传统侵权法角度来看,对生成式人工智能服务提供者施加传统意义上的注意义务要求不论是在技术上还是法理上都面临着现实挑战。就技术而言,生成式AI囿于算法黑箱问题,无法由开发者事前保障完全切断侵权行为发生的可能性。而从法理上来看,不论是将生成式人工智能服务提供者纳入网络内容服务提供者,抑或搜索链接服务提供者均存在形式与实质上的矛盾与冲突。因此,传统侵权法在生成式人工智能的语境下存在一定的适用困境。
尽管如此,现实中也存在着生成式人工智能服务提供者与用户之间直接约定责任的做法。以ChatGPT的母公司OpenAI为例,其明确指出用户在遵守使用协议的前提下,OpenAI公司向其转让输出内容的所有权利,而用户本人对内容负责。实际上,在使用协议中约定由用户承担责任已然成为普遍做法。然而,此类做法在形式和实质上属于民法典第496条下的“格式条款”。若提供格式条款一方不合理地免除或减轻其责任、加重对方责任、限制对方主要权利的,则该格式条款无效。因此,即使服务提供者与用户彼此之间已经订立由用户承担责任的使用协议,该协议中的格式条款也有可能因违反公平原则而无效,从而导致重新陷入确定责任主体的困境中。
尽管生成式AI需要海量数据的输入,但现实中并没有针对人工智能需要的数据建立专门要素市场和定价模式。纵使生成式人工智能服务提供者合规运营,以合法手段获取各项数据,其在现实中仍然面临着“买数据难”的困境。根据市场实证研究,由于产权界定不清晰、交易机制仍不完善、数据安全担忧等因素,大多数数据交易平台的年实际交易量偏低,从而“致使通过公开竞价手段形成市场公允价格的定价机制难以充分发挥信息披露、供需调节等功能”。换言之,目前数据交易市场的不完善导致定价与市场实际规律偏离程度较大。有学者认为,究其根本这是数据权属不清所导致的。将科斯定理的规律反映到数字经济中,可知清晰的(数据)产权是数据流通交易的前提。没有清楚的数据产权界定,就不存在有效的数据市场。而在生成式人工智能的情景里,训练数据的质量直接决定了生成内容的质量。要为数据准确定价,还要考虑到数据的场景化应用(比如说,在某一特定领域中的应用)、投资风险等因素。这一切都随着生成式人工智能技术应用日趋多样化而愈发复杂。
从数据定价存在缺陷的潜在后果来看,具体可分为数据定价畸高所导致的数据垄断问题和数据定价过低所导致的市场失灵问题。在前一语境中,数据定价畸高显然会将资金不足的生成式人工智能服务提供者排除出市场竞争,而由少数实力雄厚的科技企业独享高质量数据资源。在生成式人工智能独特的机器学习机制下,这使得占据该类优势的企业更有可能进入“获得用户—获得数据—提升模型—再获得用户”的正循环,从而形成数据垄断和基于数据的垄断。最终,生成式人工智能市场的多样性将被削弱,从而导致竞争法视域下的创新遭到破坏。倘若数据定价过低,则从市场角度而言不利于上游企业形成改善训练数据质量的动力,从而在整体上导致生成式人工智能生成内容质量下降。
《数据二十条》中所提到的三权分置路径在理论上既有纵向发展上的突破,也有横向比较上的进步意义。作为我国构建数据基础制度中的关键一环,《数据二十条》在生成式人工智能时代下展现出极强的灵活性,大大缓解了企业数据合规工作的许多难题。首先,该部分将从理论层面检验三权分置路径所实现的突破。随后,本文在证成理论突破的基础上论证该路径对于企业数据合规的现实意义。
数据资源持有权是三权分置方案的基础。倘若持有问题无法得到解决,则对数据进行加工使用或经营数据产品将如无根之萍。
首先,数据资源持有者权的权利主体应当是仅限于数据处理者。这是因为该文件明确指出要“合理保护数据处理者对依法依规持有的数据进行自主管控的权益”。从占有理论来看,这是对数据持有者在合法收集数据后所取得的事实上的控制地位的肯定。在数据的“生产—流通”框架下,数据资源持有权可被定义为生产环节下数据控制者对其数据进行自主控制而不受非法干涉和破坏的权益,属于数据控制权的持有权能。综上可知,在本文语境下,企业对其合法取得的数据享有进行自主控制而不受非法干涉的破坏的权利。值得注意的是,数据资源持有权实现了对数据所有权理论的突破。我国民法下所有权具备支配性、排他性等特征。数据在经济活动中经由多个主体进行生产、加工,内容经历多次变更,且由于其无形性、可复制性的特征而可由多个主体同时占有。从这一点来说,数据所有权的确立面临着传统民法的解释困境。相反,采取数据资源持有权的确权路径是“划分不断流转的数据权益的有效方式”。
其次,该项权利所指向的客体有严格要求。产权指向的客体只能是财产,而个人信息在我国法律下不能被认定为财产。个人信息保护法规定,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,也不得非法买卖、提供或公开他人个人信息。这实际上阻断了企业对他人个人信息随意处置的道路。从这一点来看,数据资源持有权与个人信息权益实现了和谐共生。采纳数据所有权的赋权路径将导致企业对其所控制的数据享有所有权下极强的控制力,从而导致个人信息权益为企业数据所有权所吞噬。这与个人信息保护法的精神相违背。
最后,数据资源持有权为企业设置数据爬取黑名单提供了权利基础。司法实践中,反不正当竞争法框架下判断数据爬取行为的正当性判断标准是“实质性替代标准”,具有一定的模糊性,给法官对具体个案的裁判带来了很大的困难。在这样的情况下,持有数据资源的企业在不确定性下设置黑名单禁止特定企业爬取其平台数据,有可能会承担反不正当竞争法下的法律责任。以财产规则取代反不正当竞争规则,有利于增强企业自主管控其数据的能力,减轻其对数据管理的忧虑。同时,这并不必然阻碍数据流通。倘若设置黑名单的行为构成权利滥用,则有关主体可以寻求行政或司法救济途径请求企业开放数据。
数据加工使用权,顾名思义,不包含对数据的处分权能。在《数据二十条》中,该项产权被表述为“在保护公共利益、数据安全、数据来源者合法权益的前提下,承认和保护依照法律规定或合同约定获取的数据加工使用权,尊重数据采集、加工等数据处理者的劳动和其他要素贡献,充分保障数据处理者使用数据和获得收益的权利”。可见,该项权利主要牵涉数据生产环节。该条揭示了数据加工使用权的如下含义:
(1)行使数据加工使用权以保护公共利益、开云电竞数据安全、数据来源者合法权益为基础。该项要求体现了权利与义务相统一的原则。企业行使数据加工使用权应当遵循网络安全法、数据安全法、个人信息保护法等相关法律法规,有效地维护各方权益以及公共利益。
(2)数据加工使用权可源于法律规定,抑或合同约定。从权利来源来看,现实中企业常常以“知情—同意”模式取得对数据的加工使用许可。然而在爬取大量公开在互联网上的数据的情形中,企业对这些数据的加工、使用行为常遭诟病。微博诉脉脉一案中,北京高级法院确认了“用户授权+平台授权+用户授权”的三重授权原则,对数据采集者提出了较为严格的合规要求。不论是上文所设想案例中个人信息的问题,还是实践中对商业数据的侵犯,尽管企业在进行数据爬取时与数据来源者之间缺乏明确的合同约定,其仍承担着一定的义务,如个人信息保护义务、反不正当竞争义务等。但在实践中却缺乏明确的权利保障。此项规定为企业合规进行数据加工使用活动提供了法律保障。
此项权利在《数据二十条》中被表述为“经加工、分析等形成数据或数据衍生产品的经营权”以及“数据处理者许可他人使用数据或数据衍生产品的权利”。显然,该项权利主要数据的经营环节中,是数据利用权在这一环节的具体体现,与数据加工使用权同属数据权利中的积极权利。现实生活中,企业对经自身加工、分析的数据或数据衍生产品享有一定的权益已然是学界共识。从劳动理论与激励理论来看,如此安排有利于企业积极利用数据,通过数据创造出新的经济价值。而数据产品经营权以法律形式确认该项权益,正是在法律层面上确认、支持数据产品经营者经营获利的权利。
此外,设置数据产品经营者权为数据交易所发展提供了新思路。此前,各地数据交易所对交易标的的界定并不清晰。上海将交易标的定为“通过实质性加工和创新性劳动形成的数据产品和服务”,而深圳则是称为“合法处理数据形成的数据产品和服务”。部分地区采取较为广义的标准,直接将交易标的定为“数据”,并且符合一定的标准(如“经过处理无法识别特定个人且不能复原的,或经过特定数据提供者明确授权”)。出现该类现象的根本原因是数据很难成为一种“标准化的交易标的”。设置数据产权,有利于各地数据交易所转变思路。比如,将数据产品经营者权作为交易标的。如此安排,一方面有利于跳出交易标的究竟为“原始数据”“数据产品”还是“数据服务”的概念困境,从而直接根据买方的经营场景进行定价。这有利于在促进数据流通的场景下打通企业之间的数据流通,以市场逻辑取代架构逻辑,从而缓解数据定价困难问题。另一方面,以数据产品经营者权为交易标的有利于设置买方准入资格。相较产品而言,民法上的经营权常常伴有对资格的审查要求。如农村土地承包经营权便被明确限定为由农民集体使用。因此,“数据产品经营权”交易比“数据产品”交易更加与实务中数据合规流通的现实更加契合。
对生成式人工智能服务提供者企业而言,开云电竞知识产权侵权的风险无处不在。推进数据确权,有利于确保企业对其合法处理加工后的数据产品享有知识产权。这是因为设置数据产权,实质上确认数据乃财产,有助于其正式落入民法典第123条下所指知识产权客体范围。针对来源清晰可溯的数据,下游企业可以依法或根据合同对上游企业的数据进行加工使用。承认“加工”“使用”的事实,这无疑能够公开肯定数据处理者的智力成果,从而符合知识产权法的立法精神。而数据产品经营权则在事实上发挥了知识产权中使用、收益的作用。鉴于目前数据资源以及数据产品能否适用知识产权法加以规制、如何规制的问题迟迟得不到解决,数据三权分置的路径不失为替代性救济路径。此外,以财产规则取代责任规则,亦有利于上下游企业多元化其权利救济手段,而不仅仅是局限于反不正当竞争法等规则下的救济手段。况且反不正当竞争方式是一种事后的侵权救济路径,相比财产规则是消极的救济手段,不具有预防作用,且对“合法”与“非法”的界限留有较大的模糊空间。
在三权分置路径下,数据资源持有者权肯定了企业对数据的事实占有状态,并突破传统民法理论赋予其产权地位。企业对数据产品的贡献得到充分肯定,具体体现在通过设立数据资源持有权以划定用户与企业之间对数据控制力度的边界,从而起到定纷止争的作用。同时,这也有利于让企业在合法前提下,安心使用数据,不必过度担忧后期饱受上游数据来源主体牵制,从而积极行使数据加工使用权,创造利润。从侧面来看,《数据二十条》中指出要保障数据来源者的自主权与收益权,一方面鼓励广大个人信息主体开放更多的个人数据,“投喂”生成式人工智能,而企业则以高质量生成内容“反哺”用户,从而实现数据来源者与数据处理者的双赢。另一方面,个人信息主体对其数据的流向有着清晰追踪和一定的决定权,这也有利于用户在损害事实的发生或扩大之前知晓相关事宜,并行使相关权利要求企业采取措施避免损害事实的发生或扩大。如此,企业可以避免或降低由于侵权所造成的赔偿损失等法律责任。
权利义务对等原则要求法律主体所享有的权利与其所承担的义务大致相当。在此原则的指导下,各国公司法借鉴“揭开公司面纱原则”,纷纷建立起法人人格否认制度。在确定人工智能生成物专利权权利人的问题上,亦有学者参照“揭开公司面纱原则”思考真正权利人的问题。在完成生成式人工智能各阶段的数据确权工作后,真正的责任主体便可露出真面目。生成式人工智能服务提供者往往是在合同许可下行使了数据加工使用权。而用户往往是行使了数据资源持有权和数据产品经营权。服务提供者享有数据加工使用权,故亦应当对此承担合理加工使用的义务。用户则相应地承担合法取得数据资源、合法经营数据产品的义务。故倘若用户取得数据,而服务提供者对此并不知情,则最后的侵权责任应当由用户而非服务提供者承担。若服务提供者泄露加工使用后的数据产品,则应当被视为滥用数据加工使用权,故应当承担相应责任。在确定适用“揭开生成式人工智能侵权主体面纱原则后”,监管部门便可根据实际情况迅速确立起一系列灵活、可行、公平的归责规则。数据确权路径为适用权利义务对等原则提供了现实基础。
当个人、企业在数据确权的保障和激励下更加倾向于共享其数据以获得经济利益时,市场上的数据流通量便得以扩大。此时数据质量自然将伴随着各类市场主体对财富的期盼而得到改善。鉴于数据要素市场的建设可由数据要素的资源化、资产化和资本化进一步推动,以三权分置为特征的数据确权路径为数据资产化进一步扫清障碍。目前,我国数据交易多以数据本身为交易标的。然而,以数据本身为交易标的不利于厘清其具体价值。以权利为交易标的,更能够适应不同使用场景下数据价值多变的现实情况。在三权分置路径下,可针对不同的数据类型建立以权利为标的的交易模式。比如,针对原始数据和其经加工后所形成的数据产品以数据资源持有权作为交易标的。针对纯粹的数据转手交易情形,如数据经纪人业务,则可适用以数据产品经营权为标的的交易模式。如此,在数据资产化加持之下,数据要素市场便可得到进一步完善,从而使得数据流通量增大且有利于数据精准定价。同时,此种情形下高质量数据价格畸高以及数据垄断的现象将在一定程度上得以遏制。事实上,还可以在数据确权的前提下借鉴标准必要专利许可下的“公平、合理、非歧视”原则,制止大企业滥用数据产权的行为,从而“平衡数据财产权保护和数据充分利用两种价值”。如此,在数据加速流通利用、禁止权利滥用的背景下,数据要素市场得以持续完善。这对依赖海量高质量数据输入的生成式人工智能而言,无疑是福音。尤其是对该领域的中小企业而言,完善的数据市场是保障其在成长阶段总体维持“投入—产出”平衡的关键。
目前,我国尚无一部全面的人工智能法,唯有2023年7月出台的《生成式人工智能服务管理暂行办法》暂时就特定对象发挥监管作用。目前欧盟已形成人工智能法草案,并经欧洲议会表决通过,现已正式进入欧洲议会、欧盟委员会以及成员国代表的三边会谈阶段。国务院业已发布2023年度立法工作计划,其中提到预备提请全国人大常委会审议人工智能法草案。另一方面,数据三权分置目前暂时只停留在政策层面,尚未在立法文件中得到具体体现。我国应当充分发挥后发优势,针对人工智能与数据领域的最新进展以及联动进行精准立法、综合立法,从而保证立法可以适应未来社会发展。要做到生成式AI企业数据合规有法可依,这是完善企业数据合规工作的规则前提。
另一方面,应当协调推进数据产权结构性分置与其他数据产权相关制度。深圳市已于2022年上线“数据知识产权登记系统”。截至2023年4月,已经颁发36份登记证书。以登记模式保护数据知识产权的做法也为浙江、江苏等地引进。然而这样的创新性举措在缺乏数据产权存在的前提下不仅缺乏上位法依据,甚至违反了著作权法等现行法律的规定。同时,如何明确数据三权与知识产权之间潜在的竞合关系也值得进一步的学术研究和实践探索。可见,不仅中央立法彼此之间需要协调,中央与地方之间也需要协调数据立法议程。
《数据二十条》指出要充分保护数据来源者合法权益,强调推动基于知情同意的数据流通使用模式,保障其享有获取或复制转移由其促成产生数据的权益。过去囿于数据活动的复杂性,(在未经同意采集的情况下)个人甚至未必能够知道个人数据的存在,更不用说去占有自己的个人数据。而企业在大量的用户提交的网页数据、平台生成的个人数据以及机器生成的非个人数据面前也难以清楚界定权属关系。故而,以财产规则下的数据确权没有实际意义。然而,区块链、物联网技术的快速发展逐渐使个人高效控制自身数据成为可能,不论一级市场抑或二级市场均有技术上的可行性。进一步完善技术基础设施的搭建,有利于激励更多的人积极参与到数据分享中,为人工智能领域提供丰富的数据资源。
如前文所述,要求个人数据主体对其个人信息数据事无巨细地行使管理权限是不现实的。在现实商业实践中,可以由个体统一授权商业实体托管使用,由其再与企业订立使用协议。如此,个人维护其数据的工作便可转托第三方。实际上,“北京数据二十条”已经提出该项措施。实践中的商业模式还可以根据用户个人需求进行个性化定制,灵活打造个人数据账户。如此,便可在个人信息使用许可上引入类似于专利法领域的“开放许可制度”。此外,需要注意的是应当针对此类托管机构出台专门的监管措施。
生成式人工智能时代的到来对企业数据合规治理工作带来了诸多挑战。从其运行原理来看,生成式人工智能服务提供者极有可能侵犯他人知识产权,然而在司法实践中适用责任模式的可行性存在问题,且企业数据的多样性亦构成主张知识产权的障碍之一。其次,个人信息与隐私泄露问题也在生成式人工智能时代下被放大,且在实际生活中难以寻求有效的解决措施。此外,参与主体的复杂性以及服务条款的争议性使得相关侵权案件中对责任主体的精准认定不易实现。最后,从数据经济的角度来看,生成式人工智能时代下数据的合理定价亦为现行法律制度下所急需解决的问题。
对此,《数据二十条》所揭示的三权分置路径在现实中具备独特的优势。针对以上风险,三权分置路径分别呈现出提供替代性救济手段、协调个人与企业之间的法律关系、引入“权利义务对等原则”以及保障数据合理定价,促进反垄断机制发展的制度优势。在未来的数据法治建设工作中,立法机构与监管机构应当在统筹推进人工智能法与数据产权立法的基础上推动实现数据精准确权、追踪及高效管理,并建立数据经纪机制以实现数据经济在法治的轨道上平稳发展。
倪子涵|三权分置路径下生成式人工智能企业数据合规新解原创 倪子涵上海市法学会 东方法学轻触阅读原文
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。