问题的提出
随着信息技术的飞速发展,数据已然跃升为驱动经济发展、社会治理和技术创新的核心生产要素。广泛的数据采集与利用催生了众多前沿技术和新兴业态。根据处理程度不同,数据可分为原始数据和衍生数据(derived data)。衍生数据由对原始数据的加工处理而生成,并已发生结构性改变且实现性能提升。原始数据往往未经深度分析过滤和提炼整合,结构性较弱且来源较为复杂,难以充分释放其数据价值。衍生数据作为具有高附加值的数据形态,是数据价值生成的高点。数据加工者对原始数据进行清洗、整合与结构化等处理,并运用统计分析、机器学习等数据分析技术挖掘数据中隐含的模式、关联和趋势,提升其结构性和可用性。这一过程将原始数据转化为具有高度价值的信息和知识,实现了数据由量变到质变的飞跃,为实际应用场景中的决策提供直接的智慧与洞见。
衍生数据已成为数字经济产业发展的重要议题。目前,国家政策层面已高度认可衍生数据的重要意义,2022年《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》第7条特别强调了经加工、分析等形成数据或数据衍生产品的经营权。国家数据局于2025年3月发布《数据领域常用名词解释(第二批)》,将衍生数据定义为 “数据处理者对其享有使用权的数据,在保护各方合法权益的前提下,通过利用专业知识加工、建模分析、关键信息提取等方式实现数据内容、形式、结构等实质改变,从而显著提升数据价值,形成的 数据”。在地方立法探索上,《黑龙江省促进大数据发展应用条例》《福建省大数据发展条例》《杭州城市大脑赋能城市治理促进条例》等地方性法规,均认可衍生数据作为一种独立的数据类型。由 此可见,当前国家政策、地方立法和数据产业实践 均对衍生数据给予高度重视,并积极探索衍生数据的开发利用,以此提升产业效能和社会治理水平。
在当前的数据产业实践与司法裁判中,衍生数据的识别与权利配置问题日益凸显。首先,衍生数据的识别涉及如何区分衍生数据与原始数据。司法实践中,法院已逐渐认可衍生数据的独立性及其商业价值,并在肯定数据处理者技术投入和创造性劳动的同时,关注衍生数据的权益归属问题。然而,如何明确衍生数据的识别标准仍是待解决的问题。其次,在数据产业发展的诸多场景中,均存在衍生数据相关参与方的产权配置和利益平衡问题。例如,在数据爬取场景中,数据处理者对基于爬取行为取得的原始数据加工生成衍生数据;在用户授权互联网平台企业加工处理的场景中,不论互联网平台的加工行为是否处于用户授权的范围内,均可能基于数据处理行为生成衍生数据。此类问题的核心在于,投入劳动和资源的数据处理者是否对衍生数据享有产权,以及该数据产权的内容和边界如何;数据处理者获得原始数据的途径合法性与否,是否会影响其对衍生数据的权利,以及如何对在先权利予以救济。
衍生数据的识别与产权配置困境
衍生数据的识别是衍生数据产权配置的前置性问题。尽管衍生数据应与原始数据相区分已逐渐成为目前的共识,当前司法裁判和理论研究仍缺少可普遍适用的衍生数据识别标准,即经由何种程度的数据处理,衍生数据才能在规范意义上被评价为已经发生质变,从而脱离原始数据重新进行产权配置。在司法裁判层面,“淘宝诉美景案” “ 爱拼诉学而思案”等案件对衍生数据的识别侧重点不尽相同。在理论研究层面,学界普遍认识到,衍生数据是指通过对原始数据加工处理所生成的具有一定价值的数据。对于原始数据经过何种程度的处理方形成衍生数据、如何确定衍生数据的基本特征等问题,尚未形成共识。综合来看,裁判实践与理论讨论对衍生数据的认识具有一定的基本共识,即衍生数据之所以不同于原始数据,在于经由加工活动使原始数据在规范意义上发生了实质性改变。然而,何谓实质改变,以及这种改变应当如何从量变中生成,相关讨论尚未形成一套可供适用的规范要件体系。
就衍生数据的权利归属而言,相关争议集中于数据加工者对原始数据的使用权基础存疑的情形之下,即数据处理者未合法取得原始数据,或虽取得数据但其加工行为未经授权或超越授权范围的场景。第一类是数据爬取。数据处理者通过爬虫程序自动化地采集海量网页数据,将爬取所得数据应用于自身的数据产品或服务中,并可在此基础上加工生成衍生数据。在非法爬取的情形下,数据处理者获取原始数据的行为缺乏正当的法律依据,其对原始数据并不享有相应的权利基础;但同时衍生数据的形成往往依赖数据处理者投入大量算法能力、算力资源与分析劳动,具有不可忽视的价值创造属性。第二类是数据处理者虽经授权加工但超越授权范围或授权终止后仍加工等场景。用户通过签署用户协议的方式赋予企业在特定范围内使用其数据的权利,企业基于该授权开展数据处理,企业的加工行为应当受到用户授权范围的约束。然若加工方式或加工目的明显超出用户合理预期,便可能引发关于衍生数据归属的争议。数据处理者能否取得衍生数据产权,是否应当承担相应的返还、删除或赔偿责任,均有待进一步厘清。
衍生数据的三重识别标准
衍生数据基于对原始数据的加工处理而产生,该加工行为与传统有体物的加工具有实质相似性。加工制度的核心目的虽在于确定加工过程中的物权归属,但其同时也提供了判断何为加工物的标准。对于衍生数据的识别与规制,可以借鉴民法典物权编中的添附制度,在共性的基础上充分考虑二者的本质差异,在衍生数据领域制定专门的识别标准。衍生数据的识别标准应包括以下三点:其一,实质改变标准,即衍生数据相较原始数据在内容、结构或形式等维度上发生实质改变;其二,价值增值标准,即衍生数据相较原始数据具有明显更高的经济价值,包括使用价值和交换价值;其三,不可逆转标准,即衍生数据无法还原为原始数据。唯有同时符合上述三个标准时,才可被判定为相对原始数据存在实质改变的衍生数据,确保衍生数据与原始数据相互独立。
一是外在识别标准, 即数据实质改变。所谓“实质性改变”,是指其已经在足以影响数据识别、利用与评价的关键维度上脱离原始数据,从而不再仅是原始数据的附随形态。足以影响数据识别、利用与评价的关键维度包括三个方面。其一是数据结构变化。数据必然以特定的组织结构与存储方式得以呈现,通过加工活动,数据在访问方式、组织结构和存储方法等方面发生变化,使其脱离原始数据的使用路径。其二是数据内容变化。数据内容变化会使数据的功能、用途发生变化,不同的数据内容对应不同的应用场景。当加工结果已不再服务于原始数据的既有用途,而是支持新的分析目标或决策功能时,即表明数据在内容层面发生了实质转化。其三是数据形式变化。数据不仅可以原始记录的形式存在,也可通过可视化、指数化或模型化等方式呈现。形式的改变并非仅具表达意义,而是可能重塑数据的理解方式与使用方式,使其在实践中被作为独立的信息产品加以利用。因此,衍生数据判断中的实质改变标准体现为数据在结构、内容或形式上的变化,只有在整体上导致数据在功能、用途或信息内涵上相对于原始数据形成实质差异时,方可被认定为衍生数据意义上的“新数据”。
二是内在识别标准,即数据价值显著提升。价值显著提升旨在回应加工成果是否已经“值得”脱离原物、进入新的法律评价层次。从数据的价值生成机理来看,引入价值显著提升作为衍生数据的识别标准尤具合理性。在数据价值生命周期框架中,数据主要经历价值发现、价值创造和价值实现三个关键阶段。价值发现阶段的核心任务是对原始数据进行识别、预处理、清洗、格式化和整合,为后续的数据分析奠定基础。价值创造阶段通过应用数据挖掘和分析技术深入处理数据,挖掘出有价值的知识与洞见,从而将原始数据转化为具有更高价值的衍生数据。数据价值的实现则依赖于将这些衍生数据与实际应用场景相结合,将洞见转化为实际成果,以实现数据的最终价值。由此可见,数据价值的提升是数据分析和挖掘等数据处理活动的必然结果,从数据中获取知识、洞见和智慧是数据要素市场的核心目标。正是在这一意义上,价值显著提升构成价值创造阶段的内涵,并自然成为衍生数据成立的识别标志之一。若某一数据成果虽在形式上发生变化,但未能产生新的信息增量或应用价值,其规范评价仍应停留在原始数据层面,难以被认定为具有独立法律意义的衍生数据。
三是消极识别标准,即不可逆向还原为原始数据。在衍生数据的识别语境下,能否逆向还原具有不可替代的重要意义。正因如此,衍生数据是否构成“新数据”,取决于加工结果是否在规范评价上已足以脱离原始数据的范畴。若此时衍生数据可以在成本可控的条件下通过逆向工程还原为原始数据,则意味着该衍生数据在功能上仍然承载着获得原始数据的可能性,原始数据所承载的主观价值并未因加工而真正消解。所谓衍生数据不过是原始数据的另一种表达形态或中介载体,而非在规范意义上脱离原始数据的独立对象。正是基于上述考虑,衍生数据的识别有必要引入不可逆转这一消极标准,以尽可能削弱甚至阻断衍生数据与原始数据之间的潜在还原路径,从而确保衍生数据在规范意义上真正独立于原始数据。总而言之,不可逆转标准是指衍生数据无法被还原为原始数据,或者逆向还原风险已降至最低。要求衍生数据满足该标准,可确保其在流通利用过程中不被逆向还原,进而避免造成对原始数据权利人合法权益的侵害。
衍生数据的产权配置规则与在先权利保护
数据处理者取得衍生数据产权不以享有原始数据使用权为前提。正是在缺乏合意或权利基础的情形下,添附制度通过直接配置加工成果的权利归属,发挥其稳定法律关系以及激励价值创造的制度功能。衍生数据产权规则的规范目的亦是如此。实践中,除数据处理者基于授权对原始数据进行加工的情形外,还广泛存在未经授权的数据加工场景。在此背景下,若将数据处理者享有原始数据使用权作为其取得衍生数据产权的前提条件,不仅难以涵盖现实中普遍存在的多样化数据加工情形,也将削弱对数据加工劳动及其所创造新增价值的承认。因而,类比物权法上的添附规则,数据处理者取得衍生数据产权,并不当然以其对原始数据享有使用权为前提。即便在数据处理者超越授权范围或者通过非法爬取等方式获取原始数据并实施加工的情形,该等行为的违法性亦主要影响其责任承担,而不当然决定衍生数据这一新成果的产权归属。
从规范目的看,衍生数据产权配置规则至少应当回应两项核心目标:其一,合理确认并保护数据处理者在数据加工过程中的劳动价值与创造性贡献,以形成稳定预期并持续激励数据加工活动;其二,通过明确权利归属,促进对衍生数据的进一步流通与利用,最大限度释放其潜在的经济与社会价值,实现数据要素的高效配置与“数尽其用”。基于上述制度目的,在当事人未作有效约定且法律无另行规定的前提下,将衍生数据的产权配置于实施加工行为的数据处理者,在整体上更符合促进数据流通、激发数据要素活力的规范目的,具有较为充分的正当性基础。决定衍生数据产权配置的关键,不在于何者最先产生原始数据,而在于何者对数据价值的实质性增量作出决定性贡献。通常而言,实施加工行为的数据处理者在技术能力、算力资源、应用场景及持续运营方面具有明显优势,更有条件对衍生数据进行流通利用与深度开发。
对原始数据进行加工的衍生创造主体若未得到原始数据产权人的同意,则数据加工还可能引发原始数据产权人与数据加工处理者之间的求偿关系。在数据处理者对非法爬取得到的数据进行加工、未经授权加工等场景中,数据处理者因侵犯原始数据权利人使用权这一合法权益而获得利益,构成权益侵害型不当得利。在数据处理者超越授权范围加工、授权无效、被撤销以及授权终止后加工等场景中,数据处理者因请求人的给付行为而获利,构成给付型不当得利。所谓返还原始数据,是指通过让数据处理者停止使用、删除原始数据副本等方式,消除其对原始数据所形成的持续持有与使用状态,使得原始数据权利人对原始数据使用的支配状态得以恢复。同时,数据已被使用说明已经存在价值转化,简单的删除已无法消除其已产生的价值,此时需要同时匹配价值额偿还规则。恶意得利人则应承担加重返还责任。若权利人选择主张侵权损害赔偿,则可依据《民法典》第1184条,请求原始数据在公开市场中可交易的价格,或按交易习惯确定原始数据的使用费用。
结语
衍生数据是数据处理者在原始数据的基础上,通过深度分析、过滤与提炼整合等处理活动生成的高附加值数据形态,具有显著的经济价值与社会价值。衍生数据构成与原始数据相互独立的新数据,其识别标准是衍生数据产权配置规则得以展开的前置性问题。衍生数据应同时满足实质改变、价值显著增值与不可逆转三重识别标准。唯有当加工结果同时符合上述三重标准时,方可在法律意义上将其界定为衍生数据。当事人未作约定或约定不明确时,基于贡献赋权原则与“数尽其用”原则,衍生数据的产权应归属于衍生数据处理者,该权利的取得并不以其对原始数据享有使用权为前提。但在数据处理者未取得原始数据使用权而实施加工行为的情形,在先权利人可依个人信息权益请求权、不当得利返还请求权或侵权损害赔偿请求权等获得救济。如此,方能在肯定数据处理者智力劳动与要素投入的同时,兼顾原始数据权利人的合法利益,推动我国数据要素市场的高质量发展。
〔申卫星系清华大学法学院教授;摘自《法学研究》2026年第1期〕