冯娟教授在首届中国数字经济发展和治理学术年会上的主旨演讲:Who Should Own the Data?
2月18日,2023年春季首届中国数字经济发展和治理学术年会在清华大学顺利举办。会议由清华大学经济管理学院、公共管理学院和计算社会科学与国家治理实验室承办。清华大学经济管理学院教授冯娟教授在大会发表题为《Who Should Own the Data? 》的主旨演讲。本文根据冯娟教授现场发言内容整理。
冯娟教授作主旨演讲
谢谢陈煜波老师的介绍。今天非常荣幸能够在这样一个场合跟大家分享我自己的一些研究体会。
刚才林维老师抛出来的很多问题是跟立法相关的,实际上在经济学的研究里面,数据的所有权以及我们怎么去确权的问题困惑我们很久。在未来,我们的法律是否应该基于社会福利的大小来制定,从而保护大部分人的利益,这些宏观的政策性问题实际上也是学术研究非常关心的方面。所以我觉得今天这个年会、论坛特别及时,而且十分重要。我们今天一而再再而三地提出,在数据经济的时代,最突出的一个特点就是数据成为了重要的竞争资源,平台经济的发展、海量的信息,都蕴含了巨大的价值。
回想起来,在人类历史中,我们很早就意识到信息数据是一种重要资源,但似乎从来没有将数据视为一种资产,所以如何明确数据资产的归属权在今天变得尤为急迫。如今我们提出的数据确权问题,是人类历史上以前从没有考虑过的,它的出现延伸出很多商业和法律层面的问题。
我今天想着重分享的一篇文章和这个问题密切相关。日常生活中,每天都会有大量的用户在各种平台上面产生有如浏览、购买、售后服务咨询等各种行为。所有这些行为都被平台以数据的形式记录下来,并成为了平台的数据资产。因为它可以帮助任何使用这些数据的人,了解这些数据背后的每一个用户。对此,一方面,它是由用户产生的,且是属于用户隐私的一类数据。但是另外一方面,平台作为信息系统的建设者,收集者和储存者,它投入了大量成本,使这些用户产生的数据得以被保存,并形成我们所说的数据资产,而不是逸散掉。可见对于平台所收集的用户数据来说,用户与平台这两个参与者缺一不可。那么这种数据到底是应该属于谁?这值得我们思考。
另外一个问题就非常自然地延伸出来。消费者在使用企业所生产的产品过程中产生了一些数据。对于这类数据,到底应该是属于企业还是属于消费者个人呢?相信大家都知道之前发生的关于特斯拉刹车案例引发的争议。作为对公众质疑的回应,特斯拉公布了一些行驶数据。但所公布的数据是否有公信力,引发了很多讨论。因为这些行驶数据是在车主驾驶汽车的过程中所产生的,并被车企采集、储存。当发生事故并且需要认定责任的时候,作为企业,它在收集数据的同时,拥有了修改数据、判定数据是否有异常等一系列权能,而作为数据生产者的车主,却只能等待一个结果。这不可避免地引起了公众的质疑。
我再举一个例子,是关于我进行的另外一个研究,就是互联网上的内容作品归属权。什么意思呢?现在我们能看到很多平台和组织,包括影视协会,对于网络上面关于影视产品的二次剪辑是做了声明的。如果各位关注抖音和B站的话,会看到上面有相当多的剪辑类视频从业者,他们的作品相当丰富,比如一部时长两小时的电影,他五分钟给你讲完。我们家十几岁的小朋友很容易被这类影视剪辑视频所吸引,他会一部一部地接着看。那么我们该如何看待这种二次创作呢?有很多未经授权就随意剪辑影视作品的行为是否构成法律风险?我咨询过律师,我的律师朋友跟我讲,从知识产权的保护上面这是很容易被界定的,但是侵权现象在互联网平台上比较普遍,目前没有可能一一起诉。
从另外一个角度来讲,版权的保护实际上有相当长的历史了。但是在数字化高速发展的今天,内容呈现也实现了数字化,非常容易被复制、传播。我们随手下载一个视频并稍作修改,就可以形成新的内容。这种现象是不是促使我们重新思考数字经济时代的版权保护措施呢?二十年以前,当时我在美国念书,有一个很有名的免费音乐网站叫Napster,它后来因侵权起诉而关停了。当时我们的校长专门给我们发了邮件,说因为这些诉讼,我们不能再用这个网站了。当时起诉原因是“音乐的免费传播,极大地损害了唱片公司的利润”,大家不再去线下买唱片了。后来学界做了很多后续的研究,发现这个损失很可能并没有那么大。为什么呢?因为有相当一部分到网上欣赏免费音乐的人可能在现实生活当中,也不会去买唱片,所以唱片公司计算的损失很可能是被夸大了。
另外我们从宣发的角度来讲,原创作品被无偿剪辑成各种短视频也不见得都是坏事。很多时候,这些短视频能为原作品带来关注、带来流量,就如有的公司在影视在上映影片之前的造势发布会一样。举一个例子,重新翻拍的《鹿鼎记》在网上就存在很大争议。很多人通过截取剧中浮夸的表演来批评整部剧的质量。但是诸多的批评,反而让它的热度持续了很长时间。所以从某种程度上说,二创内容对原作品本身的传播也有可能给予帮助?我们家的小朋友很喜欢看抖音上的二次剪辑的作品,你说它是不是给消费者带来了福利呢?因为看起来,消费者们似乎很喜闻乐见这样子的一些作品。但是,如果我们去鼓励这种二次创作,那原创者的收益是不是就受到损害了呢?毕竟原创者要花费大量的时间和金钱去投资和制作一个好的原创产品。这是非常不容易的一件事情。如果这些原创产品因为互联网的发展,被轻易复制并且再次创作形成各种吸引眼球的短视频,从而流失了大量原本属于自己的消费者。那么原创者的积极性难免不受到影响。现如今,消费者对基于原创产品的二创产品接受度越来越高,原创作品与二创产品的联系也越来越紧密,我们是否应该重新思考版权保护新机制,在保护生产内容原创方的利益的同时,又能促进消费者的福利的?
还有一些数据确权的例子,跟我的研究相关,比如我跟一些平台公司交流中了解到,他们为客户打广告的同时,希望客户对广告投放效果有所回馈,以便平台对未来的广告投放策略进行改善。但是这样一个看似非常简单的行为,在现实生活当中却是很难实施的。因为我们觉得数据共享好像说起来是很简单一句话,但实际上落实到现实生活当中,牵涉到每个主体之间的利益,是很难扯清楚的,因为这实际上是客户的隐私数据,人家不见得愿意跟你做共享。
另外一个研究项目关于企业联合开发。比如药品研发、需要一些数据的共享,那么有没有什么好的机制促进这样的共享。现在我们从技术角度来讲,也谈了很久了,比如区块链、联邦学习、隐私计算等种种的技术,是有潜力来实现数据的可用,但是不可见。其实微众银行是一个非常大的场景用到联邦学习的方法,药企之间也是一样的,因为作为药品的开发,我们是需要非常大量的数据,一个公司的力量可能不够。那么,大公司和小公司相比,什么公司会从这样的数据共享,联合开发中受益更多呢?数据共享会给小公司带来更多的发展机会吗?
当然,不管是版权保护也好,还是平台上用户产生的数据也好,还是数据的共享也好,我想它的根本逻辑就是在于数据的确权。我们这个内容可不可以确权?一旦有人使用,我们能不能比较容易地去追溯到这样的行为。所以作为数据的确权,我们看到它真的是越来越重要,是未来我们没有办法去回避的一个问题。
我们刚才说了我们的技术在一定程度上给我们提供了这样子的可能性,但是我们回顾人类的历史,其实有非常多很好的技术,最后没有被采用,所以它实际上是关系到什么呢?关系到这个技术的落地,这个技术怎么落地,一定是和我们的机制和经济学理论有关,这才是最关键的问题。
我自己是跟学生有一个关于版权保护的课题,我们在研究Re-Creation还是Co-creation。什么意思呢?我剪辑别人的产品,是我去复制还是我们共同去创造,我能不能把它定义清楚,它对社会福利到底有害还是没害,能不能设计一些机制去保护原创者的利益,我们做了一个数学模型,去刻画这个事情。
今天关于我报告的题目主要和这篇研究《Who Should Own the Data?》相关,这是比较早的一篇讨论数据所有权的学术文章,我们现在的技术可以怎么样呢?今天我们看到已经有商业实践方面的创新,可以让消费者有可能实现对自己数据进行控制。就是把数据的控制权交给消费者,消费者说这部分数据你可以拿去,那么你就可以拿。要是消费者说不行,那就不能用。今天我们很多平台都非常广泛地应用到了广大消费者的数据。比如你在平台搜索,你写出第一个字,平台就开始猜第二个字,就说明平台用到了很多数据采集、大数据的分析方法,那样子的数据分析方法它采集的不仅仅是你的数据,还有成千上万个别人的数据,它才能给你做出这样子的推荐。在未来假如说每个消费者都意识到自己的数据对于平台算法质量有影响和贡献。那么消费者还愿不愿意给平台这种数据的所有权?特别是我们今天在讲大平台,刚才魏江老师提到了相关讨论,未来它的优势会不会就不这么明显了呢?作为我们的政府来讲,政府是不是应该去把数据的所有权给消费者,这样消费者的福利是不是能够真正地提高呢?都值得研究探讨。
我跟从前的两位博士生合作过一个文章,在这个文章里面,我们做了一个数学模型,研究这些数据应该归谁所有,我们应不应该empower消费者控制自己的数据,如果应该的话,那么平台是不是应该提供对消费者的补偿,比如说你用我一次数据,你付我0.001分钱,我要的不高,只有一点点钱,但是这么一点点钱会不会改变平台对于数据的垄断,它对未来的竞争会产生什么样的影响?这个具体的数学模型没有时间讲了。目前实践中还没有数据出来可以做这样的实证分析,为了看未来的趋势,我们做了一个博弈论的模型。我们发现了令人吃惊的事,就是目前觉得把所有权交给消费者对消费者是有利的这种观点,但我们发现实际上不一定成立,为什么呢?因为平台方也是有自己的反应的。今天有一位学者讲到了一个非常有意思的观点,我非常认同,就是你一旦把决定权交给了消费者,消费者可以决定是否分享的话,分享和不分享都说明了他的观念,这样消费者就分层了。平台面临着拿不到所有的数据的情况,它会做调整的,它不是一成不变的,比如它会调整算法输出的质量。你要是不给我分享数据,可能你收到的质量就会低一些。这对一部分消费者的福利是有损害的。所以最后我们的数学模型发现,消费者是不见得能够从单纯的数据所有权的分享当中受利的,这取决于平台反应的措施有多么的强烈。而且正是因为平台在这个过程当中有可能对自己的服务质量做出调整,所以其实policy maker是需要警觉的,因为有可能这个市场最后有可能会因为对消费者带来的影响太大,会不存在了。
这里面最主要的观念是,因为消费者获得的服务的质量是需要平台做投资的,不管是建信息系统也好,做数据分析来为消费者提供个性化服务也好。所以实际上我们在做消费者的权益保护的时候,不管从法律的角度还是从社会福利的角度,需要考虑多方权利的trade off,以及从长期来看各方对某项政策的反应。
今天利用这个短暂的机会跟大家做这些分享,谢谢大家!