大模型侵权第一案，学而思或被起诉偷数据

日期：2023-06-13 12:18:59 来源：腾讯网

大模型侵权第一案，学而思或被起诉偷数据

为了开发大模型，数据版权方就该要做出牺牲？

撰文 | 郑思芳

编辑 | 龚正

【资料图】

全社会都在关注各公司推出的大模型，但鲜少关注大模型背后的训练数据来自于哪，是否征得了数据版权方的授权，以及是否付费。

日前，北京笔神作文公司计划起诉其多年的合作伙伴学而思，指其近期推出的数学大模型MathGPT和在学而思学习机上线的AI助手，在未经其授权和许可情况下，爬取了海量数据，要求学而思公开道歉、删除数据资源，求偿1元。

笔者通过笔神作文联系上了与其保持有业务沟通的学而思相关负责人，发去求证信息，不过截至发稿，学而思方面未给予回复。

#01

一夜之间，数百万篇数据资源直接被爬

4月的一个周末，北京中关村笔神作文公司。

码农们都在家休息，办公室里空荡荡。然而直至周一，归来的程序员才发现，公司的海量数据，在周末这几天被一群“天外来客”爬了个遍，总爬取数超过两百万次。

事后，笔神作文的创始人及CEO宋嘉伟经过分析判断，并直接向他猜测的爬取方询问，才发现爬取者不是别人，正是与其保持有多年合作关系的学而思。

事件中的主角笔神作文，成立于2017年，是一个中小学生作文AI批改平台和投稿社区，隶属于北京一笔两划科技有限公司。

创始人宋嘉伟是一位技术达人，也是一位爱好写作的专业作家。经过过去6年的创业，笔神作文从以学生为主的用户那里，收集及沉淀了海量的作文资源。

官方宣传资料称，“笔神作文每月会收到超过30万篇作文投稿和超过40万次的点赞评论。6年来，笔神作文积累了超过数百万篇作文素材，月批改作文量超3万篇。”

宋嘉伟说，这里面融入了团队创业的心血，以来一点一点积累起来的成果。

他至今记得，为了获得作文素材的数据，笔神作文用人工审核的方式、一篇一篇筛选投稿来的作文，通过打标签、分级、数据清洗（指发现及纠正数据文件中的错误）等，最终得以积累到目前的作文素材体量。

宋嘉伟认为，正是这些优质的作文数据资源，成了“天外来客”眼中的目标。

▲ 图 | 学而思&笔神作文

笔神作文与学而思的合作要追溯到三年前。当时笔神作文与学而思旗下的一款学习工具APP——题拍拍签约合作，为其提供作文素材查询服务。

官方资料显示，题拍拍是一款免费答题APP，于2020年3月上线，涵盖全年级、全学科，为广大用户提供真人在线免费答题服务，专注于6-18岁中小学生课后学习场景。

根据双方的合作合同，双方协议笔神作文为题拍拍中的作文版块、只提供用户查询服务，且题拍拍不得将作文数据缓存本地以及机器学习训练。

合同中有这样几项条款，对笔神作文数据的使用用途，进行了较为明确的规定。

1、作为第三方技术服务商的深圳市三体云联网络科技有限公司（即“三体云联公司”，系学而思子公司），有义务保障北京一笔两划科技有限公司（即“一笔两划公司”）服务接口的安全性，应经一笔两划公司允许后、方可将合作接口内容用于双方约定好的平台或产品中。

2、合同原文称，三体云联公司不得随意泄漏、使用、传播或缓存乙方服务接口中的作文范文及其相关内容，否则造成的损失将由甲方全额赔付。

3、合同原文强调，三体云联公司不得在未经一笔两划公司允许的情况下用于任何其它用途，包括级存、存储、作为语料进行计算、训练等。

基于双方的合作精神，笔神作文介绍，自己的技术团队设计了完备的安全机制，正常情况下，可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。

爬取事件被发掘后，宋嘉伟也曾一度怀疑是不是有黑客利用了这个接口盗取数据，所以专门与学而思经常对接的程序员求证。

然而令他出乎意料的是，对方直接承认，笔神作文数据后台被高频调用、确实来自学而思方算法组的调用操作。

通常来说，算法组的工作之一，就是训练人工智能大模型。果然，在数据调用异常不到两周后，大量关于学而思推出数学大模型的新闻开始密集出现。5月初，学而思宣布将推出MathGPT，以及其中即将上线的AI助手涉及的功能。

宋嘉伟团队于是高度怀疑，学而思的这项产品已将其多年积攒的数据化为己用，关键是未经过笔神作文的同意。

尤其AI助手被介绍为是“涵盖作文助手、口语助手、阅读助手、数学助手等功能”。宋嘉伟称，学而思自己并没有海量作文素材数据，否则此前双方的合作也不会开始。

苦心经营多年的数据在一个周末被擅自爬取，“团队的苦心经营为他人的大模型做了嫁衣。”宋嘉伟表示。

事件发生之后，宋嘉伟多次向学而思相关方询问事宜，包括发出律师函，却始终没有得到实质性答复。

目前一笔两划公司已经搜集证据，准备走司法程序来维权。其诉求有三：

要求公开致歉、删除非法获取的数据并中止应用、求偿1元。

对于笔神作文的诉求，笔者通过笔神作文联系到了学而思方面相关负责人，对方在通过微信验证、并看到相关提问后，直接拉黑了联络微信。未针对笔神作文的诉求给于回应。

#02

海外类似纠纷频发

笔神作文与学而思题拍拍之间发生的纠纷，揭开了大模型热潮下一个容易被忽视的角落。

大模型想变得智能，就需要对海量数据进行深度学习。然而海量数据来自哪，是否被版权方授权，是否有需要付费，目前这是一个模糊地带。

《真故研究室》搜集了国内过往诸多案例。围绕一般版权的诉讼案例比较多，鲜见围绕大模型数据版权而展开的诉讼。但在海外，类似数据版权纠纷已经显示出频发态势。

先说结论，从海外数据版权纠纷来看，侵权方与被侵权方之间未存在共识。这导致数据版权保护起来还有难度。

今年年初，被称为美国最大的商业图库提供商Getty Images，在英国起诉了Stability AI。这是英国首起涉及人工智能的重大知识产权纠纷。

Stability AI公司，即Stable Diffusion这个AI图像生成模型的创建者。

Getty Images认定Stability AI非法复制和处理了Getty Images拥有或代表的受版权保护的图像以及相关元数据，涉及数以百万计数据。而这些行为并未获得Getty Images任何授权许可，在给Stability AI的商业利益带来收益的同时，侵害了内容创作者的权益。

截至目前，Stability AI尚未就这个申诉作出公开评论，但其首席执行官Emad Mostaque在推特中表示，“我认为他们（指自己）都是通过合乎规范、道德和法律标准的方式获得并使用的”。

▲ 图 | AI正在迅速学习数据，拓展更多用途

这种情况不算个例。

今年4月，美国艾伦人工智能研究院（2014年成立，最初定位为AI技术自研平台）等发布了一份针对谷歌C4数据集的调查结果。

调查拆解了谷歌的C4数据集，它是很多知名英语AI大模型的训练材料，比如谷歌的T5（2019年10月发布）和Facebook的LLaMA（2023年2月发布）。

拆解的目的是为研究C4数据集里究竟包含哪些数据材料来源。研究认为，这关系许多英语AI大模型所使用数据的正当性，比如是否有侵权，以及是否存在“脏数据”（比如本身就是盗版的数据）。

调查结果显示，C4数据集中实际包含的大约1000万个网站数据发现，其中有很大一部分是来路不正的数据源，包括盗版电子书网站b-ok.org等。

而一些诸如创意产品众筹网站、个人博客也包含其中且排名靠前，意味着这类数据被使用的权重越高。问题的关键是，这些数据版权方可能未获得任何授权或报酬。

作为头部人工智能大模型的OpenAI，显然也知道行业存在的这些问题，但没有直接提出解决措施。

今年5月16日，OpenAI首席执行官山姆·奥特曼曾在一个听证会场合表示，他呼吁主管部门对生成式人工智能进行监管和干预。然而，对于作品被用于人工智能生成的歌曲、文章，或其他作品的内容创作者如何得到补偿等问题时，奥特曼并未给出明确的回答。

▲ 图 | OpenAI首席执行官山姆·奥特曼

从上述案例可以看到，数据版权方被侵权，在许多大模型中是一种已发生的事实。版权方与使用方在相关问题上存有分歧，并未有达成一致的解决措施。

#03

围绕数据侵权的治理已在路上

从海内外数据版权纠纷来看，这是否就意味着数据版权方的利益，就难以得到保护呢。

还是先说结论。目前，我国《著作权法》对数据版权的保护存在相关规定，可被侵权者使用。其次，包括中国国家互联网信息办公室在内的相关单位、以及行业组织，已经行动起来，准备出台措施、或发出倡议，呼吁保护数据版权方的利益，全社会的共识正在凝聚中。

在我国目前现行的《著作权法》框架下，GPT训练数据使用过程的不同行为均可能存在著作权侵权风险。

《著作权法》中规定了12种合理使用情形，包括为个人学习、研究或者欣赏；为介绍、评论某一作品或说明某一问题，在作品中适当引用他人已经发表的作品；为报道时事新闻，在各类媒体中不可避免地再现或者引用已经发表的作品；为学校课堂教学或者科学研究等。

而ChatGPT对训练数据的使用，明显并非为“个人学习”“教学或科研”“公共文化机构”所使用，本质上属商业性使用，因此涉嫌侵权方很难直接援引该条为自己侵权抗辩。

针对大模型带来的新情况，海内外也在出台一系列政策文件，进一步规范。

4月11日，中国国家互联网信息办公室起草了《生成式人工智能服务管理办法（征求意见稿）》，以期促进生成式人工智能技术的健康发展和规范应用。当中就有一条明确指出：用于生成式人工智能产品的预训练、优化训练数据，应满足不含有侵犯知识产权的内容。

▲ 图 | 大模型发展，版权保护也不能置之不理

国际社会也正在加快相关讨论。

4月30日，世界发达国家的技术部长在日本发布了共同声明，指出需要促进“负责任”地使用ChatGPT等人工智能工具。其中就包括治理、如何保障包括版权在内的知识产权、促进透明度、处理虚假信息，以及如何负责任地利用这些技术等议题。

目前，国内的相关行业已经开始有相关动作。

近日，中文在线（300364）、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。

作为业内首份AIGC数据版权倡议书，业内认为其最大的价值在于两点：一是唤醒了国内AI企业关于大模型训练数据的版权意识；二是为AIGC研发者规避版权争议提供了方向性指引。

有关方面指出，合理使用正版数据的倡议被提出，是对AIGC研发主体的警示和启发。

回到最开始的笔神作文与学而思纠纷，关注这个案件进展的意义在于，它关系着所有手上持有优质数据版权公司的切身利益。而大模型行业要健康发展，不能对存在的问题假装闭一只眼睛就能蒙混过关。

宋嘉伟回忆，原本笔神作文与题拍拍合作的过程还算愉快，哪怕中途遇到行业调整，似乎也没影响双方的合作。

双减打击之下，教培行业受政策调整，业务受到了影响。宋嘉伟说，在题拍拍效益不好、规模变小之时，笔神也将合同中约定的服务收费调整到原本的三分之一，意在携手度过教培寒冬。

然而寒冬还没挺过，令宋嘉伟意外的是，感觉自己遭到了合作伙伴的背刺。

参考资料：

1、《“你的AI侵犯了我的版权”：浅谈AIGC背后的版权保护问题》，腾讯研究院，2023年3月1日发布

2、《Getty Images就 AI训练中的版权侵权行为在英国起诉Stability AI》，买麦仕奇知识产权，2023年3月6日发布

3、《媒体揭开大模型阴暗面：训练用的数据可能有点脏》，旭诺资产，2023年4月20日发布

标签：

上一篇：鼎的笔画笔顺_鼎的笔画

下一篇：最后一页

投资促进

21 2022-12

富力地产创始人张力在英国被抓捕股价开盘大跌

精彩推送

全国巡演

1雄安回迁居民：进城上楼变市民

2上海：提出社区疫情防控管理工作指引，针对薄弱环节努力改进

3江西新增本土“1+18” 南昌开启清明网上祭扫

4福建省发布海浪黄色预警

5截至3月31日19时吉林省新增隔离房源7249间

6山东聊城新增1例本土无症状感染者

7吉林省共启用方舱医院22个收治患者24181人

8吉林省本轮疫情累计密切接触者118045人

9上海累计排查在沪密接者37846人均已落实管控

10江苏宿迁中心城区实施静态管理5天停止一切非必要流动和活动

大模型侵权第一案，学而思或被起诉偷数据

鼎的笔画笔顺_鼎的笔画

天天微头条丨低筋面粉可以做面包吗?怎样做好吃（低筋面粉可以做面包）

厦门：多个保障房项目建设迎新进展

信用卡挂账停息影响征信吗？停息挂账的好处和危害有哪些？动态

世界快看点丨陕西5人入选全国“百个巾帼好网民故事”

观焦点：天水麦积警方打掉一盗窃团伙追赃挽损40余万元

本周仍是强对流的主场雨水又要“上线”了

手机如何连接电视上网课_手机如何连接电视

前5个月水利建设完成投资同比增长32.1%|天天热点评

每日观察!大红八角种子催芽方法_大红八角种子怎么催芽

每日观点：dwg文件格式怎么转换pdf_dwg格式转换成pdf免费

惠普1022和1020的区别（惠普1022）|焦点短讯

世界热文：小孩老是咳嗽是什么原因_老是咳嗽是什么原因

报志愿有用！全国 3013 所高校全名单来了

srx凯迪拉克二手_srx凯迪拉克

5月份汽车产销量稳定增长市场温和回暖

炸锅！光伏惊魂？中国企业高管在德国，刚下飞机就被带走！热点聚焦

当前报道:初初反义词（初的反义词是什么一年级）

中疾控：预计美国前期人偏肺病毒高发疫情对我国影响有限世界要闻

金冠电气：中标5728.99万元国网安徽省电力公司合同全球新要闻

全球热议:上海法院探索在线办理仲裁财产保全机制

天天热消息：2023涿州市企业吸纳就业补贴需要准备哪些材料？

环球观速讯丨饲养员虐待大熊猫？官方回应

金逸影视（002905）6月12日主力资金净买入4756.41万元快资讯

动态焦点:2023眉山中考语文作文题目及点评

骁龙8 Gen2超频版7月8日见！

港股异动｜ASMPT(00522)早盘涨近4% 先进封装产能紧张机构称公司有望受益|天天最资讯

零线的作用是什么（零线的作用）

消息！龙湖集团前5个月累计总合同销售金额817.2亿元

已认证的进项税额转出的会计分录是什么_已认证的进项税额转出的会计分录

刘亚仁涉嫌使用毒品种类追加，新发现2种一共七种|天天日报

每日速看!聚焦深圳文博会 | 一本书演绎的奏鸣曲

密度板规格型号_密度板规格

河南麦收进入尾声，已收获小麦8402万亩

菲律宾马荣火山喷发风险上升阿尔拜省宣布进入灾难状态

全球报道:牵手胡继勇的董思槿相貌前后相差这么大的秘密

“皮影也科技——非遗科技文化展”在科技馆推出

焦点播报:九首歌180分钟未删减版百度网盘（九首歌180分钟未删）

信息：古老沣河涌动新活力

上海中心气象台发布暴雨蓝色预警【Ⅳ级/一般】【2023-06-10】

以文塑旅以旅彰文融合发展广东文旅市场强劲复苏-滚动

末世预见TXT下载末世预见_每日时讯

最新快讯!好高骛远的读音_好高骛远的意思

洪都拉斯申请加入新开发银行

快看点丨广东省各地退休金标准2023年公布没？今年各地养老金如何计算的？

三星折叠屏W24系列通过认证：Fold5和Flip5换皮版，标配25W快充|世界聚焦

4个工具，让 ChatGPT 如虎添翼！

2023年广州社保退休工资标准是多少钱？每月可以领多少钱？_全球速讯

大模型侵权第一案，学而思或被起诉偷数据

大模型侵权第一案，学而思或被起诉偷数据

快递保价纠纷频发的背后 快递物流业保价规则亟需官方出面制定

清明假期全国大面积放晴 北方多地气温将创新高

辽宁新增2例本土新冠肺炎确诊病例、61例本土无症状感染者

黑龙江新增本土确诊病例16例、本土无症状感染者17例

天津市新增1例本土确诊病例、3例本土无症状感染者

北京新增2例境外输入确诊病例和4例无症状感染者

前5个月我国完成水利建设投资逾4100亿元

通讯！高腰紧身牛仔裤，时髦又百搭，搭配黑色吊带，显得身姿曼妙

世界资讯：卖红酒背熟10句开场白话术?

高盛：明年美国经济衰退的可能性下降主要有两个原因

世界实时：国家防总启动四级应急响应

“女生曝光疑被偷拍”事件，多方回应

【环球速看料】如何促进新型研发机构高质量发展？广州这样做

连衣裙带来甜美气息，诠释出时髦气息，曼妙身材尽显|当前速读

善学者尽其理善行者究其难什么意思遇事三思而后行（善学者尽其理 善行者究其难什么意思）_快播

高考收官：这一刻 让我抱抱你！

无人接听一般多少秒_无人接听

【夏收现场】 知识落“地”助丰收 耕地质量提升示范田小麦增产53.6% 世界焦点

快手如何设置在线对其隐身_在线对其隐身 天天微速讯

天天热消息：发繁体 满江红（发繁体）

顺德退休金计算方法是什么？2023顺德领取养老金条件是什么？

新资讯：聚焦天津六大领域 在学习中探究家乡魅力

济南海关查获禁止进口固体废物23吨（图）_当前速递

红葡萄酒和白葡萄酒有什么区别?

流年是指哪一年（流年是什么意思）

江苏考生最爱报哪个专业？去哪里上学？大数据分析报告来了！

我的少女时代前一任徐太宇是谁 我的少女时代前一任徐太宇是谁扮演的

历时100天，180余项活动陆续开展，长春消夏艺术节盛大启幕-环球聚看点

2023年第三期和第四期储蓄国债（电子式）今日发行 五年期票面利率3.07%|全球速看料

要不要刺激房地产，不是简单的经济问题

世界热门:夜幕下，一个群体带动城市消费新热潮

多措并举促进应届高校毕业生就业 网络招聘活动忙_今日热讯

天天快报!怎么把牌飞出去（如何把牌飞回来）

环球快资讯：微软准备在加拿大新建实验室 将配备公司在中国和世界各地的AI专家

组图｜2023高考结束！青春不散场 未来皆可期

一级域名企业网站 2017免费一级域名

广东2023年夏季高考试题评析：稳中有变 守正创新

篮网聘请科里-文斯担任助教 他曾在太阳与布里奇斯和卡梅隆共事

世界热推荐：【乡村振兴 云梦实践】甜瓜飘香惹人醉 硕果累累丰收忙

助力“非遗+旅游”深度融合发展 同程旅行推出文化遗产日主题活动 每日速讯

焦点热门:央行行长易纲：加大力度支持科技型企业、绿色发展等重点领域融资

【全球聚看点】rng队史冠军_RNG战队夺冠史

平台业绩“高歌猛进” 国内旅游业强劲复苏_当前独家

今日快讯：华绿生物：6月8日获融资买入414.55万元，占当日流入资金比例11.77%

美国联邦最高法院裁定亚拉巴马州需重新划分选区 今日聚焦

猪菜磨底VS服务回暖！5月CPI或小幅反弹

国债逆回购买卖时间（国债逆回购怎么买卖视频教学）

泰瑞机器：拟发行不超3.8亿元可转债_独家焦点

当前动态:辽宁机电单招考什么报多少人了试好吗

融合有机物无机物 浙江大学研究团队创造出新物质

泰国曼谷吞武里大学相当于中国的几本|全球聚看点

石蜜是什么_石蜜 世界观天下

全球今日报丨苹果MR看电影功能强大！未来观影体验或颠覆IMAX影院

上海中房建筑设计有限公司怎么样（上海中房建筑设计有限公司）

加拿大在空气污染中迎来“清洁空气日” 医院为患者可能增加做准备 世界关注

淮北市广播电视台（关于淮北市广播电视台介绍） 全球快资讯

快递保价纠纷频发的背后快递物流业保价规则亟需官方出面制定

清明假期全国大面积放晴北方多地气温将创新高

善学者尽其理善行者究其难什么意思遇事三思而后行（善学者尽其理善行者究其难什么意思）_快播

高考收官：这一刻让我抱抱你！

【夏收现场】知识落“地”助丰收耕地质量提升示范田小麦增产53.6% 世界焦点

快手如何设置在线对其隐身_在线对其隐身天天微速讯

天天热消息：发繁体满江红（发繁体）

新资讯：聚焦天津六大领域在学习中探究家乡魅力

我的少女时代前一任徐太宇是谁我的少女时代前一任徐太宇是谁扮演的

2023年第三期和第四期储蓄国债（电子式）今日发行五年期票面利率3.07%|全球速看料

多措并举促进应届高校毕业生就业网络招聘活动忙_今日热讯

环球快资讯：微软准备在加拿大新建实验室将配备公司在中国和世界各地的AI专家

组图｜2023高考结束！青春不散场未来皆可期

广东2023年夏季高考试题评析：稳中有变守正创新

篮网聘请科里-文斯担任助教他曾在太阳与布里奇斯和卡梅隆共事

世界热推荐：【乡村振兴云梦实践】甜瓜飘香惹人醉硕果累累丰收忙

助力“非遗+旅游”深度融合发展同程旅行推出文化遗产日主题活动每日速讯

美国联邦最高法院裁定亚拉巴马州需重新划分选区今日聚焦

融合有机物无机物浙江大学研究团队创造出新物质

石蜜是什么_石蜜世界观天下

加拿大在空气污染中迎来“清洁空气日” 医院为患者可能增加做准备世界关注

淮北市广播电视台（关于淮北市广播电视台介绍）全球快资讯