服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

吾道南来:为纽约时报向生成式AI维权叫好

日期: 来源:青年记者收集编辑:青年记者

  作者:吾道南来(资深媒体人)

2023年年底,美国纽约时报将OpenAI(开放人工智能研究中心)及其伙伴微软公司告上法庭,指控这两家公司未经授权使用该媒体数以百万计的文章训练ChatGPT等生成式AI,要求停止使用其内容训练AI模型并销毁训练数据,并要求获得损害赔偿。

这一诉讼已被美国当地法院受理。虽然这不是国内外大模型企业被诉讼的第一例,但国际知名媒体状告大模型企业是首例。这可能是迄今为止向生成式AI维权最具代表性和全球影响力的案例,判决结果可能会影响整个AI产业和新闻出版业的发展方向。

作为媒体人,笔者不禁为此鼓掌叫好。

2023年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据;4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐;6月,国内的笔神作文发布声明,指控学而思AI大模型侵权;12月多名创作者起诉小红书AI模型涉嫌使用这些画师的作品训练。据不完全统计,2023年仅在美国加州,就有数十起针对大模型开发商违规使用数据的诉讼。

笔者认为,纽约时报的起诉并非如OpenAI回应的那样“毫无根据”。

其一,纽约时报的起诉有充分的法理依据。

美国是全球知识产权保护最严格的国家之一。纽约时报对其生产的图文、视频等内容拥有无可争辩的版权,内容数据是其优质资产,如果被用来训练生成式AI,无疑是比较稀缺、优质的训练语料。

OpenAI在声明中反复强调,由于模型是从人类知识的巨大集合中学习的,因此任何一个领域——包括新闻——都只是所有训练数据中的一小部分,任何一个数据源——包括纽约时报——对模型的专门学习都没有意义。但是,OpenAI为何这么看重纽约时报等媒体的数据,就是因为这些媒体拥有的数据是可信的训练数据来源,这就不难理解为什么OpenAI此前与纽约时报等一直在谈判。据OpenAI 知识产权和内容首席 Tom Rubin表示,公司近期与数十家出版商展开了有关许可协议的谈判。据两名近期与 OpenAI 进行谈判的媒体公司高管透露,为了获得将新闻文章用于训练其大模型的许可,OpenAI 愿意向部分媒体公司缴纳每年100万至500万美元的费用。总之,数据是大模型训练的基石,如果没有可信、可靠的数据,大模型的训练就是无源之水、无本之木。大模型的迅速发展已引发“数据饥荒”。

根据美国现行版权法及其加入的《世界版权公约》《伯尔尼公约》《日内瓦公约》等著作权国际条约,除合理使用和强制许可外,未经授权不得复制和传播版权作品。纽约时报诉称:“如果微软和OpenAI要将我们的作品用于商业目的,法律要求他们首先要获得我们的许可。但他们没有这样做。”

OpenAI辩称,使用公开可用的互联网资料训练大模型是合理使用,这一原则对创造者是公平的,对创新者是必要的,对美国的竞争力也是至关重要的。

笔者认为,按照美国现行的版权法,大模型使用版权作品训练,很难归入合理使用的法定情形。

美国对著作权的权利限制,有合理使用和强制许可。合理使用的规定集中体现在其版权法第107条之中,该条不仅列举了批评与评论、新闻报道、教学活动及学术研究等传统的合理使用范畴,而且列出了判断合理使用与否的四条标准:(1)使用的目的与性质;(2)该版权作品的性质;(3)使用部分占被利用作品质与量的比例;(4)该使用对版权作品潜在市场或价值所产生的影响。这被称为合理使用认定“四要素标准”。

根据这4条标准,大模型使用版权作品训练很难够得上“合理使用”,因为其使用目的最终是商用。如果OpenAI有强硬的法律撑腰,就不会去和出版商谈判了。

其二,纽约时报的起诉有充足的事实依据。

纽约时报认为,OpenAI和微软旗下的生成式AI吸收了其几百万篇原创文章,不仅可以将原报道逐字逐句地“复制”给提问的用户,还可模仿其写作风格,对文章进行提炼、总结,甚至被当作可靠信源。其搜集的多达100个证据显示ChatGPT输出的内容与纽约时报的新闻内容高度相似,OpenAI的 GPT-4涉嫌直接抄袭纽约时报的原文。纽约时报表示,涉事公司需要承担其造成的“价值数十亿美元的法定及实际损失”。

最近的一项研究结果也表明,生成式 AI 开发商就是在用版权素材训练自己的系统,生成式 AI 系统可能会频繁产生文本和视觉抄袭输出。

在确凿的证据面前,OpenAI也承认了这一点。他们把这种抄袭输出现象称为“反流”:“死记硬背是学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,这种故障就比较常见了。例如,如果这些内容的片段出现在许多不同的公共网站上。因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。”

纽约时报在诉讼中还提到了生成式AI的另一个通病——会生成并传播虚假、无意义或令人反感的内容。比如,微软必应上的聊天机器人曾罗列过“15种有利于心脏健康的食物”,并将信源指向纽约时报,但这15种食物中有12种未被原报道提及。笔者认为,这不仅涉嫌侵犯版权,而且涉嫌侵犯纽约时报的名誉权。

从海内外的报道来看,针对大模型企业的版权诉讼主要聚焦于模型训练和输出阶段的侵权行为。大模型企业与新闻媒体的博弈一直在展开,双方都在强调其发展的重要性。

2023年5月,在美国国会召开的“交互中的人工智能与版权法”听证会上,美国版权局前总法律顾问Sy Damle表示:“任何强制模型对于训练内容付费许可的尝试,要么会使美国AI行业破产,消除我们在国际舞台上的竞争力;要么会驱使这些头部AI公司离开这个国家。”

纽约时报则表示,若相关新闻机构无法保护其独立报道,原创新闻报道会随之减少,届时“社会将出现计算机和AI无法填补的真空”。

笔者认为,双方都有愿望进行合作,相互成就,创造互惠互利、共享发展的机会,关键是找到一个双方利益的平衡点。比如大模型企业为新闻媒体的智能化生产、传播、运营提供技术支持,支持新闻媒体建立健康的新闻生态系统,授权大模型使用版权内容但要支付一定的费用等。

总之,纽约时报向生成式AI维权给我们以深刻的启示:新闻媒体与大模型企业既要斗争,又要合作,斗争是为了更好的合作。

(作者为资深媒体人)

相关阅读

  • 代表访谈 | 吴姣:为磨练大模型提供应用场景

  • “聆听了北京市政府工作报告,很受鼓舞。走出一条具有特色的创新驱动发展之路是未来发展方向。北京市着力发挥科技创新引领作用,经济高质量发展内生动力进一步增强,让人振奋。”
  • 冠军AI形象创作实例19:冰壶世界冠军王冰玉

  • 图文创作:平西王AI自2023年火爆之后,迅速收获了大量眼球。将这一最新技术,与奥运冠军和世界冠军相结合,创作出一种全新风格的冠军形象,更好地推动体育运动和全民健身。这个想法,
  • 钉钉飞书的AI大战,一场繁花还是一地鸡毛?

  • 移动办公行业,最近有且只有一件大事。那就是钉钉和飞书之间的AI大模型之战。过去我们一般认为,移动办公三分天下。钉钉、飞书和企业微信各有擅长,飞书适合中小型团队,钉钉适合大
  • 人生下半场,大佬们还是希望玩转互联网

  • AI大模型的出现,让大佬们显现出久违的平和。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍开年第一场大戏,互联网世界再度等来了周鸿祎。从5日风马牛年终秀圆桌论坛上言语较量,到10
  • 大模型,还是救不了困境中的AI企业

  • 去年,ChatGPT掀起的一片浪花,卷起了全球互联网科技创新的浪潮,大模型成为当之无愧的风口,这也给近几年略显平静和停滞的AI行业注入了新的活力,让AI相关企业再次站在互联网舞台的
  • 冠军AI形象创作实例2:武术世界冠军柴云龙

  • 图文创作:平西王冠军出图要求:全身,穿鞋,长衣,长裤。创作三要素:基础模型、Lora模型、提示词(提示词和反向词)。下面简要讲解7个创作步骤。1. 收集冠军照片。要求:面部清晰图,多个角

热门文章

最新文章

  • 吾道南来:为纽约时报向生成式AI维权叫好

  • 作者:吾道南来(资深媒体人)2023年年底,美国纽约时报将OpenAI(开放人工智能研究中心)及其伙伴微软公司告上法庭,指控这两家公司未经授权使用该媒体数以百万计的文章训练ChatGPT等
  • 冰雪童话云台游

  • 上次云台山那场大雪,我错过了欣赏。云台山冰雪节的到来为我弥补缺憾提供了便利,我不能再缺席了。元旦假期,趁着回老家办事的间隙,我让学生帮我买好了云台山旅游年卡,当晚便约了表
  • 搏命之战:当怀孕遇上心脏病

  • 近期,一名先天性心脏病患者不仅是一位即将成为母亲的女性,还是一名曾经接受过心脏瓣膜置换术的患者。 该患者在14年前进行了心脏瓣膜置换术,置入了金属瓣膜。这类手术一般在术