生成式 AI ChatGPT 的法律末日如果被发现抄袭或侵权,警告 AI 伦理和 AI 法

在信用到期的地方给予信用。

这可能是您从小就坚信的一点圣人智慧。确实,人们假设或想象我们可能都在某种程度上合理地同意这是生活中公平明智的经验法则。 当某人做了值得承认的事情时,确保他们得到应有的认可。

反向观点似乎没有那么引人注目。

如果有人四处走动坚持信用应该 不能 在信用到期时被认可,好吧,你可能会断言这样的信念是不礼貌的并且可能是卑鄙的。 当成就显着的人的信用被骗走时,我们常常发现自己非常不安。 我敢说,我们尤其不喜欢别人把别人的工作据为己有。 这是一个令人不安的双重打击。 应该得到荣誉的人被剥夺了他们在阳光下的时刻。 此外,骗子正在享受聚光灯下的乐趣,尽管他们错误地愚弄我们,盗用我们的好感。

为什么所有这些关于以最正确的方式获得信誉并避免错误和可鄙的方式的讨论?

因为在谈到最新的人工智能 (AI) 时,我们似乎面临着类似的困境。

是的,声称这是通过一种称为 生成式人工智能. 近来新闻中最热门的 AI 生成式 AI 已经把它不应该得到的功劳据为己有,这引起了很多人的不满。 随着生成式 AI 的扩展和使用越来越多,这种情况可能会变得更糟。 越来越多的信用灌输给生成人工智能,而可悲的是,那些当之无愧的真正信用却被抛在了尘埃中。

我提出的明确表示这种所谓现象的方法是通过两个时髦的标语:

  • 1)大规模抄袭
  • 2) 大规模侵犯版权

我假设您可能因 OpenAI 于 XNUMX 月发布的广受欢迎的 AI 应用程序 ChatGPT 而了解生成式 AI。 我稍后会详细介绍生成式 AI 和 ChatGPT。 挂在那里。

让我们马上来看看是什么让人们心存疑虑的症结所在。

一些人一直在强烈抱怨生成式人工智能可能会剥夺创造内容的人类。 你看,大多数生成式 AI 应用程序都是通过检查互联网上的数据训练的数据。 基于这些数据,这些算法可以在 AI 应用程序中磨练出一个庞大的内部模式匹配网络,该网络随后可以产生看似新的内容,这些内容令人惊讶地看起来像是人工设计的,而不是自动化的

这一非凡的壮举在很大程度上归功于对互联网扫描内容的利用。 如果没有大量和丰富的互联网内容作为数据训练的来源,生成式 AI 将几乎是空洞的,并且很少或根本没有兴趣使用。 通过让人工智能检查数以百万计的在线文档和文本,以及各种相关内容,模式匹配逐渐衍生出来,以尝试模仿人类制作的内容。

检查的内容越多,在其他条件相同的情况下,模式匹配可能会得到更大程度的磨练,并在模仿方面变得更好。

这是一个价值不菲的问题:

  • 大问题: 如果您或其他人在 Internet 上拥有某些生成性 AI 应用程序经过训练的内容,大概是在未经您的直接许可并且可能完全没有您的意识的情况下进行的,那么您是否有权获得一块馅饼,无论其产生的价值是什么?生成人工智能数据训练?

有些人激烈地争辩说,唯一正确的答案是 USB MIDI(XNUMX通道),值得注意的是,那些人类内容创作者确实应该从中分得一杯羹。 问题是,你很难找到任何人获得了应有的份额,更糟糕的是,几乎没有人获得任何份额。 非自愿和不知不觉贡献的互联网内容创作者基本上被剥夺了应有的信用。

这可能被描述为残暴和令人发指的。 我们刚刚经历了圣人智慧的拆解,即应该​​在信用到期时给予信用。 就生成式人工智能而言,显然并非如此。 关于信用的长期有效的经验法则似乎被无情地违反了。

哇,反驳说,你完全夸大和误报了情况。 当然,生成式人工智能确实检查了互联网上的内容。 当然,这对于生成式 AI 的数据训练非常有帮助。 不可否认,如果没有这种深思熟虑的方法,今天令人印象深刻的生成式 AI 应用程序就不会那么令人印象深刻。 但是当你说内容创作者应该被分配任何特定的信用表象时,你走得太远了。

逻辑如下。 人们上网并从互联网上学习东西,这是例行公事,本身没有任何大惊小怪。 阅读有关管道的博客,然后狂欢观看免费提供的管道修理视频的人可能在第二天出去找一份管道工的工作。 他们是否需要将一部分与管道相关的汇款交给撰写有关如何安装水槽管道的博主? 他们是否需要向制作视频展示修理漏水浴缸步骤的视频博主付费?

几乎可以肯定不是。

生成式人工智能的数据训练只是一种开发模式的手段。 只要生成式人工智能的输出不仅仅是对所检查内容的反省,你就可以有说服力地争辩说它们已经“学习”了,因此不需要对任何特定来源给予任何特定的信任。 除非你能在执行精确反流时捕捉到生成 AI,否则迹象表明 AI 已经超越了任何特定来源。

没有功劳归功于任何人。 或者,有人假设,你可以说功劳归于每一个人。 在 Internet 上找到的集体文本和人类的其他内容得到了信任。 我们都得到了荣誉。 试图将功劳归于某个特定来源是毫无意义的。 为人工智能的进步和全人类都将受益而高兴。 互联网上的这些帖子应该感到荣幸,因为它们为人工智能的未来进步做出了贡献,以及这将如何帮助人类永生。

关于这两种截然不同的观点,我将有更多话要说。

同时,对于那些在互联网上拥有网站的人来说,你是倾向于认为信用到期和迟到的阵营,还是认为互联网内容创作者绝对是对立的一方? 不能 被宰是更有说服力的姿势?

一个谜和一个谜语都挤在一起。

让我们打开包装。

在今天的专栏中,我将解决这些表达的担忧,即生成式 AI 本质上是剽窃或可能侵犯已发布在 Internet 上的内容的版权(被视为知识产权或 IP 问题)。 我们将研究这些疑虑的基础。 在本次讨论中,我会偶尔提到 ChatGPT,因为它是生成 AI 的 600 磅重的大猩猩,但请记住,还有许多其他生成 AI 应用程序,它们通常基于相同的总体原则。

同时,您可能想知道生成式人工智能究竟是什么。

让我们首先介绍生成式 AI 的基础知识,然后我们可以仔细研究手头的紧迫问题。

所有这一切都涉及大量人工智能伦理和人工智能法律方面的考虑。

请注意,目前正在努力将道德 AI 原则融入 AI 应用程序的开发和部署中。 越来越多的关注和以前的人工智能伦理学家正在努力确保设计和采用人工智能的努力考虑到做事的观点 永远的人工智能 并避免 坏的人工智能. 同样,有人提出了新的 AI 法律,作为防止 AI 努力在人权等问题上失控的潜在解决方案。 有关我对 AI 伦理和 AI 法律的持续和广泛报道,请参阅 这里的链接这里的链接,仅举几例。

正在制定和颁布人工智能道德准则,以期防止社会陷入无数人工智能诱导陷阱。 关于我对近 200 个国家通过教科文组织的努力制定和支持的联合国人工智能伦理原则的报道,请参阅 这里的链接. 同样,正在探索新的 AI 法律,以试图让 AI 保持平稳。 最近的一次拍摄包括一组建议的 人工智能权利法案 美国白宫最近发布的关于人工智能时代人权的报告,见 这里的链接. 让人工智能和人工智能开发人员走上正确的道路,并阻止可能削弱社会的有目的或无意的不正当行为,需要举全村之力。

我将把 AI 伦理和 AI 法律相关的考虑因素交织到这个讨论中。

生成式人工智能基础

最广为人知的生成式 AI 实例由名为 ChatGPT 的 AI 应用程序代表。 ChatGPT 在去年 XNUMX 月由 AI 研究公司 OpenAI 发布时迅速进入公众意识。 自从 ChatGPT 获得了巨大的头条新闻以来,令人惊讶地超过了其规定的 XNUMX 分钟的成名时间。

我猜您可能听说过 ChatGPT,或者甚至认识使用过它的人。

ChatGPT 被认为是一种生成式 AI 应用程序,因为它将用户的一些文本作为输入,然后 产生 或产生由一篇文章组成的输出。 AI 是文本到文本生成器,尽管我将 AI 描述为文本到文章生成器,因为这更容易阐明它的常用用途。 您可以使用生成式 AI 来撰写冗长的作品,也可以让它提供相当简短的精辟评论。 一切听从您的吩咐。

您需要做的就是输入一个提示,AI 应用程序会为您生成一篇尝试回应您的提示的文章。 撰写的文本看起来就像这篇文章是由人的手和思想写成的。 如果你输入“告诉我关于亚伯拉罕·林肯”的提示,生成式人工智能将为你提供一篇关于林肯的文章。 还有其他生成 AI 模式,例如文本到艺术和文本到视频。 我将在这里重点关注文本到文本的变化。

您的第一个想法可能是,就撰写论文而言,这种生成能力似乎没什么大不了的。 你可以很容易地在互联网上进行在线搜索,很容易找到大量关于林肯总统的文章。 生成式 AI 的关键在于生成的文章相对独特,提供原创作品而不是抄袭。 如果你试图在网上某个地方找到 AI 生成的文章,你不太可能会发现它。

生成式 AI 经过预先训练,并利用复杂的数学和计算公式,该公式是通过检查网络上的书面文字和故事中的模式而建立的。 由于检查了成千上万的书面段落,人工智能可以吐出新的文章和故事,这些文章和故事是所发现内容的大杂烩。 通过添加各种概率函数,生成的文本与训练集中使用的文本相比非常独特。

人们对生成式 AI 有很多担忧。

一个关键的缺点是,由基于生成的人工智能应用程序生成的文章可能会嵌入各种虚假信息,包括明显不真实的事实、被误导性描述的事实以及完全捏造的明显事实。 这些虚构的方面通常被称为 人工智能幻觉,一个我不喜欢但遗憾的是似乎越来越流行的标语(关于为什么这是糟糕和不合适的术语的详细解释,请参阅我的报道 这里的链接).

另一个问题是,尽管不是自己撰写论文,但人类很容易将 AI 生成的论文归功于他人。 您可能听说过教师和学校非常关注生成式 AI 应用程序的出现。 学生可以使用生成式 AI 来撰写他们分配的论文。 如果一个学生声称一篇文章是他们自己亲手写的,那么老师几乎不可能辨别它是否是由生成人工智能伪造的。 有关我对这个学生和老师混淆​​方面的分析,请参阅我的报道 这里的链接这里的链接.

社交媒体上出现了一些关于 生成式人工智能 断言这个最新版本的人工智能实际上是 有感知的人工智能 (不,他们错了!)。 AI 伦理和 AI 法律领域的人士尤其担心这种不断扩大的索赔趋势。 您可能会礼貌地说,有些人夸大了当今 AI 的实际能力。 他们假设人工智能具有我们尚未能够实现的能力。 那真不幸。 更糟糕的是,他们可能会允许自己和他人陷入可怕的境地,因为他们假设人工智能在采取行动方面具有感知能力或类似人类。

不要将人工智能拟人化。

这样做会让你陷入一个棘手而沉闷的依赖陷阱,即期望 AI 做它无法执行的事情。 话虽如此,最新的生成式 AI 的功能相对令人印象深刻。 请注意,在使用任何生成式 AI 应用程序时,您应该始终牢记一些重大限制。

现在最后一个预警。

无论您在生成式 AI 响应中看到或读到什么 似乎 要以纯事实(日期、地点、人物等)的形式传达,请确保保持怀疑并愿意仔细检查您所看到的内容。

是的,日期可以编造,地点可以编造,我们通常期望无可非议的元素是 所有 受到怀疑。 在检查任何生成的 AI 文章或输出时,不要相信你读到的内容并保持怀疑的眼光。 如果一个生成式 AI 应用程序告诉你亚伯拉罕林肯乘坐他的私人飞机在全国各地飞行,你无疑会知道这是胡说八道。 不幸的是,有些人可能没有意识到喷气式飞机在他那个时代并不存在,或者他们可能知道但没有注意到这篇文章提出了这种厚颜无耻的错误主张。

在使用生成 AI 时,强烈的健康怀疑和持续的怀疑心态将是你最好的资产。

我们已准备好进入这一阐明的下一阶段。

互联网和生成式 AI 齐头并进

既然您大致了解了什么是生成式 AI,我们就可以探讨生成式 AI 是公平还是不公平地“杠杆化”这个棘手的问题,或者有人会说 公然地 利用 互联网内容。

以下是我与此事相关的四个重要主题:

  • 1)双重麻烦:抄袭和侵权
  • 2)试图证明抄袭或侵犯版权将被尝试
  • 3) 为剽窃或侵犯版权辩护
  • 4)法律地雷等待

我将涵盖这些重要主题中的每一个,并提供我们都应该认真考虑的有见地的考虑。 这些主题中的每一个都是更大难题的组成部分。 你不能只看一件。 你也不能孤立地看待任何一件作品。

这是一个错综复杂的马赛克,必须对整个拼图给予适当的和谐考虑。

双重麻烦:抄袭和版权侵权

那些制造和部署生成式人工智能的人面临的双重麻烦是,他们的产品可能会做两件坏事:

  • 1)剽窃。 生成式 AI 可以解释为 剽窃 根据 AI 数据训练期间发生的互联网扫描,互联网上存在的内容。
  • 2) 侵犯版权。 生成式人工智能可以说是一项事业 侵犯版权 与数据训练期间扫描的 Internet 内容相关联。

需要澄清的是,互联网上的内容比通常为生成 AI 的数据训练而扫描的内容要多得多。 通常只有一小部分互联网被使用。 因此,我们可以推测,在数据训练期间未扫描的任何内容与生成 AI 没有特别的关系。

不过,这有点值得商榷,因为您可能会画一条线,将已扫描的其他内容与未扫描的内容连接起来。 此外,另一个重要的附带条件是,即使有内容没有被扫描,如果生成人工智能的输出碰巧落在相同的措辞上,它仍然可以被认为是剽窃和/或侵犯版权。 我的观点是,所有这些都有很多问题。

底线: 当涉及到剽窃和侵犯版权时,生成式 AI 充满了潜在的 AI 伦理和 AI 法法律难题 支持流行的数据培训实践。

到目前为止,AI 制造商和 AI 研究人员已经顺利通过了这一过程,尽管他们头上悬着的剑若隐若现、摇摇欲坠。 迄今为止,只有少数诉讼针对这些做法发起。 您可能听说过或看过有关此类法律诉讼的新闻报道。 例如,其中一个涉及文本到图像公司 Midjourney 和 Stability AI 侵犯在互联网上发布的艺术内容。 由于 Copilot 软件生成 AI 应用程序,另一个涉及对 GitHub、Microsoft 和 OpenAI 的文本到代码侵权。 Getty Images 也一直致力于追查 Stability AI 的文本到图像侵权行为。

您可以预见会有更多此类诉讼被提起。

现在,由于结果相对未知,因此发起这些诉讼有点偶然。 法院会站在 AI 制造商一边,还是认为他们的内容被不公平利用的人会成为胜利者? 一场代价高昂的官司总是一件严肃的事情。 花费大量的法律费用必须与输赢的机会进行权衡。

人工智能制造商似乎别无选择,只能奋起反抗。 如果他们让步,哪怕是一点点,很可能会导致大量额外的诉讼(从本质上讲,这会增加其他人也胜诉的可能性)。 一旦水里有合法的血,剩下的合法鲨鱼就会涌向所谓的“轻松得分”,一场惨烈的货币大屠杀肯定会发生。

一些人认为我们应该通过新的人工智能法来保护人工智能制造商。 这种保护甚至可能具有追溯力。 这样做的基础是,如果我们想看到生成式 AI 的进步,我们必须给 AI 制造商一些安全区域跑道。 一旦诉讼开始对 AI 制造商取得胜利,如果发生这种情况(我们还不知道),担心的是生成 AI 将会消失,因为没有人愿意为 AI 公司提供任何支持。

正如 Ilia Kolochenko 博士和 Gordon Platt 博士在 Bloomberg Law 2023 年 XNUMX 月发表的一篇题​​为“ChatGPT:IP、网络安全和生成人工智能的其他法律风险”的最新彭博法律文章中巧妙指出的,以下是与这些观点相呼应的两个重要摘录:

  • “现在,美国法律学者和知识产权法教授之间就未经授权的抓取和随后使用受版权保护的数据是否构成侵犯版权展开了激烈的辩论。 如果在这种做法中看到侵犯版权的法律从业者的观点占上风,那么这种人工智能系统的用户也可能对二次侵权负责,并可能面临法律后果。”
  • “为了全面应对挑战,立法者不仅应该考虑使现有的版权立法现代化,还应该考虑实施一套专门针对人工智能的法律法规。”

回想一下,作为一个社会,我们确实为 扩张 互联网的发展,正如最高法院现在审查著名或臭名昭著的第 230 条所见证的那样。因此,我们可能愿意为生成人工智能的进步采取一些类似的保护措施,这似乎在合理和先例之内。 或许可以临时设置保护措施,在生成式 AI 达到某个预定的熟练程度后到期。 可以设计其他保障条款。

我将很快发布我对最高法院对第 230 条的评估和最终裁决可能如何影响生成人工智能的出现的分析。 请留意即将发布的帖子!

回到尖锐的观点,即我们应该为被称为生成 AI 的社会令人敬畏的技术创新留出余地。 有人会说,即使声称的版权侵权已经发生或正在发生,为了推进生成人工智能的特定目的,整个社会也应该愿意允许这种情况发生。

希望新的 AI 法律将被精心制定并调整到与生成 AI 的数据训练相关的细节。

为此目的制定新的 AI 法律的想法有很多反对意见。 一个担忧是,任何此类新的人工智能法都会为各种侵犯版权的行为打开闸门。 我们会后悔我们允许这样新的 AI 法律落在书本上的那一天。 无论你多么努力地试图将其局限于 AI 数据训练,其他人都会偷偷摸摸或巧妙地找到漏洞,这些漏洞将构成不受约束和猖獗的版权侵权。

一轮又一轮的争论去。

一个不是特别站得住脚的论点与试图起诉 AI 本身有关。 请注意,我一直将 AI 制造商或 AI 研究人员称为应受谴责的利益相关者。 这些是人和公司。 有人建议我们应该将 AI 作为被起诉的一方。 我在我的专栏中详细讨论了我们尚未将法人资格归因于 AI,请参阅 这里的链接 例如,因此这种针对 AI 本身的诉讼现在被认为是毫无意义的。

作为应该起诉谁或什么的问题的附录,这引出了另一个有趣的话题。

假设某个特定的生成 AI 应用程序是由我们称为 Widget Company 的某个 AI 制造商设计的。 Widget Company 规模相对较小,收入不多,资产也不多。 起诉他们不太可能获得人们可能寻求的巨额财富。 至多,你只会对纠正你认为错误的事情感到满意。

你想追大鱼。

这就是它是如何产生的。 一家 AI 制造商选择将他们的生成 AI 提供给 Big Time Company,这是一家拥有大量面团和大量资产的大型企业集团。 命名 Widget Company 的诉讼现在将有一个更好的目标,即也命名为 Big Time Company。 这是一场律师会喜欢的大卫和歌利亚的战斗。 当然,Big Time Company 无疑会尝试摆脱钓鱼钩。 他们能否这样做又是一个不确定的法律问题,他们可能会无可救药地陷入泥潭。

在我们进一步讨论这个问题之前,我想在桌面上讨论一些关于由于数据训练而引起的生成 AI 的竞争侵蚀的关键问题。 我相信您凭直觉意识到剽窃和侵犯版权是两种不同的东西。 它们有很多共同点,尽管它们也有很大不同。

以下是杜克大学的简洁描述,对这两者进行了解释:

  • “最好将剽窃定义为未经认可地使用他人的作品。 这是一个道德问题,涉及索赔人未创建的工作的信用索赔。 无论该作品的版权状态如何,都可以剽窃他人的作品。 例如,从太旧而仍受版权保护的书籍或文章中复制仍然是剽窃。 使用从未经确认的来源获取的数据也是剽窃,即使像数据这样的事实材料可能不受版权保护。 然而,剽窃很容易治愈——正确引用材料的原始来源。”
  • “另一方面,侵犯版权是指未经授权使用他人的作品。 这是一个法律问题,首先取决于作品是否受版权保护,以及使用量和使用目的等细节。 如果一个人复制太多受保护的作品,或出于未经授权的目的进行复制,仅仅承认原始来源并不能解决问题。 只有事先征得版权所有者的许可,才能避免侵权指控的风险。”

我指出了这两个问题的重要性,这样您就会意识到补救措施可能会相应地有所不同。 此外,他们都沉浸在渗透到 AI 伦理和 AI 法律的考量中,这使得它们同样值得研究。

让我们探索一种声称的补救措施或解决方案。 您会发现它可能有助于双重麻烦问题中的一个,但不会帮助另一个。

一些人坚持认为,人工智能制造商所要做的就是引用他们的来源。 当生成式 AI 生成一篇文章时,只需包含对文章中所述内容的具体引用。 提供各种 URL 和其他指示,说明使用了哪些 Internet 内容。 这似乎让他们摆脱了对剽窃的疑虑。 输出的文章大概会清楚地确定正在生成的措辞使用了哪些来源。

声称的解决方案中有一些狡辩,但在 30,000 英尺的高度上,我们可以说这确实是解决剽窃困境的半令人满意的方法。 正如上面关于版权侵权的解释中所述,引用源材料并不一定能让你摆脱困境。 假设内容已受版权保护,并且取决于其他因素(例如使用了多少材料),等待中的版权侵权之剑可能会急剧下降并最终终结。

双重麻烦是这里的口号。

试图证明抄袭或侵犯版权将是尝试

证明给我看!

这是我们在生活中的不同时期都听到过的陈词滥调。

你知道怎么回事。 您可能会声称某事正在发生或已经发生。 你可能在内心深处知道这已经发生了。 但是当谈到推对推时,你必须有证据。

用今天的话来说,你需要展示 , 像他们说的那样。

我的问题是: 我们如何证明生成人工智能不恰当地利用了互联网内容?

人们认为答案应该很简单。 您要求或告诉生成式 AI 生成输出的论文。 然后,您将这篇文章与可以在 Internet 上找到的内容进行比较。 如果你找到了这篇文章,巴姆,你就把生成式人工智能钉在了众所周知的墙上。

生活似乎从未如此轻松。

设想我们使用生成式 AI 来制作一篇包含大约 100 个单词的文章。 我们四处走动,试图到达互联网的所有角落,搜索这 100 个单词。 如果我们找到这 100 个单词,以完全相同的顺序和相同的方式显示,我们似乎已经找到了一个热门单词。

假设虽然我们在互联网上找到一篇看似“可比”的文章,但它只匹配了 80 个单词中的 100 个。 这似乎仍然足够,也许。 但是想象一下,我们只找到 10 个匹配的单词中的 100 个实例。 这足以叫嚣抄袭或侵犯版权吗?

灰色存在。

这样的文字很有趣。

将此与文本到图像或文本到艺术的情况进行比较。 当生成式 AI 提供文本到图像或文本到艺术的功能时,您输入文本提示,AI 应用程序会根据您提供的提示生成图像。 该图像可能不同于在这个或任何其他行星上看到的任何图像。

另一方面,该图像可能会让人联想到其他确实存在的图像。 我们可以查看生成的 AI 生成的图像,并凭直觉说它确实看起来像我们以前见过的其他图像。 一般来说, 视觉 比较和对比方面更容易进行。 话虽这么说,但请注意,关于什么构成一幅图像与另一幅图像的重叠或复制,存在巨大的法律辩论。

另一种类似的情况存在于音乐中。 有生成式 AI 应用程序允许您输入文本提示,AI 产生的输出是音频音乐。 这些文本到音频或文本到音乐的 AI 功能才刚刚开始出现。 你可以赌上一大笔钱的一件事是,由生成式 AI 制作的音乐将因侵权而受到高度审查。 我们似乎知道何时听到音乐侵权,但这又是一个复杂的法律问题,不仅仅是基于我们对感知到的复制的感受。

再举一个例子。

文本到代码生成 AI 使您能够输入文本提示,AI 将为您生成编程代码。 然后您可以使用此代码编写计算机程序。 您可以使用生成的代码,也可以选择编辑和调整代码以满足您的需要。 还需要确保代码适当且可行,因为生成的代码中可能会出现错误和错误。

您的第一个假设可能是编程代码与文本没有什么不同。 它只是文本。 当然,它是提供特定目的的文本,但它仍然是文本。

好吧,不完全是。 大多数编程语言对该语言的编码语句的性质都有严格的格式和结构。 这在某种意义上比自由流动的自然语言要窄得多。 您对编码语句的制定方式有些局限。 同样,使用和排列语句的顺序和方式也有些封闭。

总而言之,展示编程代码被剽窃或侵权的可能性几乎比自然语言更容易。 因此,当一个生成式人工智能去扫描互联网上的程序代码并随后生成程序代码时,争论代码被公然复制的可能性将相对更有说服力。 这不是灌篮高手,因此预计将为此展开激烈的战斗。

我的首要观点是,我们将面临相同的 AI 伦理和 AI 法律问题,以应对所有生成 AI 模式。

剽窃和侵犯版权将是有问题的:

  • 文本到文本或文本到文章
  • 文本到图像或文本到艺术
  • 文字转音频或文字转音乐
  • 文字转视频
  • 文本到代码
  • 等等

他们都受到同样的关注。 有些可能比其他的更容易“证明”。 他们所有人都会有自己的各种关于 AI 伦理和 AI 法律基础的噩梦。

为剽窃或侵犯版权辩护

出于讨论目的,让我们关注文本到文本或文本到文章的生成 AI。 我这样做的部分原因是 ChatGPT 的巨大流行,它是文本到文本类型的生成 AI。 有很多人在使用 ChatGPT,还有许多人在使用各种类似的文本到文本生成 AI 应用程序。

那些使用生成式 AI 应用程序的人是否知道他们可能依赖剽窃或侵犯版权?

他们这样做似乎值得怀疑。

我敢说,普遍的假设是,如果生成的 AI 应用程序可供使用,AI 制造商或部署 AI 的公司必须知道或确信他们提供使用的产品没有任何问题。 如果能用,那肯定是光明正大的。

让我们回顾一下我之前关于我们将如何尝试证明特定的生成式 AI 在错误的数据训练基础上工作的评论。

我可能还要补充一点,如果我们能抓住一个这样做的生成 AI,那么抓到其他 AI 的机会可能会增加。 我并不是说所有的生成式 AI 应用程序都会在同一条船上。 但是一旦其中一个被钉在墙上,他们就会发现自己身处波涛汹涌的大海中。

这就是为什么密切关注现有诉讼也非常值得的原因。 第一个在侵权指控中获胜的人,如果发生这种情况,可能会给其他生成式 AI 应用程序带来厄运和阴霾,除非一些狭隘的问题逃避了手头更广泛的问题。 那些在侵权诉讼中败诉的人并不一定意味着生成式人工智能应用程序可以敲响警钟并庆祝。 损失可能归因于与其他生成 AI 应用程序不相关的其他因素,等等。

我曾提到过,如果我们拿一篇 100 字的文章并尝试在互联网上以完全相同的顺序找到那些确切的词,我们可能会有一个相对可靠的剽窃或侵犯版权的案例,其他条件相同。 但如果匹配的单词数量很少,我们似乎如履薄冰。

我想更深入地研究一下。

进行比较的一个明显方面是由完全相同的单词以完全相同的顺序组成的。 这可能发生在整个段落中。 这很容易发现,几乎就像放在银盘上交给我们一样。

如果只有一小段单词匹配,我们也可能会怀疑。 我们的想法是查看它们是否是我们可以轻松删除或忽略的关键词或填充词。 我们也不希望被过去时或将来时或其他愚蠢行为所欺骗。 还应考虑这些词语的变化。

另一个层次的比较是当这些词在很大程度上不是特别相同的词时,但即使在不同的状态下,这些词似乎仍然在表达相同的观点。 例如,摘要通常会使用非常相似的词作为原始来源,但我们可以看出摘要似乎是基于原始来源。

最难的比较是基于概念或想法。 假设我们看到一篇文章,没有相同或相似的词作为比较基准,但本质或思想是相同的。 诚然,我们正在进入艰难的境地。 如果我们轻易地说思想受到严密保护,那么我们就会对几乎所有形式的知识和知识扩张都加盖盖子。

我们可以再次参考杜克大学的一个方便的解释:

  • “版权不保护思想,只保护思想的具体表达。 例如,法院裁定丹·布朗在写作时并未侵犯早期书籍的版权 达芬奇密码 因为他从早期作品中借鉴的只是基本思想,而不是情节或对话的细节。 由于版权旨在鼓励创造性生产,因此使用他人的想法制作新的原创作品符合版权的宗旨,并不违反版权。 只有当一个人未经许可复制另一个人的表达时,才可能侵犯版权。”
  • “另一方面,为了避免剽窃,即使是从别人那里借来的想法,也必须承认其来源,无论这些想法的表达方式是否是借用的。 因此,释义需要引用,即使它很少引起任何版权问题。”

请注意之前确定的双重故障方面之间的差异。

那么,将比较方法付诸实践是多年来一直在进行的事情。 这样想。 为功课写论文的学生可能会忍不住从互联网上获取内容,并假装他们创作了 A 级普利策奖获奖词。

长期以来,教师们一直在使用剽窃检查程序来解决这个问题。 一位老师拿起学生的论文并将其输入剽窃检查器。 在某些情况下,整个学校都会授权使用剽窃检查程序。 每当学生提交论文时,他们必须先将论文发送到剽窃检查程序。 老师被告知节目报告的内容。

不幸的是,您必须对这些抄袭检查程序必须说的内容非常谨慎。 重要的是要仔细评估报告的适应症是否有效。 如前所述,确定作品是否被复制的能力可能是模糊的。 如果你不假思索地接受了检查程序的结果,你就可以在学生没有抄袭的情况下诬告他们抄袭了。 这可能令人心碎。

继续,我们可以尝试在测试生成 AI 输出的领域使用剽窃检查程序。 将生成式 AI 应用程序输出的论文视为学生撰写的论文。 然后我们衡量剽窃检查员说了什么。 这是用一粒盐完成的。

最近有一项研究试图以这种方式在生成人工智能的背景下实施这些类型的比较。 我想和你一起回顾一些有趣的发现。

首先,需要添加一些背景知识。 生成式 AI 有时被称为 LLM(大型语言模型)或简称为 LM(语言模型)。 其次,ChatGPT 基于另一个名为 GPT-3.5 的 OpenAI 生成 AI 包的版本。 在 GPT-3.5 之前,有 GPT-3,再之前是 GPT-2。 如今,与后来的系列相比,GPT-2 被认为是相当原始的,我们都热切地等待着即将推出的 GPT-4,请参阅我在 这里的链接.

我想简要探讨的研究包括检查 GPT-2。 认识到这一点很重要,因为我们现在已经远远超出了 GPT-2 的能力。 不要对 GPT-2 的分析结果做出任何轻率的结论。 尽管如此,我们可以从 GPT-2 的评估中学到很多东西。 该研究的标题是“语言模型会剽窃吗?” 作者 Jooyoung Lee、Thai Le、Jinghui Chen 和 Dongwon Lee,出现在 ACM WWW '23,1 年 5 月 2023-XNUMX 日,美国德克萨斯州奥斯汀。

这是他们的主要研究问题:

  • “LM 在多大程度上(不限于记忆)利用训练样本中的短语或句子?”

他们使用了以下三个级别或类别的潜在剽窃:

  • “逐字抄袭:未经转换的单词或短语的精确副本。”
  • “释义剽窃:同义词替换、单词重新排序和/或反向翻译。”
  • “创意剽窃:以细长形式表示核心内容。”

GPT-2 确实接受过互联网数据训练,因此适合进行此类分析:

  • “GPT-2 在 WebText 上进行了预训练,包含从 8 万个 Reddit 链接中检索到的超过 45 万份文档。 由于 OpenAI 尚未公开发布 WebText,因此我们使用 OpenWebText,它是 WebText 语料库的开源重建。 它已被先前的文献可靠地使用。”

从研究中摘录的选择性关键发现包括:

  • “我们发现经过预训练的 GPT-2 家族确实抄袭了 OpenWebText。”
  • “我们的研究结果表明,微调显着减少了 OpenWebText 的逐字抄袭案例。”
  • “与 Carlini 等人一致。 和 Carlini 等人,我们发现较大的 GPT-2 模型(large 和 xl)通常比较小的模型更频繁地生成剽窃序列。”
  • “但是,不同的 LM 可能表现出不同的抄袭模式,因此我们的结果可能不会直接推广到其他 LM,包括更新的 LM,例如 GPT-3 或 BLOOM。”
  • “此外,众所周知,自动抄袭检测器有许多故障模式(包括假阴性和假阳性)。
  • “鉴于大多数 LM 的训练数据是在没有通知内容所有者的情况下从网络上抓取的,他们将训练集中的单词、短语甚至核心思想重复到生成的文本中具有伦理意义。”

我们绝对需要更多此类研究。

如果您对 GPT-2 与 GPT-3 在数据训练方面的比较感到好奇,那么会有非常明显的对比。

根据报道的迹象,GPT-3 的数据训练要广泛得多:

  • “该模型是使用来自互联网的文本数据库进行训练的。 这包括从书籍、网络文本、维基百科、文章和互联网上的其他文章中获得的高达 570GB 的数据。 更准确地说,系统输入了 300 亿个单词”(英国广播公司科学聚焦 杂志,“ChatGPT:关于 OpenAI 的 GPT-3 工具你需要知道的一切”,Alex Hughes,2023 年 XNUMX 月)。

对于那些对 GPT-3 数据训练的更深入描述感兴趣的人,以下是 GitHub 上发布的官方 GPT-3 模型卡的摘录(最后更新日期为 2020 年 XNUMX 月):

  • “GPT-3 训练数据集由发布到互联网的文本或上传到互联网的文本(例如书籍)组成。 迄今为止,它已经过训练和评估的互联网数据包括:(1) CommonCrawl 数据集的一个版本,根据与高质量参考语料库的相似性进行过滤,(2) Webtext 数据集的扩展版本,(3 ) 两个基于互联网的图书语料库,以及 (4) 英语维基百科。”
  • “鉴于其训练数据,GPT-3 的输出和表现比那些沉浸在口头、非数字文化中的人群更能代表互联网连接的人群。 互联网人群更能代表发达国家、富人、年轻人和男性的观点,并且以美国为中心居多。 较富裕的国家和发达国家的人口表现出较高的互联网普及率。 数字性别鸿沟还表明,全球女性在线人数较少。 此外,由于世界不同地区的互联网普及率和访问水平不同,因此该数据集未能充分代表联系较少的社区。”

从上述关于 GPT-3 的指示中得出的一个结论是,在那些制造生成式 AI 的人中,一个经验法则是你可以扫描的互联网数据越多,改进或推进生成式 AI 的可能性就会增加。

您可以通过两种方式中的任何一种来看待这一点。

  • 1) 改进AI. 我们将拥有能够在尽可能多的互联网上爬行的生成式人工智能。 令人兴奋的结果是生成式人工智能将比现在更好。 这是一件值得期待的事情。
  • 2) 大量复制潜力. 互联网扫描范围的扩大既令人讨厌又引人入胜,使剽窃和侵犯版权的问题可能变得越来越大。 之前没有那么多的内容创作者受到影响,但规模正在蓬勃发展。 如果您是内容创作者一方的律师,这会让您热泪盈眶(也许是沮丧的泪水,或者是为这带来的诉讼前景而高兴的泪水)。

杯子是半满的还是半空的?

你决定。

法律地雷等待

您可能正在考虑的一个问题是,您发布的 Internet 内容是否被认为是被扫描的公平游戏。 如果您的内容在付费专区后面,那么它可能不是被扫描的目标,因为它无法轻易访问,具体取决于付费专区的强度。

我猜想大多数普通人不会将他们的内容藏在付费专区后面。 他们希望他们的内容公开可用。 他们假设人们会看一看。

公开你的内容是否也意味着你批准对其进行扫描以供正在接受数据训练的生成 AI 使用?

可能是,可能不是。

这是那些翻白眼的法律事务之一。

回到前面提到的 彭博法 文章中,作者提到了与许多网站相关的条款和条件 (T&C) 的重要性:

  • “合法的地雷——被运行在线机器人进行数据抓取的不知情的人工智能公司大大忽视了——隐藏在所有类型的公共网站上普遍可用的条款和条件中。 与目前悬而未决的知识产权法和版权侵权困境相比,网站的条款和条件有完善的合同法支持,通常可以依靠足够数量的先例在法庭上强制执行。”

它们表明假设您的网站有一个与许可相关的页面,如果您使用标准化的现代模板,它很可能包含一个关键条款:

  • “因此,大多数网站的样板条款和条件——大量免费提供——包含禁止自动数据抓取的条款。 具有讽刺意味的是,这种免费提供的模板可能已用于 ChatGPT 培训。 因此,内容所有者可能希望查看其条款和条件,并插入一个单独的条款,明确禁止在未经网站所有者事先书面许可的情况下,将网站上的任何内容用于 AI 培训或任何相关目的,无论是手动收集还是自动收集”

他们对内容创建者对其网站采取的潜在行动的分析中包含了一个额外的问题:

  • “因此,为每次违反禁止刮擦条款的行为插入可强制执行的违约金条款,并通过无保证金禁令条款加以加强,对于那些不愿提供其成果的创意内容作者来说,可能是一个可行的解决方案。为 AI 培训目的而进行的智力劳动没有报酬,或者至少对他们的工作给予了适当的认可。”

您可能需要就此咨询您的律师。

有人说,这是一种重要的方式,可以告诉 AI 制作者内容创作者非常认真地保护他们的内容。 确保您的许可措辞正确,似乎会引起 AI 制造商的注意。

但其他人则有点悲观。 他们沮丧地说,你可以继续在你的网站上使用最严厉、最致命的法律语言,但最终,人工智能制造商将对其进行扫描。 你不会知道他们这样做了。 你将有一段时间证明他们做到了。 您不太可能发现他们的输出反映了您的内容。 这是一场你赢不了的艰苦战斗。

反对意见是你甚至在战斗开始之前就投降了。 如果您至少没有足够的法律语言,并且如果您确实抓住了他们,他们将摇摆不定并狡猾地逃避任何责任。 都是因为您没有发布正确的法律术语。

与此同时,另一种寻求获得牵引力的方法包括 标记 您的网站上写着该网站不会被生成 AI 扫描。 这个想法是设计一个标准化的标记。 网站大概可以将标记添加到他们的网站。 人工智能制造商会被告知他们应该改变数据扫描以跳过标记的网站。

标记方法能否成功? 问题包括获取和张贴标记的成本。 以及人工智能制造商是否会遵守标记并确保他们避免扫描标记的站点。 另一种观点是,即使 AI 制造商不同意这些标记,这也为上法庭提供了另一个线索,并争辩说内容创建者已经走了最后一英里,试图警告 AI 扫描。

哎呀,这一切都让你头晕目眩。

结论

关于这个棘手话题的最后几点评论。

您准备好从一个令人费解的角度来看待整个人工智能作为剽窃者和版权侵权者的困境了吗?

在剽窃或侵犯版权行为中“捕捉”生成式人工智能的大部分假设取决于发现输出 高度相似 先前的工作,例如在数据训练期间可能扫描的 Internet 上的内容。

假设分而治之的策略在这里发挥作用。

这就是我的意思。

如果生成式 AI 从这里借用一点点,从那里借用一点点,最终将它们混合在一起产生任何特定的输出,那么陷入困境的机会就会大大减少。 任何输出似乎都不会上升到一个足够的阈值,您可以肯定地说它是从一个特定的源项目中复制的。 生成的论文或其他输出模式只能部分匹配。 通过试图争辩剽窃或侵犯版权的通常方法,你通常不得不展示更多的东西在起作用,特别是如果一点点不是很突出并且可以在互联网上广泛找到(削弱任何适当的盗用举证责任)。

即使建议的证据表面上无关紧要,你还能有说服力地宣称生成式 AI 的数据训练已经敲诈了网站和内容创作者吗?

考虑一下。

如果我们面临潜在的大规模剽窃和大规模版权侵权,我们可能需要改变我们定义什么构成剽窃和/或版权侵权的方法。 也许有一个主要或普遍存在剽窃或侵犯版权的案例。 由数千或数百万个微小片段组成的马赛克可以被解释为犯下此类违规行为。 但明显的问题是,这可能会使各种内容突然受到破坏。 这可能是一个滑坡。

沉重的思绪。

谈到沉重的思想,传奇作家列夫·托尔斯泰有句名言:“生命的唯一意义就是为人类服务。”

如果你的网站和其他人的网站正在被扫描以改善人工智能,虽然你没有从中得到一分钱,但你是否会因为坚信你正在为人类的未来做出贡献而得到庄严的安慰? 这似乎是一个很小的代价。

好吧,除非 AI 被证明是可怕的存在风险,将所有人类从存在中抹去。 你不应该以此为荣。 我想你会尽快不为那个可怕的结果做出贡献。 撇开那个灾难性的预测不谈,你可能会想,如果人工智能制造商正在从他们的生成人工智能中赚钱,而且他们似乎很享受这种暴利,那么你也应该分一杯羹。 分享和分享。 AI 制造商应该请求扫描任何网站的许可,然后还要协商为被允许进行扫描而支付的价格。

在信用到期的地方给予信用。

让我们暂时给沃尔特斯科特爵士最后一句话:“哦,我们编织的网络多么混乱。 当我们第一次练习欺骗时。”

如果您认为欺骗正在进行,这可能适用,或者如果您认为一切都很好、完全直率且合法,则可能不适用。 请慷慨地相信自己仔细考虑过这个问题。 你应得的。

资料来源:https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics-和艾法律/