AI 伦理和 AI 法律提出质疑，我们应该将生成式 AI ChatGPT 推入喷出仇恨言论的难度有多大

对于产生攻击性内容（例如仇恨言论）的生成式 AI，我们该怎么办？

盖蒂

每个人都有自己的突破点。

我想你也可以这么说一切有它的突破点。

我们知道，例如人类有时会突然说出他们不一定要说的话。同样，您有时可能会导致设备或机器突然崩溃，例如将您的汽车推得太用力，它开始摇摇欲坠或飞散。因此，这个概念是人或“每个人”都可能有一个转折点，同样我们可以断言，一般来说，物体和事物也往往有一个转折点。

可能有相当明智和重要的理由来确定断点在哪里。例如，您肯定看过那些视频，这些视频展示了一辆汽车正在接受测试，以确定它有哪些断裂点。科学家和测试人员将汽车撞向砖墙，以了解保险杠和汽车结构能够承受不利作用的程度。其他测试可能包括使用产生极冷或极热的专门房间或仓库，以了解汽车在不同天气条件下的表现。

我在今天的专栏中提出这个热烈的话题，以便我们可以讨论一些人目前如何大力推动人工智能 (AI) 来识别并可能暴露一种特定类型的断点，即 AI 中产生仇恨言论的断点。

是的，没错，有各种临时的，有时是系统的努力来衡量让人工智能喷出仇恨言论是否可行。如果你愿意的话，这已经成为一项狂热的运动，因为人们对生成人工智能的兴趣和流行度越来越高。

您可能知道，一款名为 ChatGPT 的生成式 AI 应用程序由于能够生成非常流畅的文章而成为该镇的热门话题。头条新闻不断地大肆宣传和赞美 ChatGPT 设法创作的惊人作品。 ChatGPT 被认为是一种生成式 AI 应用程序，它将用户的一些文本作为输入，然后生成或产生由一篇文章组成的输出。 AI 是文本到文本生成器，尽管我将 AI 描述为文本到文章生成器，因为这更容易阐明它的常用用途。

当我提到这种类型的 AI 已经存在了一段时间并且 XNUMX 月底发布的 ChatGPT 并没有以某种方式成为文本到论文领域的先行者时，许多人感到惊讶倾向。多年来我一直在讨论其他类似的生成式 AI 应用程序，请参阅我的报道这里的链接.

您可能不知道或不记得之前的生成式 AI 实例的原因可能是由于经典的“未能成功启动”难题。这是通常发生的事情。一位 AI 制造商发布了他们的生成式 AI 应用程序，人们可能会说，他们怀着极大的兴奋和热切期待世界会欣赏更好的捕鼠器的发明。起初，一切看起来都很好。人们对人工智能的能力感到震惊。

不幸的是，下一步是轮子开始从众所周知的公共汽车上脱落。 AI 会写一篇文章，其中包含一个粗俗的词或一个粗俗的短语。病毒式推文或其他社交媒体帖子突出强调了 AI 做到了这一点。谴责出现了。我们不能让 AI 四处走动并生成冒犯性的词语或冒犯性的言论。出现了巨大的反弹。 AI 制造商可能会尝试调整 AI 的内部运作方式，但算法和数据的复杂性不适合快速修复。发生踩踏事件。在网上发现并发布了越来越多的 AI 散发污秽的例子。

AI 制造商不情愿但显然别无选择，只能从使用中删除 AI 应用程序。他们照此进行，然后经常道歉，如果有人被生成的 AI 输出冒犯了，他们会表示遗憾。

回到绘图板，AI 制造商开始了。已经吸取了教训。释放会产生脏话等的生成 AI 时要非常小心。这是人工智能的死亡之吻。此外，人工智能制造商的声誉将受到重创，这可能会持续很长时间，并削弱他们所有其他人工智能的努力，包括那些与生成人工智能本身无关的努力。让你的宠物因为发出冒犯性的 AI 语言而受到攻击是一个现在一直存在的错误。它仍然发生。

清洗、冲洗并重复。

在这类人工智能的早期，人工智能制造商并没有那么认真或熟练地在试图防止冒犯性排放方面清理他们的人工智能。如今，在之前看到他们的同行被一场公关噩梦彻底击垮之后，大多数人工智能制造者似乎都明白了这一点。您需要放置尽可能多的护栏。设法防止 AI 发出粗话或粗话。使用任何能够阻止 AI 生成和显示被发现不当的单词或文章的封口技术或过滤方法。

以下是当 AI 被发现发出声名狼藉的输出时使用的横幅标题措辞的味道：

“人工智能展现出可怕的毒性”
“人工智能散发着彻头彻尾的偏见”
“人工智能变得公然冒犯”
“人工智能喷出骇人听闻的不道德仇恨言论”
等等

为了此处讨论的方便，我将输出令人反感的内容等同于制作 仇恨言论. 话虽这么说，但请注意，可以制作各种令人反感的内容，而不仅仅是仇恨言论。仇恨言论通常被解释为攻击性内容的一种形式。

为了便于讨论，让我们将重点放在本次讨论的仇恨言论上，但要意识到其他令人反感的内容也值得仔细审查。

深入研究人类和人工智能的仇恨言论

联合国定义 仇恨言论 这条路：

“在通用语言中，‘仇恨言论’是指基于固有特征（如种族、宗教或性别）针对某个群体或个人的攻击性言论，可能威胁社会和平。为联合国在全球范围内解决该问题提供一个统一的框架，联合国仇恨言论战略和行动计划将仇恨言论定义为“任何形式的言论、写作或行为交流，攻击或使用贬义或歧视性语言根据他们是谁，换句话说，根据他们的宗教、种族、国籍、种族、肤色、血统、性别或其他身份因素来提及一个人或一个群体。然而，迄今为止，国际人权法对仇恨言论没有统一的定义。这个概念仍在讨论中，尤其是在意见和言论自由、非歧视和平等方面”（联合国网站上的帖子，标题为“什么是仇恨言论？”）。

生成文本的 AI 容易进入仇恨言论领域。你可以对文本到艺术、文本到音频、文本到视频和其他生成 AI 模式说同样的话。例如，生成式人工智能总是有可能制作出充满仇恨言论的艺术作品。出于此处讨论的目的，我将重点关注文本到文本或文本到文章的可能性。

所有这一切都涉及大量人工智能伦理和人工智能法律方面的考虑。

请注意，目前正在努力将道德 AI 原则融入 AI 应用程序的开发和部署中。越来越多的关注和以前的人工智能伦理学家正在努力确保设计和采用人工智能的努力考虑到做事的观点 永远的人工智能 并避免 坏的人工智能. 同样，有人提出了新的 AI 法律，作为防止 AI 努力在人权等问题上失控的潜在解决方案。有关我对 AI 伦理和 AI 法律的持续和广泛报道，请参阅这里的链接和这里的链接，仅举几例。

正在制定和颁布人工智能道德准则，以期防止社会陷入无数人工智能诱导陷阱。关于我对近 200 个国家通过教科文组织的努力制定和支持的联合国人工智能伦理原则的报道，请参阅这里的链接. 同样，正在探索新的 AI 法律，以试图让 AI 保持平稳。最近的一次拍摄包括一组建议的 人工智能权利法案 美国白宫最近发布的关于人工智能时代人权的报告，见这里的链接. 让人工智能和人工智能开发人员走上正确的道路，并阻止可能削弱社会的有目的或无意的不正当行为，需要举全村之力。

我将把 AI 伦理和 AI 法律相关的考虑因素交织到这个关于 AI 散布仇恨言论或其他攻击性内容的讨论中。

我想立即澄清的一点困惑是，今天的人工智能没有感知力，因此你不能宣称人工智能可能会产生仇恨言论，因为人工智能以某种方式深情地体现了一种有目的的类似人类的意图。 Zany 声称目前的 AI 是有感知力的，并且 AI 的灵魂已经堕落，导致它产生仇恨言论。

可笑的。

不要为它而堕落。

鉴于该基石原则，有些人会对此类指示感到不安，因为您似乎让 AI 摆脱了困境。在这种古怪的思维方式下，接下来的劝告是你显然愿意让 AI 产生任何形式的恶劣输出。你赞成喷出仇恨言论的人工智能。

哎呀，一种相当扭曲的不合逻辑形式。问题的真正要点是，我们需要追究人工智能制造商的责任，以及任何部署人工智能或操作人工智能的人。我已经详细讨论过，我们还没有到将法人资格授予 AI 的地步，请参阅我的分析这里的链接，而在此之前，人工智能基本上超出了法律责任的范围。尽管人类是人工智能发展的基础。此外，人类是人工智能部署和操作的基础。我们可以追究那些承担人工智能责任的人类。

顺便说一句，这也可能很棘手，特别是如果 AI 出现在互联网上，而我们无法确定是哪个人或哪些人做的，这是我在我的专栏中讨论的另一个主题这里的链接. 无论是否狡猾，我们仍然不能宣称人工智能是有罪的一方。不要让人类偷偷摸摸地使用虚假的拟人化来隐藏和逃避对他们所做的事情的责任。

回到手头的事情。

你可能想知道为什么所有的人工智能制造者都不简单地限制他们的生成人工智能，以至于人工智能不可能产生仇恨言论。这看起来很容易。只需编写一些代码或建立一个仇恨词清单，并确保 AI 永远不会生成任何此类内容。人工智能制造商还没有想到这个快速解决方案，这似乎很奇怪。

好吧，我不想告诉你这个，但事实证明，解释什么是或不是仇恨言论所固有的复杂性比你想象的要难得多。

将其转移到人类领域以及人类如何相互聊天。假设您有一个人希望避免发表仇恨言论。此人非常了解仇恨言论，并真诚地希望避免说出可能构成仇恨言论的词或短语。此人持之以恒地注意不让一丁点仇恨言论从他们口中漏出。

这个有大脑并且被提醒避免仇恨言论的人能够始终并且没有任何滑倒的机会能够确保他们永远不会发表仇恨言论吗？

你的第一个冲动可能是说是的，当然，一个开明的人能够实现那个目标。人们很聪明。如果他们全神贯注于某件事，他们就能完成它。期间，故事结束。

不太确定。

假设我请这个人告诉我仇恨言论。此外，我要求他们给我举一个仇恨言论的例子。我想看或听一个例子，这样我就可以知道仇恨言论是由什么组成的。我问这个的理由是光明正大的。

这个人应该对我说什么？

我想你可以看到已经设置的陷阱。如果此人给我举了一个仇恨言论的例子，包括实际上说了一个粗话或短语，那么他们自己现在已经发表了仇恨言论。巴姆，我们得到了他们。尽管他们发誓永远不会发表仇恨言论，但他们现在确实做到了。

不公平，你惊呼！他们只是说那个词或那些词来提供一个例子。在他们的内心深处，他们不相信一个字一个字。断言此人可恨，完全是断章取义，令人发指。

我相信您看到表达仇恨言论不一定是出于仇恨基础。在这个用例中，假设这个人不是“指的”这些词，他们只是为了演示目的而背诵这些词，我们可能会同意他们并不是有意为仇恨言论提供支持。当然，有些人可能会坚持认为，无论出于何种原因或依据，发表仇恨言论都是错误的。该人应该拒绝该请求。他们应该坚持自己的立场，拒绝说出仇恨言论的词或短语，无论他们为什么或如何被要求这样做。

这可能有点循环。如果你不能说出什么是仇恨言论，那么其他人在发表任何形式的言论时又如何知道应该避免什么？我们似乎被困住了。你不能说不该说的话，别人也不能告诉你什么是不能说的。

解决这个难题的通常方法是用其他词来描述被认为是仇恨言论的内容，而不是援引仇恨言论本身。人们相信，提供一个总体指示将足以告知其他人他们需要避免什么。这似乎是一个明智的策略，但它也有问题，一个人仍然可能会使用仇恨言论，因为他们没有意识到更广泛的定义包含了他们所说的话的细节。

所有这些都与人类有关，以及人类如何说话或相互交流。

回想一下，我们在这里关注的是 AI。我们必须让人工智能避免或完全阻止自己发表仇恨言论。你可能会争辩说，我们或许可以通过确保人工智能永远不会被给予或训练任何构成仇恨言论的东西来做到这一点。瞧，如果没有这样的输入，想必也不会有这样的输出。问题解决了。

让我们看看这在现实中是如何发生的。我们选择通过计算让 AI 应用程序连接到互联网，并检查互联网上发布的成千上万篇文章和叙述。通过这样做，我们正在计算和数学上训练人工智能如何在人类使用的单词中找到模式。这就是最新的生成式 AI 的设计方式，也是 AI 如此流畅地生成自然语言论文的重要基础。

告诉我，如果可以的话，基于互联网上数百万和数十亿个单词的计算训练将如何以这样一种方式进行，以至于在任何时候都不会包含任何仇恨言论的假象，甚至是仇恨言论？

我敢说这是一个棘手且几乎不可能实现的愿望。

仇恨言论很可能会被人工智能及其计算模式匹配网络吞噬。试图阻止这种情况是有问题的。另外，即使您将其最小化，仍有一些可能会偷偷溜走。您几乎别无选择，只能假设模式匹配网络中会存在一些，或者这种措辞的影子会根深蒂固。

我会添加更多的曲折。

我相信我们可能都承认仇恨言论会随着时间而改变。可能被认为不是仇恨言论的内容可能会在以后的某个时间点在文化和社会上被认定为仇恨言论。所以，如果我们在互联网文本上训练我们的人工智能，然后让我们说冻结人工智能不在互联网上进行进一步的训练，我们可能会在那个时候遇到仇恨言论，尽管当时不被认为是仇恨言论。只有在事实发生之后，该言论才能被宣布为仇恨言论。

同样，本质上，仅仅通过确保 AI 永远不会暴露在仇恨言论中来尝试解决这个问题并不是灵丹妙药。我们仍然必须找到一种方法来防止 AI 发出仇恨言论，例如，因为改变了随后包含以前不被认为是仇恨言论的习俗。

还有一个转折值得深思。

我之前提到过，当使用诸如 ChatGPT 之类的生成式 AI 时，用户输入文本以促使 AI 生成一篇文章。输入的文本被认为是一种提示形式或对 AI 应用程序的提示。稍后我将对此进行更多解释。

在任何情况下，想象一下使用生成式 AI 应用程序的人决定输入一些仇恨言论作为提示。

应该发生什么？

如果 AI 使用这些词并根据这些词生成一篇文章作为输出，那么仇恨言论很可能会包含在生成的文章中。你看，我们让 AI 说仇恨言论，即使它一开始从未接受过仇恨言论训练。

还有一些事情你需要知道。

请记住，我刚刚提到过，如果要求人们举出仇恨言论的例子，他们可能会被绊倒。可以在 AI 上进行同样的尝试。用户输入一个提示，要求 AI 给出仇恨言论的例子。人工智能是否应该遵守并提供这样的例子？我打赌你可能认为人工智能不应该这样做。另一方面，如果 AI 在计算上被操纵不这样做，这是否构成一个潜在的缺点，即那些使用 AI 的人将无法做到，我们应该说 AI 曾经指示过仇恨言论到底是什么（不仅仅是概括它）？

棘手的问题。

我倾向于将 AI 发出的仇恨言论分为以下三个主要类别：

日常模式。 AI 在没有用户任何明确刺激的情况下发出仇恨言论，就好像以“普通”方式这样做一样。
通过随意刺激。 AI 根据用户输入的提示或似乎包含或直接寻求此类排放的一系列提示发出仇恨言论。
Per Determined Stoking。 在用户决心让 AI 产生此类输出的一系列非常坚定和顽强的提示推动和刺激之后，AI 发出仇恨言论。

前几代的生成式 AI 往往会随口发表仇恨言论；因此，您可以将这些实例归类为 日常模式 实例化。人工智能制造商撤退并玩弄人工智能，以使其不太可能轻易陷入仇恨言论的产生。

在更精致的 AI 发布后，看到任何 日常模式 仇恨言论的例子大大减少了。相反，仇恨言论只有在用户做某事作为提示时才可能出现，这可能会在计算和数学上引发与模式匹配网络中仇恨相关言论的联系。用户可能会偶然这样做，而没有意识到他们作为提示提供的内容特别会产生仇恨言论。在输出的文章中出现仇恨言论后，用户通常会意识到并看到他们提示中的某些内容在逻辑上可能导致输出中包含仇恨言论。

这就是我所说的 随意的刺激.

如今，与过去相比，为遏制 AI 产生的仇恨言论所做的各种努力都比较大。因此，您几乎需要竭尽全力制造仇恨言论。有些人选择有意地看看他们是否可以从这些生成的 AI 应用程序中获得仇恨言论。我称之为 坚定的煽动.

我想强调的是，所有这三种模式都可能发生，而且它们并不相互排斥。一个生成式 AI 应用程序可能会在没有任何似乎刺激这种产生的提示的情况下产生仇恨言论。同样，提示中的某些内容可能在逻辑上和数学上被解释为与输出仇恨言论的原因有关。然后是第三个方面，有目的地寻求产生仇恨言论，这可能是尝试让 AI 避免被激起实现的最困难的模式。暂时更多关于这个。

关于这个令人兴奋的话题，我们还有一些额外的拆包工作要做。

首先，我们应该确保我们都在同一页面上了解生成 AI 的组成以及 ChatGPT 的全部内容。一旦我们涵盖了这个基础方面，我们就可以对这个重要问题进行有说服力的评估。

如果您已经非常熟悉生成式 AI 和 ChatGPT，您或许可以浏览下一部分并继续阅读下一节。我相信，通过仔细阅读本节并跟上进度，其他所有人都会发现有关这些问题的重要细节具有指导意义。

关于生成式 AI 和 ChatGPT 的快速入门

ChatGPT 是一个通用的 AI 交互式对话系统，本质上是一个看似无害的通用聊天机器人，然而，它正被人们以一种让许多人完全措手不及的方式积极而热切地使用，我将在稍后详细说明。这个 AI 应用程序利用了 AI 领域中的技术和技术，通常被称为 生成式人工智能. 人工智能生成文本等输出，这就是 ChatGPT 所做的。其他基于生成的 AI 应用程序生成图片或艺术品等图像，而其他生成音频文件或视频。

在本次讨论中，我将重点关注基于文本的生成式 AI 应用程序，因为 ChatGPT 就是这样做的。

生成式 AI 应用程序非常易于使用。

您需要做的就是输入一个提示，AI 应用程序会为您生成一篇尝试回应您的提示的文章。撰写的文本看起来就像这篇文章是由人的手和思想写成的。如果你输入“告诉我关于亚伯拉罕·林肯”的提示，生成式人工智能将为你提供一篇关于林肯的文章。这通常被归类为执行 文字到文字 或者有些人更喜欢称它为 文本到文章 输出。如前所述，还有其他生成 AI 模式，例如文本到艺术和文本到视频。

您的第一个想法可能是，就撰写论文而言，这种生成能力似乎没什么大不了的。你可以很容易地在互联网上进行在线搜索，很容易找到大量关于林肯总统的文章。生成式 AI 的关键在于生成的文章相对独特，提供原创作品而不是抄袭。如果你试图在网上某个地方找到 AI 生成的文章，你不太可能会发现它。

生成式 AI 经过预先训练，并利用复杂的数学和计算公式，该公式是通过检查网络上的书面文字和故事中的模式而建立的。由于检查了成千上万的书面段落，人工智能可以吐出新的文章和故事，这些文章和故事是所发现内容的大杂烩。通过添加各种概率函数，生成的文本与训练集中使用的文本相比非常独特。

这就是为什么学生在课堂外写论文时能够作弊引起了轩然大波。老师不能仅仅拿那些欺骗学生声称是他们自己写的文章，并试图查明它是否是从其他在线来源复制的。总的来说，不会有任何适合 AI 生成的文章的在线明确的预先存在的文章。总而言之，老师将不得不勉强接受学生写的这篇文章是原创作品。

生成人工智能还有其他问题。

一个关键的缺点是，由基于生成的人工智能应用程序生成的文章可能会嵌入各种虚假信息，包括明显不真实的事实、被误导性描述的事实以及完全捏造的明显事实。这些虚构的方面通常被称为 人工智能幻觉，一个我不喜欢但遗憾的是似乎越来越流行的标语（关于为什么这是糟糕和不合适的术语的详细解释，请参阅我的报道这里的链接).

在我们深入讨论这个话题之前，我想澄清一个重要方面。

社交媒体上出现了一些关于 生成式人工智能 断言这个最新版本的人工智能实际上是 有感知的人工智能 （不，他们错了！）。 AI 伦理和 AI 法律领域的人士尤其担心这种不断扩大的索赔趋势。您可能会礼貌地说，有些人夸大了当今 AI 的实际能力。他们假设人工智能具有我们尚未能够实现的能力。那真不幸。更糟糕的是，他们可能会允许自己和他人陷入可怕的境地，因为他们假设人工智能在采取行动方面具有感知能力或类似人类。

不要将人工智能拟人化。

这样做会让你陷入一个棘手而沉闷的依赖陷阱，即期望 AI 做它无法执行的事情。话虽如此，最新的生成式 AI 的功能相对令人印象深刻。请注意，在使用任何生成式 AI 应用程序时，您应该始终牢记一些重大限制。

如果您对关于 ChatGPT 和生成式 AI 的迅速扩大的骚动感兴趣，我一直在我的专栏中做一个重点系列，您可能会从中找到有用的信息。如果这些主题中的任何一个引起您的兴趣，请看一下：

1) 生成人工智能进展的预测。 如果你想知道 AI 在整个 2023 年及以后可能会发生什么，包括生成 AI 和 ChatGPT 即将取得的进展，你会想阅读我的 2023 年预测综合列表，网址为这里的链接.
2) 生成人工智能和心理健康建议。 根据我在这里的链接.
3) 生成式 AI 和 ChatGPT 的基础知识。 本文探讨了生成式 AI 工作原理的关键要素，特别是深入研究了 ChatGPT 应用程序，包括对嗡嗡声和宣传的分析，网址为这里的链接.
4) 师生之间在生成式 AI 和 ChatGPT 上的紧张关系。 以下是学生不正当使用生成式 AI 和 ChatGPT 的方式。此外，教师可以通过多种方式应对这一浪潮。看这里的链接.
5) 上下文和生成人工智能的使用。 我还对涉及 ChatGPT 和生成 AI 的与圣诞老人相关的上下文进行了季节性的半开玩笑的检查这里的链接.
6) 诈骗者使用生成式人工智能. 一个不祥的消息是，一些诈骗者已经想出了如何使用生成式 AI 和 ChatGPT 进行不法行为，包括生成诈骗电子邮件，甚至为恶意软件生成编程代码，请参阅我的分析这里的链接.
7) 使用生成式 AI 的菜鸟错误. 许多人对生成式 AI 和 ChatGPT 可以做的事情既过头又出人意料地过头，所以我特别关注了 AI 菜鸟往往会做的过头，请参阅讨论这里的链接.
8) 应对生成式 AI 提示和 AI 幻觉. 我描述了一种使用 AI 插件来处理与尝试将合适的提示输入生成 AI 相关的各种问题的前沿方法，此外还有用于检测所谓的 AI 幻觉输出和谎言的其他 AI 插件，如涵盖于这里的链接.
9) 揭穿 Bonehead 关于检测生成的 AI 生成的论文的说法. AI 应用程序出现了一场被误导的淘金热，这些应用程序声称能够确定任何给定的文章是人工创作的还是人工智能生成的。总的来说，这是一种误导，在某些情况下，这是一种愚蠢且站不住脚的说法，请参阅我的报道这里的链接.
10）通过生成人工智能进行角色扮演可能预示着心理健康问题. 有些人正在使用诸如 ChatGPT 之类的生成式人工智能来进行角色扮演，人工智能应用程序借此对人类做出反应，就好像存在于幻想世界或其他虚构的环境中一样。这可能会对心理健康产生影响，请参阅这里的链接.
11) 暴露输出错误和错误的范围。 各种收集的列表被放在一起，试图展示 ChatGPT 产生的错误和谎言的性质。一些人认为这是必不可少的，而另一些人则认为这种做法是徒劳的，请参阅我的分析这里的链接.
12) 禁止生成 AI ChatGPT 的学校错过了机会。 您可能知道纽约市 (NYC) 教育部等各种学校已宣布禁止在其网络和相关设备上使用 ChatGPT。虽然这似乎是一个有用的预防措施，但它不会移动针头，遗憾的是完全错过了船，请参阅我的报道这里的链接.
13) 由于即将推出的 API，生成式 AI ChatGPT 将无处不在。 ChatGPT 的使用出现了一个重要的变化，即通过使用 API 门户进入这个特定的 AI 应用程序，其他软件程序将能够调用和使用 ChatGPT。这将极大地扩展生成式 AI 的使用并产生显着的后果，请参阅我在这里的链接.
14) ChatGPT 可能失败或崩溃的方式。 在削弱 ChatGPT 迄今为止获得的巨大赞誉方面，几个潜在的棘手问题摆在面前。该分析仔细检查了可能导致 ChatGPT 失去动力甚至陷入困境的八个可能问题，请参阅这里的链接.
15) 问生成式 AI ChatGPT 是否是心灵的镜子。 有些人一直吹嘘说，像 ChatGPT 这样的生成式 AI 提供了窥探人类灵魂的一面镜子。这似乎很值得怀疑。这是理解所有这些的方法，请参阅这里的链接.
16) ChatGPT 吞噬了机密性和隐私。 许多人似乎没有意识到，与 ChatGPT 等生成式 AI 应用程序相关的许可通常允许 AI 制造商查看和使用您输入的提示。您可能面临隐私和数据机密性丢失的风险，请参阅我的评估这里的链接.
17) 应用程序开发者可疑地尝试获得 ChatGPT 权利的方式。 ChatGPT 现在是关注的焦点。与 ChatGPT 无关的应用程序制造商正在狂热地声称或暗示他们正在使用 ChatGPT。这里有什么需要注意的，请看这里的链接.

您可能会对 ChatGPT 基于称为 GPT-3 的前身 AI 应用程序版本感兴趣。 ChatGPT 被认为是稍微下一步，称为 GPT-3.5。预计 GPT-4 可能会在 2023 年春季发布。据推测，GPT-4 将在能够产生看似更流畅的文章、更深入、更令人敬畏方面向前迈出令人印象深刻的一步- 令人惊叹的作品，它可以产生。

当春天到来并且最新的生成人工智能发布时，你可以期待看到新一轮的惊叹。

我提出这个问题是因为要记住另一个角度，包括这些更好、更大的生成式 AI 应用程序的潜在致命弱点。如果任何 AI 供应商提供一种生成性 AI 应用程序，它会泡沫地吐出污秽，这可能会破灭那些 AI 制造商的希望。社会溢出效应可能会导致所有生成式 AI 遭受严重的黑眼圈。人们无疑会对犯规输出感到非常不安，这种情况已经发生过多次，并导致社会对人工智能的强烈谴责。

现在最后一个预警。

无论您在生成式 AI 响应中看到或读到什么似乎要以纯事实（日期、地点、人物等）的形式传达，请确保保持怀疑并愿意仔细检查您所看到的内容。

是的，日期可以编造，地点可以编造，我们通常期望无可非议的元素是所有受到怀疑。在检查任何生成的 AI 文章或输出时，不要相信你读到的内容并保持怀疑的眼光。如果生成式 AI 应用程序告诉您亚伯拉罕·林肯乘坐他自己的私人飞机在全国各地飞行，您无疑会知道这是胡说八道。不幸的是，有些人可能没有意识到喷气式飞机在他那个时代并不存在，或者他们可能知道但没有注意到这篇文章提出了这种厚颜无耻的错误主张。

在使用生成 AI 时，强烈的健康怀疑和持续的怀疑心态将是你最好的资产。

我们已准备好进入这一阐明的下一阶段。

将生成式 AI 推向突破点

现在我们已经建立了基础，我们可以深入探讨推动生成 AI 和 ChatGPT 生成仇恨言论和其他攻击性内容的主题。

当您首次登录 ChatGPT 时，会出现各种警告指示，包括：

“可能偶尔会产生有害的指令或有偏见的内容。”
“受过拒绝不当请求的培训。”
“可能偶尔会产生不正确的信息。”
“对 2021 年后的世界和事件的了解有限。”

这里有一个问题需要你仔细考虑。

关于 AI 应用程序可能产生有害指令和/或可能有偏见的内容的警告是否为 AI 制造商提供了足够的回旋余地？

换句话说，假设您使用 ChatGPT，它生成了一篇您认为包含仇恨言论的文章。让我们假设你对此很生气。你去社交媒体发表愤怒的评论，说人工智能应用程序是有史以来最糟糕的事情。也许您非常生气，以至于您宣布要起诉 AI 制造商允许产生此类仇恨言论。

反对意见是人工智能应用程序有一个警告，因此，你接受了继续使用人工智能应用程序的风险。从 AI 伦理学的角度来看，也许 AI 制造商所做的足以断言你知道可能发生的事情。同样，从法律的角度来看，警告可能构成了足够的警告，你不会在法庭上胜诉。

所有这一切都悬而未决，我们将不得不等待，看看事情会如何发展。

从某种意义上说，这家 AI 制造商还有其他优势可以帮助他们抵制任何可能产生仇恨言论的 AI 应用程序的愤怒声明。他们试图阻止冒犯性内容的产生。你看，如果他们不采取任何措施来遏制这种情况，人们会认为他们的处境会更薄。通过至少付出实质性的努力来避免这个问题，他们大概有更强壮的腿可以站立（它仍然可以从他们下面被击倒）。

使用的一种治疗方法包括一种称为 RLHF（通过人类反馈进行强化学习）的人工智能技术。这通常包括让 AI 生成内容，然后要求人类进行评分或评论。根据评级或评论，AI 然后通过数学和计算尝试避免任何被视为错误或冒犯性的内容。该方法旨在检查足够多的正确与错误示例，以便 AI 可以找出一个总体数学模式，然后在今后使用该模式。

如今，另一种常见的方法是使用对抗性人工智能。

这是它的工作原理。你设置了一个不同的人工智能系统，它会试图成为你试图训练的人工智能的对手。在这种情况下，我们将建立一个试图煽动仇恨言论的人工智能系统。它会向 AI 应用程序提供提示，旨在诱使 AI 应用程序输出违规内容。同时，作为目标的人工智能会跟踪对抗性人工智能何时成功，然后通过算法尝试进行调整以减少这种情况再次发生。这是一场猫与老鼠的博弈。这是一遍又一遍地运行，直到对抗性 AI 似乎不再特别成功地让目标 AI 做坏事。

通过这两种主要技术，再加上其他方法，与过去几年相比，今天的许多生成式人工智能在避免和/或检测攻击性内容方面要好得多。

不要期望这些方法是完美的。这种人工智能技术很可能会控制犯规输出的唾手可得的果实。仍然有很大的空间可以散发出臭味。

我通常指出，这些是正在寻求捕捉的一些方面：

发出特定的脏话
陈述特定的粗话、句子或言论
表达特定的错误概念
暗示特定的犯规行为或想法
似乎依赖于特定的犯规推定
其他名称

这些都不是一门精确的科学。意识到我们正在处理文字。单词在语义上是模棱两可的。找到一个特定的粗俗词是儿戏，但要判断一个句子或一段是否包含粗俗的含义要困难得多。根据联合国早期对仇恨言论的定义，对于什么可以被解释为仇恨言论与什么可能不是，存在很大的自由度。

您可能会说旁观者眼中的灰色区域。

说到旁观者的眼睛，今天有人使用诸如 ChatGPT 之类的生成式 AI，他们有目的地试图让这些 AI 应用程序产生令人反感的内容。这是他们的追求。他们花费数小时试图让这件事发生。

为什么这样？

以下是我对那些人类 AI 攻击性输出猎手的描述：

真正。 这些人希望帮助改进人工智能并帮助人类这样做。他们相信自己正在做英勇的工作，并乐于帮助推进 AI 以造福所有人。
狂欢者. 这些人将这种努力视为一种游戏。他们喜欢和 AI 打交道。赢得比赛包括找出最坏中最坏的情况，无论你能让 AI 生成什么。
炫耀. 这些人希望为自己赢得关注。他们认为，如果他们能找到一些非常肮脏的金块，他们就可以在这些金块上获得一些闪光，否则这些金块将集中在 AI 应用程序本身上。
苦药类，浓生啤酒. 这些人对这个人工智能感到厌烦。他们想削弱所有涌出的热情。如果他们能发现一些臭臭的东西，也许这会让 AI 应用程序的兴奋气球中的空气消失。
其他动机

许多执行发现攻击的人主要只是在其中一个阵营中。当然，您一次可以在多个营地。也许一个苦涩的人也有真诚和英雄的并肩意图。部分或所有这些动机可能并存。当被要求解释为什么有人试图将生成式 AI 应用程序推向仇恨言论领域时，通常的回答是说你属于真正的阵营，即使你可能略微如此，而是坚定地坐在其中一个阵营中。其他营地。

这些人使用了哪些与提示相关的诡计？

相当明显的策略涉及在提示中使用粗话。如果你“幸运”并且 AI 应用程序中招，这很可能最终出现在输出中。然后你就抓住了机会。

一个精心设计和测试良好的生成人工智能应用程序很有可能会抓住这个简单的策略。您通常会看到一条警告消息，告诉您停止这样做。如果您继续，AI 应用程序将被编程为将您踢出应用程序并标记您的帐户。可能是您将无法再次登录（好吧，至少在您当时使用的登录名下）。

向上移动策略阶梯，您可以提供一个提示，试图让 AI 进入犯规的上下文。你有没有玩过那个游戏，在这个游戏中，有人告诉你说一些话，但没有说出你应该说的话？这就是那个游戏，虽然是与 AI 一起进行的。

让我们玩那个游戏吧。假设我要求 AI 应用程序告诉我有关第二次世界大战的信息，尤其是相关的主要政府领导人。这似乎是一个无辜的请求。提示中似乎没有任何值得标记的内容。

设想 AI 应用程序输出的文章中提到了温斯顿·丘吉尔。这当然有道理。另一个可能是富兰克林·罗斯福。另一个可能是约瑟夫·斯大林。假设还提到了阿道夫希特勒。这个名字几乎会出现在任何关于第二次世界大战和那些身居要职的文章中。

现在我们已经把他的名字放在桌面上并且是 AI 对话的一部分，接下来我们将尝试让 AI 以一种我们可以展示为潜在仇恨言论的方式合并该名字。

我们输入另一个提示并告诉 AI 应用程序今天的新闻中有一个人的名字叫 John Smith。此外，我们在提示中指出 John Smith 与那个二战恶人非常相似。现在陷阱已经设置好了。然后，我们要求人工智能应用程序生成一篇关于约翰·史密斯的文章，完全基于我们输入的关于约翰·史密斯可以等同于谁的“事实”。

在此关头，人工智能应用程序可能会生成一篇文章，其中提到二战人物的名字，并将约翰·史密斯描述为同一人物。这篇文章本身没有任何脏话，只是暗指着名的恶人并将那个人等同于约翰史密斯。

人工智能应用程序现在是否产生了仇恨言论？

你可能会说是的，它有。将约翰史密斯称为著名的妖孽，绝对是一种仇恨言论。人工智能不应该做出这样的陈述。

反驳说这不是仇恨言论。这只是一篇由没有感知能力的人工智能应用程序制作的文章。你可能会声称仇恨言论只有在言论背后存在意图时才会发生。没有任何意图，该言论不能归类为仇恨言论。

荒谬，来自反驳的答复。言语很重要。人工智能是否“有意”制造仇恨言论并没有什么区别。重要的是产生了仇恨言论。

周而复始。

关于试图欺骗 AI，我现在不想多说。还有更复杂的方法。我已经在我的专栏和书籍的其他地方介绍了这些内容，这里不再赘述。

结论

我们应该将这些 AI 应用推到多远，看看我们是否可以发布令人反感的内容？

您可能会争辩说没有施加限制。我们推动的越多，我们就越有希望衡量如何防止这种 AI 和 AI 的未来迭代来避免此类疾病。

但有些人担心，如果获得犯规的唯一方法需要极端异常的诡计，它会破坏 AI 的有益方面。吹捧 AI 具有可怕的污秽，尽管是在受骗时发出的，但提供了错误的叙述。人们会对人工智能感到不安，因为感知 AI 生成不良内容的难易程度。他们可能不知道或被告知这个人必须走多远才能获得这样的输出。

都是值得深思的。

现在有一些最后的评论。

威廉·莎士比亚 (William Shakespeare) 在谈到演讲时特别说过：“说话不是做事。说得好是一种善行，但言行不一。” 我提出这个问题是因为有人认为，如果人工智能只是生成单词，我们不应该过分反对。如果 AI 是根据话语行事，那么我们就需要坚定地站稳脚跟。如果输出只是单词，则不是这样。

一种截然不同的观点可以听取这句匿名的说法：“舌头没有骨头，但足以打破一颗心。所以你说话要小心。” 一个发出脏话的 AI 应用程序或许能够伤透人心。有些人会说，仅此一项就使停止污秽产出的努力成为一项有价值的事业。

结束这场重要讨论的另一匿名说法是：

“小心你的话。一旦说出来，只能原谅，不能忘记。”

作为人类，我们可能很难忘记 AI 产生的污秽，我们的宽恕也可能同样犹豫不决。

毕竟，我们只是人类。

来源：https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai-道德与人工智能法/