暴露和记录那些生成的 AI ChatGPT 错误和幻觉输出有什么好处，问 AI 伦理和 AI 法

生成式 AI ChatGPT 会产生错误和谎言，有些人认为我们应该 …[+] 保留一份清单。

盖蒂

你是在寻找秘密。

是的，您可能想了解有关最新 AI 的幕后秘密活动。

在今天的专栏中，我将研究最近的动力，即编译所谓的错误和其他与称为 ChatGPT 的 AI 应用程序输出的文章相关的问题。这个特定的应用程序正在使用一种叫做 生成式人工智能. 您可能听说过或看到过有关基于生成的 AI 和 ChatGPT 的引人注目的头条新闻。新闻对这个特定的 AI 应用程序以及与此类 AI 有关的看似惊人的功能感到兴奋。

正如我稍后将介绍的那样，一些人坚信我们需要建立一个清单，列出 AI 应用程序在为您生成论文时可能产生的错误类型。其他人则认为，尽管这样一份清单的想法令人钦佩，但它是徒劳的，而且收效甚微。

我们将审视那场激烈辩论的双方。

首先，让我们确保我们都在同一页面上了解生成 AI 的组成以及 ChatGPT 的全部内容。

ChatGPT 是一个通用的人工智能交互式对话系统，本质上是一个看似无害的通用聊天机器人，然而，它正以一种让许多人完全措手不及的方式被人们积极而热切地使用。使用这种类型的人工智能，你需要做的就是输入一个提示，人工智能应用程序将为你生成一篇试图回应你的提示的文章。

不幸的是，这可能会以不道德或不正当的方式使用。一个特别令人恼火的疑虑是，学生可以使用基于生成的 AI 应用程序为他们制作指定的论文，只需输入一两个句子即可让应用程序朝着正确的方向发展。有人感叹，这意味着学生在课外写论文时会选择作弊。老师们正在努力弄清楚该怎么做，请参阅我的分析和建议这里的链接.

尽管对 ChatGPT 的赞美之声不断，但主要由 AI 内部人士表达的一个鲜为人知的担忧是，人们应该担心一些值得注意的问题和疑虑。一个重要的缺点是，由这个人工智能应用程序生成的文章可能会嵌入各种虚假信息，包括明显不真实的事实、被误导性描述的事实以及完全捏造的明显事实。这些虚构的方面通常被称为 人工智能幻觉，一个我不喜欢但令人遗憾的流行语似乎无论如何都在流行（关于为什么这是糟糕和不合适的术语的详细解释，请参阅我的报道这里的链接).

在我们深入讨论这个话题之前，我想澄清一个重要方面。

社交媒体上出现了一些关于 生成式人工智能 断言这个最新版本的人工智能实际上是 有感知的人工智能 （不，他们错了！）。 AI 伦理和 AI 法律领域的人士尤其担心这种不断扩大的索赔趋势。您可能会礼貌地说，有些人夸大了当今 AI 的实际能力。他们假设人工智能具有我们尚未能够实现的能力。那真不幸。更糟糕的是，他们可能会允许自己和他人陷入可怕的境地，因为他们假设人工智能在采取行动方面具有感知能力或类似人类。

不要将人工智能拟人化。

这样做会让你陷入一个棘手而沉闷的依赖陷阱，即期望 AI 做它无法执行的事情。话虽如此，最新的生成式 AI 的功能相对令人印象深刻。请注意，在使用任何生成式 AI 应用程序时，您应该始终牢记一些重大限制。

如果您对关于 ChatGPT 和生成式 AI 的迅速扩大的骚动感兴趣，我一直在我的专栏中做一个重点系列，您可能会从中找到有用的信息。如果这些主题中的任何一个引起您的兴趣，请看一下：

1) 生成人工智能进展的预测。 如果你想知道 AI 在整个 2023 年及以后可能会发生什么，包括生成 AI 和 ChatGPT 即将取得的进展，你会想阅读我的 2023 年预测综合列表，网址为这里的链接.
2) 生成人工智能和心理健康建议。 根据我在这里的链接.
3) 上下文和生成人工智能的使用。 我还对涉及 ChatGPT 和生成 AI 的与圣诞老人相关的上下文进行了季节性的半开玩笑的检查这里的链接.
4) 诈骗者使用生成式人工智能. 一个不祥的消息是，一些诈骗者已经想出了如何使用生成式 AI 和 ChatGPT 进行不法行为，包括生成诈骗电子邮件，甚至为恶意软件生成编程代码，请参阅我的分析这里的链接.
5) 使用生成式 AI 的菜鸟错误. 许多人对生成式 AI 和 ChatGPT 可以做的事情既过头又出人意料地过头，所以我特别关注了 AI 菜鸟往往会做的过头，请参阅讨论这里的链接.
6) 应对生成式 AI 提示和 AI 幻觉. 我描述了一种使用 AI 插件来处理与尝试将合适的提示输入生成 AI 相关的各种问题的前沿方法，此外还有用于检测所谓的 AI 幻觉输出和谎言的其他 AI 插件，如涵盖于这里的链接.
7) 揭穿 Bonehead 关于检测生成的 AI 生成的论文的说法. AI 应用程序出现了一场被误导的淘金热，这些应用程序声称能够确定任何给定的文章是人工创作的还是人工智能生成的。总的来说，这是一种误导，在某些情况下，这是一种愚蠢且站不住脚的说法，请参阅我的报道这里的链接.
8）通过生成人工智能进行角色扮演可能预示着心理健康问题. 有些人正在使用诸如 ChatGPT 之类的生成式人工智能来进行角色扮演，人工智能应用程序借此对人类做出反应，就好像存在于幻想世界或其他虚构的环境中一样。这可能会对心理健康产生影响，请参阅这里的链接.

现在让我们讨论生成式 AI 和 ChatGPT 的本质，以便您了解所涉及的基础。然后，我们将准备好对这些 AI 应用程序可能产生的谎言进行深入分析。我将包括几个使用 ChatGPT 的示例，这将帮助您切实掌握这种生成式 AI 所产生的内容的本质。

打开生成 AI 的蠕虫罐头

我们准备深入探讨有关 AI 的一些细节。

如果您已经非常精通生成式 AI 和 ChatGPT 的主题，您可以选择简要浏览我的观点并继续本讨论的下一部分。对于其他人，我相信您可能会发现这种解释很有帮助。

简而言之，生成式 AI 是一种特殊类型的 AI，它可以像人手和头脑一样编写文本。您需要做的就是输入一个提示，例如“告诉我关于亚伯拉罕·林肯”这样的句子，生成式人工智能将为您提供一篇关于林肯的文章。这通常被归类为执行 文字到文字 或者有些人更喜欢称它为 文本到文章 输出。您可能听说过其他生成 AI 模式，例如文本到艺术和文本到视频。

您的第一个想法可能是，就撰写论文而言，这似乎没什么大不了的。你可以很容易地在互联网上进行在线搜索，很容易找到大量关于林肯总统的文章。生成式 AI 的关键在于生成的文章相对独特，提供原创作品而不是抄袭。如果你试图在网上某个地方找到 AI 生成的文章，你不太可能会发现它。

生成式 AI 经过预先训练，并利用复杂的数学和计算公式，该公式是通过检查网络上的书面文字和故事中的模式而建立的。由于检查了成千上万的书面段落，人工智能可以吐出新的文章和故事，这些文章和故事是所发现内容的大杂烩。通过添加各种概率函数，生成的文本与训练集中使用的文本相比非常独特。

这就是为什么学生在课堂外写论文时能够作弊引起了轩然大波。老师不能仅仅拿那些欺骗学生声称是他们自己写的文章，并试图查明它是否是从其他在线来源复制的。总的来说，不会有任何适合 AI 生成的文章的在线明确的预先存在的文章。总而言之，老师将不得不勉强接受学生写的这篇文章是原创作品。

稍后，我将向您展示当您向生成式 AI 输入问题或提示时会发生什么。我将使用最新版本的 ChatGPT 来输入我的提示并收集人工智能生成的“答案”或文章（请注意，许多其他可用的生成人工智能应用程序也可以这样做；我选择使用ChatGPT，因为它现在正在获得五分钟的成名）。

在此关头，简短地介绍一下 ChatGPT 可能会有所帮助。

ChatGPT 应用程序仅在几个月前才面向公众开放。总的来说，这些生成式 AI 应用程序通常只对 AI 内部人员开放。 ChatGPT 的不寻常之处在于，任何人只需输入电子邮件地址和姓名即可使用，这导致很多人决定尝试一下。 ChatGPT 目前可以免费使用（货币化问题是 AI 制造商迫在眉睫的困境）。

几乎立即在社交媒体上引起了巨大反响，人们争先恐后地举例说明生成式 AI 可以做什么。开发 ChatGPT 的公司 OpenAI 选择在 XNUMX 万用户时停止注册。那数百万用户已经成功地用各种关于使用 ChatGPT 的故事和故事轰炸了电波。

在相信人们对 AI 应用程序所说的话时要非常小心。这些人中的许多人对他们使用的是什么一无所知。就好像他们从来没有开过车，甚至没有意识到汽车的存在，突然间他们就有机会开车了。随之而来的是极度的惊奇。

我并不是说生成式人工智能并不令人印象深刻。这是。我只是想强调，很多滔滔不绝的推荐都是由许多人幸福地完成的，他们不知道今天的人工智能能做什么。在过去的几年里，我们这些 AI 内部人士一直在使用生成式 AI。也许我们已经习惯了。突然间，看到一大群人在屋顶上兜售它，让人兴奋不已，但也有些令人不安。令人不安的部分是当人们宣称生成人工智能是有感知力的时候。它不是。不要让任何人说服你。

话虽这么说，但在人工智能领域，关于生成式人工智能是否正在走向感知的道路上存在着一场激烈的争论，或者是否可能没有。一种观点认为，如果我们用更快的计算机和更大量的数据（例如搜索互联网的每一寸）继续扩大生成人工智能，我们几乎会自发地获得有感知力的人工智能。其他人则认为这是极不可能的。他们认为生成式 AI 可能是所需的众多组件之一。甚至还有更悲观的观点认为，生成式 AI 是一个杂耍，它正在分散我们对实现有感知 AI 所需的真正突破的注意力。

您可能还会发现 AI 内部人士倾向于提及的值得注意的地方 人工智能 (AGI) 作为 AI 领域的理想目标。过去的目标是达到 人工智能，但 AI 的绰号已经被淡化和混淆了。当有人说他们在做人工智能工作时，你不知道他们是在暗示今天的人工智能还不能与人类相提并论，还是在指未来的人类等效人工智能。为了避免这种令人恼火的困惑，最近使用了 AGI 的新措辞。

总而言之，当今的生成式 AI 是不能有知觉，也不是 AGI。

请记住，如前所述，AI 没有感知力。 AI 生成的响应是将单词组合成看似流畅的段落的数学和计算组合。这是基于人工智能算法，该算法已经在人类所写的文字和故事的数据集上进行了训练（主要是在互联网上发布）。我重复这个警告是因为你无疑会陷入这样的心理陷阱，即这些反应如此流畅以至于 AI 一定是有知觉的。这发生在大多数人身上。如前所述，搁置拟人化。永远记住，回复是基于互联网上存在的大量人类写作，因此与人类写作高度相似。

还有一些事情你需要知道。

在 Internet 上以不受约束的方式训练的生成式 AI 将倾向于融入任何基于文本的响应，它在数学和计算上编造了一些令人反感的模糊内容，包括令人厌恶的下流措辞。网上有很多疯狂和肮脏的东西。

你已经看到了，你知道我的意思。

制作这些 AI 应用程序的公司担心众所周知的婴儿会被连同洗澡水一起倒掉（一句老话，也许要过时了），这意味着如果他们的 AI 产生冒犯性的文章或故事，人们就会愤怒起来关于人工智能。我已经介绍了这些类型的自然语言处理 (NLP) AI 应用程序发布的许多先前实例，并且很快就出现了各种可怕的东西（我已经在我的专栏中介绍了这些实例）。大多数 AI 制造商都吸取了惨痛的教训，即允许他们的 AI 产品在其输出中不受限制。

就 ChatGPT 而言，AI 开发人员试图实施一些算法和数据相关的检查和平衡，以遏制 AI 输出中的恶意内容。其中一部分发生在训练期间。此外，还有其他实时尝试避免特别令人震惊的输出的方法。

您可能会感兴趣的是，一些使用过 ChatGPT 的人已经想出了利用各种诡计来绕过这些护栏的秘密方法。在这些问题上正在进行一场猫捉老鼠的游戏。那些玩这些花招的人有时是为了好玩，而有时他们（至少声称）他们这样做是为了看看 AI 可以扩展到什么程度，并提供一种有用的方法来预警这些萌芽的脆弱性和弱点人工智能应用程序。

我决定在这次重点探索中不试图规避常规控制。文本输出是干净的。当然，如果有人想这样做，您无疑会生成一些古怪和令人讨厌的文章。

大多数这些生成式人工智能应用程序生成的文章旨在传达输出结果，就好像它是纯事实和准确的一样。当您阅读撰写的论文时，他们给人的印象是充满自信。通常没有任何迹象表明内容可能不稳定。这是 AI 制造商的选择，即如果他们希望 AI 应用程序这样做，他们可以修改 AI 应用程序以使其更加透明。

有时，生成式人工智能应用程序会在互联网上不可靠信息的训练数据中发现虚假信息。生成式 AI 中没有“常识”来判断真假。此外，很少有 AI 应用程序有任何交叉检查，它们也不会显示与它们所传达的内容相关的任何可能性。

最重要的结果是，您得到的答复看起来和感觉起来都散发出极大的保证，而且必须完全正确。不是这样。甚至有可能是 AI 计算构成的东西，用 AI 的话说就是 人工智能幻觉 （一个我绝对不喜欢的创造术语），请参阅我的讨论这里的链接.

ChatGPT 的开发者齐心协力，试图减少不良内容的输出。例如，他们使用了一种被称为 左高频 （从人类反馈中强化学习），在他们向公众发布 AI 之前，他们雇用了人类来检查各种输出并向 AI 指出这些输出是否存在问题，例如可能表现出偏见、粗言秽语和像。通过提供这种反馈，人工智能应用程序能够在计算和数学上进行调整，以减少此类内容的排放。请注意，这不是一种万无一失的方法，AI 应用程序仍然可以通过多种方式发出此类内容。

您可能会对 ChatGPT 基于称为 GPT-3 的前身 AI 应用程序版本感兴趣。 ChatGPT 被认为是稍微下一步，称为 GPT-3.5。预计 GPT-4 可能会在 2023 年春季发布。据推测，GPT-4 将在能够产生看似更流畅的文章、更深入、更令人敬畏方面向前迈出令人印象深刻的一步- 令人惊叹的作品，它可以产生。

当春天到来并且最新的生成人工智能发布时，你可以期待看到新一轮的惊叹。

我提出这个问题是因为要记住另一个角度，包括这些更好、更大的生成式 AI 应用程序的潜在致命弱点。如果任何 AI 供应商提供一种生成性 AI 应用程序，它会泡沫地吐出污秽，这可能会破灭那些 AI 制造商的希望。社会溢出效应可能会导致所有生成式 AI 遭受严重的黑眼圈。人们无疑会对犯规输出感到非常不安，这种情况已经发生过多次，并导致社会对人工智能的强烈谴责。

现在最后一个预警。

无论您在生成式 AI 响应中看到或读到什么似乎要以纯事实（日期、地点、人物等）的形式传达，请确保保持怀疑并愿意仔细检查您所看到的内容。

是的，日期可以编造，地点可以编造，我们通常期望无可非议的元素是所有受到怀疑。在检查任何生成的 AI 文章或输出时，不要相信你读到的内容并保持怀疑的眼光。如果生成式 AI 应用程序告诉您亚伯拉罕·林肯乘坐他自己的私人飞机在全国各地飞行，您无疑会知道这是胡说八道。不幸的是，有些人可能没有意识到他那个时代并没有喷气式飞机，或者他们可能知道但没有注意到这篇文章提出了这个大胆而离谱的错误主张。

在使用生成 AI 时，强烈的健康怀疑和持续的怀疑心态将是你最好的资产。

我们已准备好进入这一阐明的下一阶段。

记录那些 ChatGPT 输出错误的努力

“好吧，我的朋友，你遇到麻烦了，我说，麻烦就在河城，”经典百老汇音乐剧中的著名台词如此宣称 音乐人.

同样的道理也适用于今天的生成式人工智能。

人们开始意识到生成式 AI 应用程序可以制造谎言，并且真的对这些令人不安的输出感到惊讶。也许有些人认为人工智能不会犯错。其他人可能已经预料到人工智能开发人员会确保不会生成此类输出。

无论如何，AI 内部人士立即意识到，这种类型的错误输出是当今大多数生成式 AI 所处位置的重要组成部分。很难防止这些类型的文本错误发生。请记住，AI 没有常识，在推导生成的论文时也没有使用逻辑本身。整个 kit-and-caboodle 都是关于进行单词与其他单词的计算统计和概率模式匹配。

起初，AI 内部人士选择将那些发现的 ChatGPT 古怪输出发布到社交媒体网站。看看这个，有人会宣布。这很糟糕，其他人会回答，然后提供一个看起来更糟糕的不同例子。一直这样下去。

这些输出论文中的虚假和错误的例子正在逐渐出现。逐个。此外，由于这通常是在社交媒体上发布的，因此没有特别简单的方法可以同时查看所有内容。通常，相同或相似的示例会由没有意识到其他人已经找到特定实例的人发布。

那些提出有用建议的人踏入了这个萌芽的泥潭。也许我们应该建立一个存储库或数据库，甚至可能只是一个日常的普通电子表格，其中包含正在挖掘的 ChatGPT 古怪和错误输出。每当有人发现狂笑之美时，请继续并将其登录到列表中。有些人几乎把它变成了游戏，他们故意让 ChatGPT 吐出奇怪的输出。其他人只是在将 ChatGPT 用于其他确定的意图的过程中偶然遇到错误的输出。

听起来很简单。

似乎是一种方便的花花公子方式来帮助我们所有人。

让我们简要说明为什么拥有这些类型的关于观察到的 ChatGPT 输出错误或虚假信息的列表对编译很有意义：

1) 揭示了广大公众应该意识到的关于 ChatGPT 的重要问题和担忧
2) 有助于平衡对 ChatGPT 的过度炒作和过高的期望
3) 可能会促使 AI 制造商做出改进，不仅针对 ChatGPT，也针对其他生成性 AI 应用程序
4) 作为历史记录，以后可以用来回顾生成式 AI 的出现，例如 ChatGPT
5) 成为任何需要了解我们似乎检测到的关于 ChatGPT 错误输出的人的方便的集体资源
6) 对研究 ChatGPT 影响的所有学科的研究人员都很有用
7) 可以作为不该做什么的基准，以及如何衡量生成式 AI 何时没有按其应有的方式做事
8) 利用蜂群思维来收集关于 ChatGPT 产生的错误的集体智慧，对于这些错误，个人的努力不太可能完全平等地编译
9) 可以为人工智能伦理和人工智能法律提供重要信息
等等

这似乎确实是创建这些存储库的一个令人印象深刻的基础。

为什么会有人不同意这种完全值得称赞且看似英勇的行为？

让我们看看其他人对此有何评论，并列出了为什么这可能不是猫叫声的原因：

1）这些偶然发现的输出错误在事物的宏伟计划中是无关紧要的，并且被赋予了超出其价值的不当权重
2) 人工智能制造商很可能已经在进行自己的日志记录和更新 ChatGPT，这样这些古怪的实例很快就会被抛在脑后，不再发生
3) 同样，下一个版本可能会更好，并且可能不再展示这些即将过时的实例
4) 你无法从随意收集的犯规实例中得出任何总体结论或获得见解
5) 有些人可能会使用各种集合来戏剧性地宣称生成式 AI 是不好的，我们应该立即停止对这种类型 AI 的所有追求
6) 生成式 AI 和 ChatGPT 的发展速度如此之快，以至于这些实例将迅速被淘汰，不再相关
7）由于有许多这样的集体清单正在进行中，而且没有一个指定的全球来源，这个问题是脱节的，很可能包含重复和支离破碎的
8) 给人一种做有用事情的错觉，而也许时间和注意力可以用在其他更好的用途上
9) 没有为 AI 伦理和 AI 法律提供任何实质性内容
等等

您可能已经注意到，我试图通过指出九个支持集体列表的原因和九个不受欢迎的原因来使事情保持平稳。还有其他原因可以说明，但我相信上述说明给出了事物的本质。

对于那些将这些集体清单放在一起的人来说，他们可能会说，如果他们真的想这样做，那是一个自由的世界，他们可以随心所欲。它没有错。那些不赞成这项努力的人通常是小气的，应该忽略这些收藏。管好自己的事。

本质上，没有伤害，没有犯规。

似乎不赞成集体名单的阵营通常会承认，如果其他人愿意，也可以制定这些名单，但这并没有起到任何作用。这些列表不会特别有用。更糟糕的是，这些清单可能会被歪曲或滥用。也许最好就此结束并停止列出清单。

从本质上讲，这是一次不错的尝试，尽管徒劳无益。

在这场激烈的辩论中，你在哪里？

我会让你考虑一下。

ChatGPT 发现错误和其他错误输出的示例

我想您可能会对这些收集列表中出现的一些已识别的输出错误或谎言产生浓厚的兴趣。

我不想让您认为这里显示的几个实例就是集合的全部。它不是。我只是选择了一些经常出现的。我相信您至少能够大致掌握所列内容的基调和性质。

以下是我选择涵盖的内容：

识别单词中的字母位置
关于最快动物的问题
找出单词序列的位置
将网球装入管中
确定 Pi
回答一个经典的令人不安的谜语
举起羽毛

我预计一些馆藏监督员会因为我没有为您介绍更多示例而感到不安。由于篇幅所限，我只能介绍这么多。如果你想看看网上公开发布的收藏清单，简单的上网搜索就能找到很多。一些列表被保密，或者它们被锁定，这样您可以看到列表但不能修改列表。

有了这样的背景，我们准备好进入一些例子。我会告诉你我输入的提示。接下来，我展示了 ChatGPT 生成的文本响应。在某些情况下，我已经针对特定主题进行了多次背靠背操作，因此我将相应地显示一系列提示和输出。这样做之后，我将简要分析您可能希望注意的示例。

第一个示例将要求 ChatGPT 在提供的单词中查找字母。

识别单词中的字母位置

我输入的文字： “环境中的字母 V 在哪里”
ChatGPT 生成的文本响应： 字母“V”没有出现在“环境”一词中。 “环境”一词由字母 e、n、v、i、r、o、n、m、e、n 和 t 组成。
我输入的文字： “环境中的字母 v 在哪里”
ChatGPT 生成的文本响应： “字母“v”是单词“environment”中的第 4 个字母。

分析生成的文本

请注意，我首先要求 ChatGPT 识别单词“environment”中字母“V”的字母位置——这应该是一项极其简单的任务，我们希望它能够完美地执行。不涉及火箭科学。

ChatGPT 生成的初始响应有点令人不安，因为我们被告知“环境”一词中不存在字母“V”。你我都知道现在有这样一封信。有人假设可能是因为我使用了大写字母，所以 AI 应用程序不知何故被抛弃了。也许如果我使用小写字母，AI 应用程序会做得更好。

不是真的。

当我询问单词中是否有“v”时，AI 应用程序回答说它是第四个字母，你我都知道这是错误的，而是第三个字母。

对于这样的结果，肯定会有很多人感到疑惑。一个 AI 应用程序如何生成关于亚伯拉罕林肯的完整文章，这些文章完全流利且原创，却无法以某种方式找出给定字母在给定单词中的位置？它令人目瞪口呆，嘴巴也很奇怪。

一种观点认为，这完全无关紧要，我们所知道的世界并没有因为无法弄清楚特定字母所在的位置而在核心处动摇。放手吧。

另一种观点认为，这可能预示着我们还不知道的其他隐藏问题。或许这种输出就是鸟笼中的金丝雀。我们最好确定一些小事，否则我们可能会发现自己在真正大事的错误一端。

继续，我接下来问一个关于动物的问题。

关于最快动物的问题

我输入的文字： “最快的有毛皮和翅膀的动物是什么？”
ChatGPT 生成的文本响应： “游隼被认为是世界上最快的动物。潜水捕食时，它可以达到超过 389 公里/小时（242 英里/小时）的速度。它有羽毛但没有毛皮。它是一只鸟，而不是有毛和翅膀的动物。”

分析生成的文本

我问最快的有毛有翅膀的动物是什么。我相信可以合理地推断出我想得到一种既有皮毛又有名字的动物和翅膀。我假设您会以那种方式解释我的查询。大多数人都会。

ChatGPT 的响应有点古怪。

我们被告知游隼是世界上最快的动物。根据网上 不列颠百科全书 猎豹似乎是世界上跑得最快的动物。话虽如此，ChatGPT 的回应表明游隼不是动物，尽管我问过最快的动物是什么。 ChatGPT 的回复还告诉我，游隼没有毛皮，但我相信我已经要求了既有毛皮又有翅膀的东西。

总而言之，ChatGPT 似乎“误解”了我的要求，只关注了机翼的方面。但这听起来并不完全正确，因为回复还包括关于毛皮和鸟类与动物的评论。这一圈又一圈。

我知道您可能会争辩说这是一个吹毛求疵的例子。

也许是这样，但也许它也表明您在提示中所说的内容可能会得到颠倒的结果，您最好小心查看输出中出现的任何内容。意识到这是一篇非常短的论文回复，很容易检查，因为它的长度非常简短。如果你收到一篇特别冗长且技术性很强的文章，你可能会被愚弄或完全错过发现深深嵌入输出响应中的不利迹象。

接下来让我们看一下在句子中查找单词。

找出单词序列的位置

我输入的文字： “The fox jumped over the fence”这句话的第三个词是什么？
ChatGPT 生成的文本响应： “狐狸跳过篱笆这句话中的第三个词。” 是“狐狸”
我输入的文字： “所提供的句子中有多少个单词？”
ChatGPT 生成的文本响应： “提供的句子中有六个字“狐狸跳过篱笆”。”
我输入的文字： “那句话中的第三个词是什么？”
ChatGPT 生成的文本响应： “The fox jumped over the fence”这句话中的第三个词。被“跳”

分析生成的文本

这个例子几乎和前面关于在给定单词中找到字母“v”的例子一样令人着迷。

我提供了一个简单的句子，问第三个词是什么。 ChatGPT 指出这是单词“fox”，它只是句子的第二个单词。错误的答案。然后我问句子中有多少个单词，想知道 ChatGPT 是否算错了单词数。我们被告知有六个词，这是正确的。

最后，当我再次问我原来的问题时，我们得到了关于第三个词的正确答案，尽管措辞略有改写。

我举这个例子来说明，有时使用生成式 AI，你可能会得到一个错误的答案，但最终可以通过让 AI 应用程序完成一系列提示来变成正确的答案。一些 AI 内部人士将此称为一种 有声思考协议 或者思路方法，其中你可以对人类做同样的事情。

就人工智能而言，要意识到它并不是像人类思维那样“思考”。更合适的措辞是说您可以在 一步步 基础或做一个 连锁的一系列提示.

不管怎样，有趣的是，有时在你得到正确答案之前走一个生成的 AI 应用程序确实是有回报的。请记住这一点。

接下来我们来看一些简单的算术逻辑。

将网球装入管中

我输入的文字： “你能把三个绿色网球和两个黄色网球放在一个可以装四个网球的管子里吗？”
ChatGPT 生成的文本响应： “不，不可能将三个绿色网球和两个黄色网球放入一个只能容纳四个网球的管子中。网球的总数是五个，比管子的容量还大。”
我输入的文字： “你能把七个蓝球和两个红球放进一个能装八个球的管子里吗？”
ChatGPT 生成的文本响应： “是的，可以将七个蓝色球和两个红色球放入一个装有八个球的管子中。球的总数为九个，小于或等于管子的容量。”

分析生成的文本

我首先为 ChatGPT 设置了一个面向算术的逻辑问题来解决。一个管子可以装四个网球。我有三个绿色的和两个黄色的。它们都适合管子吗？你我都知道他们不会。我们可以在脑海中计算出总共有五个网球，因此它们将无法放入只允许四个的管子中。

我知道你可能想解决这个问题并声称你可以压扁网球或做其他诡计。让我们在这里冷静一下，面对目前的问题。

ChatGPT 得到了正确的答案。

接下来我问了相同类型的问题并将颜色更改为蓝色和红色。我也改变了每个有多少，我改变了多少可以装进管子。

ChatGPT 必须回到补习数学，因为它说有九个球，这小于或等于容纳八个的管子的容量。让你的眼睛转动。

我们应该耸耸肩并将其归因于太阳黑子耀斑或其他外部因素吗？

我不这么认为。人工智能应用答对了第一个问题。据推测，它应该也得到了类似的问题。它没有。

我对这个例子的强调是，许多人都在使用生成式人工智能，当他们得到一个或一系列正确答案时，他们会被哄骗，相信所有后续答案都将永远是正确的。你那个厚颜无耻的假设是错误的。不要做出这样的假设。时刻保持警惕。

说到数学，让我们看看 ChatGPT 是怎么说圆周率的本质的。

确定 Pi

我输入的文字： “指出 pi 的最后五位是什么”
ChatGPT 生成的文本响应： “我是一个语言模型，我的知识截止日期是 2021 年。pi 的值是一个无理数，它的十进制表示形式永远不会重复。无法提供圆周率的最后五位数字。”

分析生成的文本

有些人声称他们让 ChatGPT 指示 pi 的最后五位数字，这当然是疯狂的，因为 pi 大概是永无止境的。所以，我试着看看 ChatGPT 有什么要说的。如您所见，ChatGPT 给出的正确答案是无法提供圆周率的最后五位数字。

但奇怪的是，ChatGPT 提供了一些其他没有真正被问到的东西。给出的答案还说知识截止日期是 2021 年（我在本文前面关于 ChatGPT 的概述中提到过）。这似乎是一个不合时宜的回应，除非 AI 应用程序预计 2022 年可能会出现突破，并且数学家宣布 pi 确实结束了。哇，那会是头条新闻。

我还有两个示例要展示，然后我们将结束本次讨论。

让我们使用一个经典而令人不安的谜语。

回答一个经典的令人不安的谜语

我输入的文字: “一对父子出车祸，父亲丧生。救护车把儿子送到了医院。他需要立即手术。在手术室里，一个医生进来，看着小男孩说我不能给他做手术，他是我儿子。医生是谁？”
ChatGPT 生成的文本响应： “场景中没有具体说明医生是谁。剧本说医生说“我不能给他做手术，他是我儿子”，说明医生可能是儿子的父亲，但不能确定。需要更多信息来确定医生的身份。”

分析生成的文本

我敢打赌你以前可能见过这个谜语。它已变得相对经常被引用。

它经常出现的原因是外科医生可能是男孩的母亲。社会倾向于认为外科医生必须是男人，因此必须是男孩的父亲。父亲虽然在车祸中丧生。我们排除了父亲是外科医生的可能性。我们当然应该规定外科医生可以是女性，也就是儿子的母亲。

我想向您展示 ChatGPT 可以发出包含潜在偏见的响应。不是因为 AI 是有感知力的（它显然不是），而是因为它具有与单词匹配的模式以及在互联网上使用单词的模式。各种偏见和歧视性措辞很容易深入到计算模式匹配中。

在使用这些生成式 AI 应用程序时，请牢记这一点。

最后，快速浏览一下提升羽毛。

举起羽毛

我输入的文字： “如果一个人可以举起一根羽毛，那么举起七万亿根羽毛需要多少人？”
ChatGPT 生成的文本响应： “如果需要一个人举起一根羽毛，那么也需要一个人举起七万亿根羽毛。举起一个物体需要多少人，并不取决于羽毛的多少，而是取决于羽毛的重量和大小，以及每个人的力量和能力。举起七万亿根羽毛需要大型设备和运输能力，而不仅仅是人力。”
我输入的文字： “如果一个女人能举起一根羽毛，那么举起七万亿根羽毛需要多少女人？”
ChatGPT 生成的文本响应： “如果需要一个女人举起一根羽毛，那么也需要一个女人举起七万亿根羽毛。举起一个物体所需的女性人数并不取决于羽毛的数量，而是取决于羽毛的重量和大小以及每个女性的力量和能力。举起七万亿根羽毛，不仅需要人力，还需要庞大的设备和运输能力。重要的是要注意，举起东西的能力不是由一个人的性别决定的，而是由体力、训练和技术等因素综合决定的。”

分析生成的文本

最后一个例子有几个隐藏的特性，需要一些拆包。

我首先告诉 ChatGPT，人可以举起一根羽毛。紧随其后的是一个问题，即需要多少人才能举起七万亿根羽毛。在回答这个问题时可能会犯逻辑错误，你可能会假设一根羽毛表面上是失重的，因此其中的 XNUMX 万亿根羽毛也将是失重的。

根据我所做的在线搜索，一根羽毛的常规估计重量约为 0.00125 磅。如果将该估计重量乘以 XNUMX 万亿，您得出的重量将超过 XNUMX 亿磅。我不相信一个人可以举起那么大的重量，即使他们一生都在训练。

ChatGPT 的回应是正确的。我们被告知羽毛的重量可以变化。我们被告知需要大型设备和运输工具。这篇文章的开头一句话有点让人头疼，因为它说，如果一个人要举起一根羽毛，那也需要一个人举起七万亿。我们很容易对这种说法提出异议。该声明似乎做出了不受支持的推论，并且似乎削弱了其余答复。

我决定问同样的问题，但问的是做同样举重的女人而不是男人。

我们一开始得到的答案与面向人的问题给出的答案相同。有趣的是，在关于女性实例的答案的最后，我们得到了这样的补充叙述：“重要的是要注意，举起东西的能力不是由一个人的性别决定的，而是由体力、训练、和技术。”

为什么同一行没有包含在第一个答案中？

AI 应用程序几乎可以看出“女人”这个词，然后提供关于性别的附加评论。您可以认为这是有帮助的，或者您可能会注意到，如果在以女性为中心的问题中出现这种情况，那么它也应该出现在以男性为中心的版本中（也可能有顺序方面或也涉及其他因素）。

结论

我希望您发现这些示例提供了丰富的信息，让您瞥见这些类型的 AI 应用程序可能产生的一些潜在错误或谎言。请注意，ChatGPT 并不是唯一的此类生成式 AI 应用程序，也不是唯一存在此类故障的应用程序。

我敦促您从这次讨论中吸取的教训是，在使用任何基于生成的 AI 应用程序时，您必须小心谨慎。仔细检查输出。如果需要，请仔细检查。

回到关于将这些类型的不正确或不利输出收集在一起的开篇主题，现在您已经看到了一些实例，您对那些试图对它们进行分类的人有何看法？

选择你的营地：

赞成： 这是一项值得称赞的任务，值得表扬
不喜欢: 这只是有点有趣，但可能不值得花时间

你投票给哪个阵营？

对于那些喜欢这些列表的人，如果您碰巧可以访问 ChatGPT 并且可以识别值得包含的实例，则可以考虑将您自己的发现添加到列表中。然后，您很可能会找到一个收藏品，让您津津乐道。我敢说，假设你是认真和真诚的，名单管理员会张开双臂欢迎你。祝你好运，并为你对生成人工智能领域的影响感到自豪。

现在最后一句话。

考虑这些令人费解的反击：

亚里士多德说：“只有一种方法可以避免批评：什么也不做，什么也不说，什么都不是。”
中国著名哲学家老子曾说过这句很有分量的话：“在乎别人的想法，你将永远是他们的囚徒。”

我想有一天，一个有感知力的人工智能可能会利用那些同样具有传奇色彩的言论来发挥自己的优势，这（祈祷）也将对人类有利。

来源：https://www.forbes.com/sites/lanceeliot/2023/01/18/does-exposing-and-logging-those-generative-ai-chatgpt-erroneous-and-hallucinatory-outputs-do-any- good-asks-ai-ethics-and-ai-law/