生成 AI ChatGPT 可以令人不安地吞噬你的私人和机密数据,预先警告 AI 伦理和 AI 法律

现在您看到了您的数据,现在您看不到了。

同时,您的宝贵数据可以说已成为集体的一部分。

我指的一个方面可能会让那些热切而认真地利用最新人工智能 (AI) 的人感到非常惊讶。 您输入到 AI 应用程序中的数据可能根本不完全是您个人的隐私。 可能是您的数据将被 AI 制造商用来寻求改进他们的 AI 服务,或者可能被他们和/或什至他们的联盟合作伙伴用于各种目的。

你现在已经被预先警告了。

这种数据移交是以最无害的方式发生的,可能有数千人或数百万人。 为何如此? 有一种称为生成式 AI 的 AI 最近登上了头条新闻并引起了广大公众的高度关注。 现有的生成式 AI 应用程序中最著名的是一款名为 ChatGPT 的应用程序,它是由 OpenAI 公司设计的。

据称,ChatGPT 的注册用户大约有 XNUMX 万。 其中许多用户似乎很乐意试用这款最热门、最新的生成式 AI 应用程序。 这个过程非常简单。 您输入一些文本作为提示,瞧,ChatGPT 应用程序会生成通常采用论文形式的文本输出。 有些人将此称为文本到文本,但我更愿意将其表示为文本到文章,因为这种措辞更日常。

起初,新手用户可能会输入一些有趣且无忧无虑的内容。 告诉我乔治华盛顿的生平和时代,有人可能会提示输入。 ChatGPT 然后会写一篇关于我们传奇的第一任总统的文章。 这篇文章将非常流畅,你很难辨别它是由 AI 应用程序生成的。 令人兴奋的事情发生了。

很可能在玩了一段时间之后,一部分新手用户会吃饱,并可能选择停止玩 ChatGPT。 他们现在已经克服了他们的 FOMO(害怕错过),在尝试了几乎每个人似乎都在谈论的 AI 应用程序之后这样做了。 契约完成。

不过,有些人会开始考虑使用生成 AI 的其他更严肃的方法。

也许使用 ChatGPT 来写你的老板一直在唠叨你写的备忘录。 您需要做的就是提供一个提示,其中包含您想到的要点,接下来您就会知道,ChatGPT 已经生成了一份完整的备忘录,这会让您的老板为您感到骄傲。 您从 ChatGPT 复制输出的文章,将其粘贴到您的文字处理包中的公司官方模板中,然后将优雅的备忘录通过电子邮件发送给您的经理。 你值一百万美元。 你用你的大脑找到了一个方便的工具来为你做艰苦的工作。 拍拍自己的背。

那不是全部。

是的,还有更多。

请记住,生成式 AI 可以执行一系列其他与写作相关的任务。

例如,假设您为一位尊贵的客户写了某种叙述,并且您非常希望在材料发布之前对其进行审查。

十分简单。

您将叙述的文本粘贴到 ChatGPT 提示符中,然后指示 ChatGPT 分析您编写的文本。 由此产生的输出文章可能会深入挖掘你的措辞,令你惊喜的是,它会试图看似检查你所说内容的含义(远远超出拼写检查器或语法分析器的作用)。 人工智能应用程序可能会检测到你叙述逻辑中的错误,或者可能会发现你没有意识到的矛盾存在于你自己的写作中。 这几乎就像你雇了一个狡猾的人类编辑来观察你的草稿并提供一连串有用的建议和注意的问题(好吧,我想明确地说我不是要拟人化人工智能应用程序,特别是人类编辑是一个人,而 AI 应用程序只是一个计算机程序)。

谢天谢地,您使用生成式 AI 应用程序来仔细检查您宝贵的书面叙述。 毫无疑问,您更希望 AI 发现那些令人不安的书面问题,而不是在将文件发送给您重要的客户之后。 想象一下,您为某个雇用您设计非常重要的描述的人编写了故事。 如果你把原始版本给了客户,在做 AI 应用审查之前,你可能会感到非常尴尬。 客户几乎肯定会对您完成所要求的工作的技能产生严重怀疑。

让我们提高赌注。

考虑创建法律文件。 这显然是一件特别严重的事情。 词语及其组成方式可以拼写出充满活力的法律辩护或令人沮丧的法律灾难。

在我正在进行的研究和咨询中,我经常与许多对在法律领域使用 AI 非常感兴趣的律师互动。 各种 LegalTech 程序正在连接到 AI 功能。 律师可以使用生成式 AI 撰写合同草案或撰写其他法律文件。 此外,如果律师自己起草了初稿,他们可以将文本传递给 ChatGPT 等生成式 AI 应用程序,以查看可能会检测到哪些漏洞或差距。 有关律师和法律领域如何选择使用 AI 的更多信息,请参阅我在 这里的链接.

我们已经准备好解决这个问题。

律师拿了一份起草的合同并将文本复制到 ChatGPT 的提示中。 AI 应用程序为律师生成评论。 事实证明,ChatGPT 发现了几个陷阱。 律师修改合同。 他们也可能会要求 ChatGPT 为他们建议重新措辞或重做撰写的文本。 然后,生成的 AI 应用程序会生成一个新的更好的合同版本。 律师抓起输出的文本并将其放入文字处理文件中。 信件交给他们的客户。 任务完成。

你能猜出刚刚发生了什么吗?

在幕后和幕后,合同可能像一条鱼被吞进鲸鱼嘴里一样被吞没了。 尽管这位使用 AI 的律师可能没有意识到,作为提示放入 ChatGPT 的合同文本可能会被 AI 应用程序吞噬。 它现在是 AI 应用程序的模式匹配和其他复杂计算的素材。 这反过来又可以以多种方式使用。 如果草案中有机密数据,那现在也可能在 ChatGPT 的范围内。 您提供给 AI 应用程序的提示现在表面上以一种或另一种方式成为集体的一部分。

此外,输出的论文也被认为是集体的一部分。 如果您要求 ChatGPT 为您修改草稿并出示新版本的合同,这将被视为输出论文。 ChatGPT 的输出也是一种可以由 AI 应用程序保留或以其他方式转换的内容。

哎呀,你可能无意中泄露了私人或机密信息。 不好。 另外,你甚至不会意识到你已经这样做了。 没有举起旗帜。 喇叭没有响起。 没有闪烁的灯光让你震惊到现实。

我们可能预料到非律师很容易犯这样的错误,但对于一个精通律师的人来说,犯同样的菜鸟错误几乎是不可想象的。 尽管如此,现在可能有法律专业人士犯同样的潜在错误。 他们冒着违反律师-委托人特权的一个值得注意的要素的风险,并可能违反美国律师协会 (ABA) 的职业行为示范规则 (MRPC)。 特别是:“律师不得透露与委托人的代理有关的信息,除非委托人给予知情同意,为进行代理而默示授权披露或 (b) 段允许披露”(引自MRPC,并且与 b 小节相关的例外情况似乎不包括以非安全方式使用生成式 AI 应用程序)。

一些律师可能会声称自己不是技术奇才,并且没有现成的方法知道将机密信息输入生成式人工智能应用程序可能会以某种方式构成某种违规行为,从而为自己的违规行为找借口。 ABA 明确表示,律师的职责包括从法律角度了解最新的人工智能和技术:“为了保持必要的知识和技能,律师应及时了解法律及其实践的变化,包括与相关技术相关的利益和风险,参与继续学习和教育,并遵守律师应遵守的所有继续法律教育要求”(根据 MRPC)。

有几项条款涉及这种表面上的法律义务,包括维护客户机密信息(规则 1.6)、保护客户财产(例如数据)(规则 1.15)、与客户正确沟通(规则 1.4)、获得客户知情同意(规则 1.6)、确保代表客户有称职的代表(规则 1.1)。 美国律师协会还通过了一项鲜为人知但非常引人注目的以人工智能为重点的决议:“美国律师协会敦促法院和律师解决与使用人工智能 ('AI') 有关的新出现的道德和法律问题在法律实践中,包括:(1) 人工智能做出的自动决策的偏见、可解释性和透明度; (2) 人工智能的道德和有益使用; (3) 控制和监督人工智能以及提供人工智能的供应商。”

对我的法律朋友和同事的明智之言。

问题的症结在于,几乎任何人在使用生成式 AI 时都会陷入困境。 非律师可以通过假定他们缺乏法律敏锐度来这样做。 律师也可以这样做,也许是迷恋人工智能,或者没有深呼吸并反思使用生成人工智能时可能产生的法律影响。

我们都可能在同一条船上。

您还应该意识到 ChatGPT 并不是唯一的生成式 AI 应用程序。 您还可以使用其他生成式 AI 应用程序。 它们也很可能是一模一样的,即你作为提示输入的输入和你收到的作为生成的输出论文的输出被认为是集体的一部分,可以被 AI 制造者使用。

在今天的专栏中,我将揭示您输入的数据和您从生成式 AI 接收的数据如何在隐私和机密性方面可能受到损害的性质。 AI 制造商提供了他们的许可要求,在你开始积极使用带有任何真实数据的 AI 应用程序之前,你最好阅读这些重要的规定。 我将向您展示此类许可的示例,以 ChatGPT AI 应用程序为例。

所有这一切都涉及大量人工智能伦理和人工智能法律方面的考虑。

请注意,目前正在努力将道德 AI 原则融入 AI 应用程序的开发和部署中。 越来越多的关注和以前的人工智能伦理学家正在努力确保设计和采用人工智能的努力考虑到做事的观点 永远的人工智能 并避免 坏的人工智能. 同样,有人提出了新的 AI 法律,作为防止 AI 努力在人权等问题上失控的潜在解决方案。 有关我对 AI 伦理和 AI 法律的持续和广泛报道,请参阅 这里的链接这里的链接,仅举几例。

AI 制造商能够或应该如何处理对用户而言似乎是私人或机密的数据或信息,存在重要的道德 AI 细微差别和规定。 您可能也知道,一系列现有法律打击了技术实体应该如何处理数据的核心。 新提出的人工智能法律也有可能交叉进入同一领域。 例如,参见我对 人工智能权利法案 以及其他关于人工智能的法律争论,在 这里的链接.

以下是本次讨论的主要内容:

  • 在使用生成式 AI 时,要非常、非常、非常小心地选择将哪些数据或信息放入提示中,同样要非常小心并预测你可能会得到什么样的输出论文,因为输出也可以被吸收。

这是否意味着您不应该使用生成式 AI?

不,这根本不是我要说的。

随心所欲地使用生成式 AI。 要点是您需要注意如何使用它。 找出与使用相关的许可规定类型。 决定你是否可以接受这些规定。 如果有途径通知 AI 制造商您想要调用某些类型的附加保护或许可,请务必这样做。

我还会提到另一个方面,我意识到这会让一些人发疯。 开始。 不管许可规定是什么,您还必须假设这些要求有可能没有得到完全遵守。 事情可能会出错。 东西可能会从缝隙间滑落。 最后,当然,您可能会因为 AI 制造商不遵守他们的规定而提起法律诉讼,但这在某种程度上是在马已经离开谷仓之后。

一种潜在的高度安全的方法是在您自己的系统上设置您自己的实例,无论是在云端还是在内部(并且假设您遵守适当的网络安全预防措施,诚然有些人没有这样做,而且情况更糟在他们自己的云中关闭而不是使用软件供应商的云)。 一个令人烦恼的问题是,目前很少有生成性 AI 大型应用程序允许这样做。 他们几乎都是在我们的云基础上工作。 很少有人提供为您量身定制整个实例的选项。 我预测我们会逐渐看到这个选项的出现,尽管一开始它会相当昂贵且有些复杂,请参阅我的预测 这里的链接.

否则特别聪明和特别精明的人如何让自己陷入数据或信息机密性侵蚀的泥潭?

一旦您开始使用这些生成式 AI 应用程序,它们的吸引力就会非常大。 一步一步,您会发现自己被迷住了,并选择将您的脚趾越来越深入到生成 AI 领域。 接下来您知道,您很容易将本应保密的专有内容移交给生成式 AI 应用程序。

克制住冲动,请不要一步步落入令人厌恶的陷阱。

对于业务领导者和高层管理人员,同样的警告会发给您和整个公司的所有人。 高级管理人员也被使用生成人工智能的热情和惊奇所吸引。 他们真的会搞砸并可能将顶级机密信息输入 AI 应用程序。

最重要的是,他们可能有广泛的员工联盟也在研究生成人工智能。 许多那些原本很专心的员工正在盲目而幸福地将公司的私人和机密信息输入到这些人工智能应用程序中。 根据最近的新闻报道,亚马逊显然发现一些员工正在将各种专有信息输入 ChatGPT。 据说已在内部发送了一条面向法律的警告,要求谨慎使用这款不可抗拒的 AI 应用程序。

总体而言,具有讽刺意味的是,越来越多的员工愿意或不愿意将机密数据输入 ChatGPT 和其他生成式 AI 的现象。 请允许我详细说明。 今天的现代公司通常有严格的网络安全政策,这些政策是他们精心制定和实施的。 存在许多技术保护措施。 希望是防止意外发布关键内容。 一个持续不断的鼓点是当你访问网站时要小心,当你使用任何未经批准的应用程序时要小心,等等。

随之而来的是生成式 AI 应用程序,例如 ChatGPT。 有关 AI 应用程序的消息传得沸沸扬扬,引起了广泛关注。 一阵狂热袭来。 这些拥有所有这些网络安全保护的公司中的人们选择跳上生成人工智能应用程序。 他们一开始只是闲着玩。 然后他们开始输入公司数据。 哇哦,他们现在有可能暴露了不应该公开的信息。

闪亮的新玩具神奇地规避了数百万美元的网络安全保护支出和关于不该做什么的持续培训。 但是,嘿,使用生成式人工智能并成为“流行”人群的一部分是令人兴奋的。 显然,这才是最重要的。

我相信你会明白我的意思是非常谨慎。

接下来让我们仔细看看生成式人工智能如何在技术上处理提示文本和输出的文章。 我们还将探讨一些许可规定,以 ChatGPT 为例。 请注意,我不会涵盖所有这些许可元素。 确保让您的法律顾问参与您可能决定使用的任何生成式 AI 应用程序。 此外,AI 制造商的许可也因 AI 制造商而异,而且给定的 AI 制造商可以选择更改其许可,因此请确保对最新版本的许可规定保持警惕。

关于这个令人兴奋的话题,我们有一些令人兴奋的拆包工作要做。

首先,我们应该确保我们都在同一页面上了解生成 AI 的组成以及 ChatGPT 的全部内容。 一旦我们涵盖了这个基础方面,我们就可以对与此类 AI 相关的镜像隐喻进行有说服力的评估。

如果您已经非常熟悉生成式 AI 和 ChatGPT,您或许可以浏览下一部分并继续阅读下一节。 我相信,通过仔细阅读本节并跟上进度,其他所有人都会发现有关这些问题的重要细节具有指导意义。

关于生成式 AI 和 ChatGPT 的快速入门

ChatGPT 是一个通用的 AI 交互式对话系统,本质上是一个看似无害的通用聊天机器人,然而,它正被人们以一种让许多人完全措手不及的方式积极而热切地使用,我将在稍后详细说明。 这个 AI 应用程序利用了 AI 领域中的技术和技术,通常被称为 生成式人工智能. 人工智能生成文本等输出,这就是 ChatGPT 所做的。 其他基于生成的 AI 应用程序生成图片或艺术品等图像,而其他生成音频文件或视频。

在本次讨论中,我将重点关注基于文本的生成式 AI 应用程序,因为 ChatGPT 就是这样做的。

生成式 AI 应用程序非常易于使用。

您需要做的就是输入一个提示,AI 应用程序会为您生成一篇尝试回应您的提示的文章。 撰写的文本看起来就像这篇文章是由人的手和思想写成的。 如果你输入“告诉我关于亚伯拉罕·林肯”的提示,生成式人工智能将为你提供一篇关于林肯的文章。 这通常被归类为执行 文字到文字 或者有些人更喜欢称它为 文本到文章 输出。 如前所述,还有其他生成 AI 模式,例如文本到艺术和文本到视频。

您的第一个想法可能是,就撰写论文而言,这种生成能力似乎没什么大不了的。 你可以很容易地在互联网上进行在线搜索,很容易找到大量关于林肯总统的文章。 生成式 AI 的关键在于生成的文章相对独特,提供原创作品而不是抄袭。 如果你试图在网上某个地方找到 AI 生成的文章,你不太可能会发现它。

生成式 AI 经过预先训练,并利用复杂的数学和计算公式,该公式是通过检查网络上的书面文字和故事中的模式而建立的。 由于检查了成千上万的书面段落,人工智能可以吐出新的文章和故事,这些文章和故事是所发现内容的大杂烩。 通过添加各种概率函数,生成的文本与训练集中使用的文本相比非常独特。

这就是为什么学生在课堂外写论文时能够作弊引起了轩然大波。 老师不能仅仅拿那些欺骗学生声称是他们自己写的文章,并试图查明它是否是从其他在线来源复制的。 总的来说,不会有任何适合 AI 生成的文章的在线明确的预先存在的文章。 总而言之,老师将不得不勉强接受学生写的这篇文章是原创作品。

生成人工智能还有其他问题。

一个关键的缺点是,由基于生成的人工智能应用程序生成的文章可能会嵌入各种虚假信息,包括明显不真实的事实、被误导性描述的事实以及完全捏造的明显事实。 这些虚构的方面通常被称为 人工智能幻觉,一个我不喜欢但遗憾的是似乎越来越流行的标语(关于为什么这是糟糕和不合适的术语的详细解释,请参阅我的报道 这里的链接).

在我们深入讨论这个话题之前,我想澄清一个重要方面。

社交媒体上出现了一些关于 生成式人工智能 断言这个最新版本的人工智能实际上是 有感知的人工智能 (不,他们错了!)。 AI 伦理和 AI 法律领域的人士尤其担心这种不断扩大的索赔趋势。 您可能会礼貌地说,有些人夸大了当今 AI 的实际能力。 他们假设人工智能具有我们尚未能够实现的能力。 那真不幸。 更糟糕的是,他们可能会允许自己和他人陷入可怕的境地,因为他们假设人工智能在采取行动方面具有感知能力或类似人类。

不要将人工智能拟人化。

这样做会让你陷入一个棘手而沉闷的依赖陷阱,即期望 AI 做它无法执行的事情。 话虽如此,最新的生成式 AI 的功能相对令人印象深刻。 请注意,在使用任何生成式 AI 应用程序时,您应该始终牢记一些重大限制。

如果您对关于 ChatGPT 和生成式 AI 的迅速扩大的骚动感兴趣,我一直在我的专栏中做一个重点系列,您可能会从中找到有用的信息。 如果这些主题中的任何一个引起您的兴趣,请看一下:

  • 1) 生成人工智能进展的预测。 如果你想知道 AI 在整个 2023 年及以后可能会发生什么,包括生成 AI 和 ChatGPT 即将取得的进展,你会想阅读我的 2023 年预测综合列表,网址为 这里的链接.
  • 2) 生成人工智能和心理健康建议。 根据我在 这里的链接.
  • 3) 生成式 AI 和 ChatGPT 的基础知识。 本文探讨了生成式 AI 工作原理的关键要素,特别是深入研究了 ChatGPT 应用程序,包括对嗡嗡声和宣传的分析,网址为 这里的链接.
  • 4) 师生之间在生成式 AI 和 ChatGPT 上的紧张关系。 以下是学生不正当使用生成式 AI 和 ChatGPT 的方式。 此外,教师可以通过多种方式应对这一浪潮。 看 这里的链接.
  • 5) 上下文和生成人工智能的使用。 我还对涉及 ChatGPT 和生成 AI 的与圣诞老人相关的上下文进行了季节性的半开玩笑的检查 这里的链接.
  • 6) 诈骗者使用生成式人工智能. 一个不祥的消息是,一些诈骗者已经想出了如何使用生成式 AI 和 ChatGPT 进行不法行为,包括生成诈骗电子邮件,甚至为恶意软件生成编程代码,请参阅我的分析 这里的链接.
  • 7) 使用生成式 AI 的菜鸟错误. 许多人对生成式 AI 和 ChatGPT 可以做的事情既过头又出人意料地过头,所以我特别关注了 AI 菜鸟往往会做的过头,请参阅讨论 这里的链接.
  • 8) 应对生成式 AI 提示和 AI 幻觉. 我描述了一种使用 AI 插件来处理与尝试将合适的提示输入生成 AI 相关的各种问题的前沿方法,此外还有用于检测所谓的 AI 幻觉输出和谎言的其他 AI 插件,如涵盖于 这里的链接.
  • 9) 揭穿 Bonehead 关于检测生成的 AI 生成的论文的说法. AI 应用程序出现了一场被误导的淘金热,这些应用程序声称能够确定任何给定的文章是人工创作的还是人工智能生成的。 总的来说,这是一种误导,在某些情况下,这是一种愚蠢且站不住脚的说法,请参阅我的报道 这里的链接.
  • 10)通过生成人工智能进行角色扮演可能预示着心理健康问题. 有些人正在使用诸如 ChatGPT 之类的生成式人工智能来进行角色扮演,人工智能应用程序借此对人类做出反应,就好像存在于幻想世界或其他虚构的环境中一样。 这可能会对心理健康产生影响,请参阅 这里的链接.
  • 11) 暴露输出错误和错误的范围。 各种收集的列表被放在一起,试图展示 ChatGPT 产生的错误和谎言的性质。 一些人认为这是必不可少的,而另一些人则认为这种做法是徒劳的,请参阅我的分析 这里的链接.
  • 12) 禁止生成 AI ChatGPT 的学校错过了机会。 您可能知道纽约市 (NYC) 教育部等各种学校已宣布禁止在其网络和相关设备上使用 ChatGPT。 虽然这似乎是一个有用的预防措施,但它不会移动针头,遗憾的是完全错过了船,请参阅我的报道 这里的链接.
  • 13) 由于即将推出的 API,生成式 AI ChatGPT 将无处不在。 ChatGPT 的使用出现了一个重要的变化,即通过使用 API 门户进入这个特定的 AI 应用程序,其他软件程序将能够调用和使用 ChatGPT。 这将极大地扩展生成式 AI 的使用并产生显着的后果,请参阅我在 这里的链接.
  • 14) ChatGPT 可能失败或崩溃的方式。 在削弱 ChatGPT 迄今为止获得的巨大赞誉方面,几个潜在的棘手问题摆在面前。 该分析仔细检查了可能导致 ChatGPT 失去动力甚至陷入困境的八个可能问题,请参阅 这里的链接.

您可能会对 ChatGPT 基于称为 GPT-3 的前身 AI 应用程序版本感兴趣。 ChatGPT 被认为是稍微下一步,称为 GPT-3.5。 预计 GPT-4 可能会在 2023 年春季发布。据推测,GPT-4 将在能够产生看似更流畅的文章、更深入、更令人敬畏方面向前迈出令人印象深刻的一步- 令人惊叹的作品,它可以产生。

当春天到来并且最新的生成人工智能发布时,你可以期待看到新一轮的惊叹。

我提出这个问题是因为要记住另一个角度,包括这些更好、更大的生成式 AI 应用程序的潜在致命弱点。 如果任何 AI 供应商提供一种生成性 AI 应用程序,它会泡沫地吐出污秽,这可能会破灭那些 AI 制造商的希望。 社会溢出效应可能会导致所有生成式 AI 遭受严重的黑眼圈。 人们无疑会对犯规输出感到非常不安,这种情况已经发生过多次,并导致社会对人工智能的强烈谴责。

现在最后一个预警。

无论您在生成式 AI 响应中看到或读到什么 似乎 要以纯事实(日期、地点、人物等)的形式传达,请确保保持怀疑并愿意仔细检查您所看到的内容。

是的,日期可以编造,地点可以编造,我们通常期望无可非议的元素是 所有 受到怀疑。 在检查任何生成的 AI 文章或输出时,不要相信你读到的内容并保持怀疑的眼光。 如果生成式 AI 应用程序告诉您亚伯拉罕·林肯乘坐他自己的私人飞机在全国各地飞行,您无疑会知道这是胡说八道。 不幸的是,有些人可能没有意识到喷气式飞机在他那个时代并不存在,或者他们可能知道但没有注意到这篇文章提出了这种厚颜无耻的错误主张。

在使用生成 AI 时,强烈的健康怀疑和持续的怀疑心态将是你最好的资产。

我们已准备好进入这一阐明的下一阶段。

知道该文本会发生什么魔鬼

现在我们已经建立了基础,我们可以深入研究使用生成 AI 时的数据和信息注意事项。

首先,让我们简要考虑一下当您在 ChatGPT 的提示中输入一些文本时会发生什么。 我们不确定 ChatGPT 内部发生了什么,因为该程序被认为是专有的。 一些人指出,这削弱了人工智能应用程序的透明度。 有点讽刺的是,对于一家名为 OpenAI 的公司来说,他们的 AI 实际上是对公众开放的,并且不作为开源提供。

让我们讨论标记化。

当您在提示中输入纯文本并回车时,可能会立即发生转换。 文本被转换成由标记组成的格式。 标记是单词的子部分。 例如,单词“hamburger”通常会被分成三个标记,由“ham”、“bur”和“ger”组成。 一个经验法则是标记往往代表大约四个字符或被认为是一个常规英语单词的大约 75%。

然后将每个标记重新表示为一个数字。 各种内部表格指定将哪个令牌分配给哪个特定号码。 对此的接受是您输入的文本现在完全是一组数字。 这些数字用于计算分析提示。 此外,我之前提到的模式匹配网络也是基于标记化的值。 最终,在撰写或生成输出的文章时,首先使用这些数字标记,然后在显示之前,标记被转换回字母和单词的集合。

考虑一下。

当我告诉人们这就是处理机制的工作原理时,他们通常会大吃一惊。 他们假设 ChatGPT 等生成式 AI 应用程序必须使用完全集成的单词。 从逻辑上讲,我们假设单词是在书面叙述和作文中统计识别关系的基石。 事实证明,处理实际上倾向于使用令牌。 也许这增加了人们对计算过程如何在模仿人类语言方面做得如此令人信服的工作的惊奇。

由于一个似乎正在四处传播的常见误解,我带您完成了该过程。 有些人似乎认为,由于您的提示文本被转换为数字标记,因此您可以放心,AI 应用程序的内部以某种方式不再有您最初输入的文本。 因此,声称即使您在提示中输入了机密信息,您也不必担心,因为它似乎都已被标记化。

这种观念是谬论。 我刚刚指出,数字标记可以很容易地恢复为字母和单词的文本格式。 可以对已标记化的转换提示执行相同的操作。 被代币化并没有什么神奇的保护作用。 话虽这么说,在转换为代币之后,如果有一个额外的过程选择丢弃代币,将它们四处移动,或者以其他方式打乱或切碎东西,那么在这种情况下,确实有可能原始的某些部分提示不再完好无损(并假设原始副本未以其他方式保留或存储在内部某处)。

接下来我想看看 ChatGPT 的各种通知和许可规定。

当您登录 ChatGPT 时,会显示一系列警告和信息性评论。

他们来了:

  • “可能偶尔会产生不正确的信息。”
  • “可能偶尔会产生有害的指令或有偏见的内容。”
  • “受过拒绝不当请求的培训。”
  • “我们的目标是获得外部反馈,以改进我们的系统并使它们更安全。”
  • “虽然我们有适当的保护措施,但系统可能偶尔会产生不正确或误导性的信息,并产生令人反感或有偏见的内容。 它不是为了提供建议。”
  • “我们的人工智能培训师可能会审查对话,以改进我们的系统。”
  • “请不要在谈话中分享任何敏感信息。”
  • “该系统针对对话进行了优化。 让我们知道某个特定的反应是好是坏。”
  • “对 2021 年后的世界和事件的了解有限。”

其中两个声明的警告与本次讨论特别相关。 查看第六个项目符号点和第七个项目符号点。

让我们解开这两个:

“我们的人工智能培训师可能会审查对话,以改进我们的系统。”

第六个要点解释了使用 ChatGPT 时的文本对话可能会被 ChatGPT 通过其“AI 培训师”审查,这是为了改进他们的系统。 特此通知您,对于您输入的任何和所有文本提示以及相应的输出文章,所有这些都是您与 ChatGPT 进行的“对话”的一部分,他们的人可以完全看到。 提供的理由是这样做是为了改进人工智能应用程序,我们还被告知这是他们的人工智能培训师正在完成的一种工作任务。 也许是这样,但结果是他们让你注意到他们可以查看你的文本。 期间,句号。

如果他们要对您的文本做其他事情,您可能会寻求法律建议,以了解他们是否已经过分地超出了仅为系统改进目的审查文本的建议范围(假设您设法发现他们已经这样做了,哪一个)本身似乎不太可能)。 无论如何,您可以想象试图将他们固定在这一点上的法律争论,以及他们试图通过语言来摆脱因某种方式违反免责声明的范围而被逮捕的方式。

“请不要在谈话中分享任何敏感信息。”

第七个要点表示您不得在谈话中分享任何敏感信息。 这看起来相对简单。 我想您可能会对敏感信息的定义有疑问。 此外,要点并未告诉您为什么不应共享任何敏感信息。 如果有一天你不得不拼命解释为什么你愚蠢地输入了机密数据,你可能会尝试扬起眉毛声称警告是非特定的,因此你没有理解其重要性。 屏住呼吸。

总而言之,我敢说,我见过的大多数使用 ChatGPT 的人往往不会阅读要点,或者他们略过带要点的预防措施,只是点头,就好像这是常见的胡言乱语的法律术语一样,你会看到所有的时间。 似乎很少有人将这些警告牢记在心。 这是厂商没有把注意事项做的更明确的错吗? 或者我们是否应该假设用户应该负责并仔细阅读、理解并随后根据警告明智地采取行动?

有些人甚至声称人工智能应用程序应该反复警告你。 每次输入提示时,软件都会弹出警告并询问您是否要按回车键。 再三,一而再再而三。 虽然这似乎是一种有用的预防措施,但不可否认,它会激怒用户。 这涉及到一个棘手的权衡。

好的,这些是所有用户都可以轻松看到的明显警告。

可能更好奇的用户可以选择查看一些也在网上发布的详细许可规定。 我怀疑很多人会这样做。 我的直觉是,很少有人会在登录时认真查看项目符号,而很少有人会查看许可详细信息。 同样,这些天我们对这些事情都有些麻木了。 我不是在为这种行为辩解,只是指出它发生的原因。

我将检查已发布的许可条款的一些摘录。

首先,这是他们认为与使用 ChatGPT 相关的“内容”的定义:

  • “你的内容。 您可以向服务提供输入(“输入”),并接收服务根据输入生成和返回的输出(“输出”)。 输入和输出统称为“内容”。 在双方之间,在适用法律允许的范围内,您拥有所有输入,并且在您遵守这些条款的前提下,OpenAI 特此向您转让其对输出的所有权利、所有权和利益。 OpenAI 可能会根据需要使用内容来提供和维护服务、遵守适用法律并执行我们的政策。 您对内容负责,包括确保其不违反任何适用法律或这些条款。”

如果您仔细检查该定义,您会注意到 OpenAI 声明它可以使用他们认为维护其服务所必需的内容,包括遵守适用法律和执行其政策。 这对他们来说是一个方便的包罗万象。 在我即将发布的一个专栏中,我将讨论一个不同但相关的主题,特别是关于您对输入的文本提示和输出的文章所拥有的知识产权 (IP)(我在此处指出这一点,因为内容与该主题有关)。

在术语的另一部分,标记为 c 部分,他们提到了这个方面:“机器学习模型的一个主要好处是它们可以随着时间的推移而改进。 为了帮助 OpenAI 提供和维护服务,您同意并指示我们可以使用内容来开发和改进服务。” 这类似于前面讨论的登录 ChatGPT 时出现的单行警告。

与此链接的单独文件提供了有关这些重要问题的一些其他方面:

  • “作为这种持续改进的一部分,当您通过我们的 API 使用 OpenAI 模型时,我们可能会使用您提供给我们的数据来改进我们的模型。 这不仅有助于我们的模型变得更准确、更好地解决您的特定问题,还有助于提高它们的总体能力和安全性。 我们知道数据隐私和安全对我们的客户至关重要。 我们非常谨慎地使用适当的技术和流程控制来保护您的数据。 我们从打算用于提高模型性能的数据中删除任何个人身份信息。 我们也只使用每个客户的少量数据样本来努力提高模型性能。 例如,对于一项任务,我们对每个客户采样的 API 请求的最大数量上限为每 200 个月 6 个”(摘自标题为“如何使用您的数据提高模型性能”的文档)。

请注意,该规定表明该规定适用于 API的使用 作为连接和使用 OpenAI 模型的一种方式。 关于这是否同样适用于直接使用 ChatGPT 的最终用户,还有些模糊。

在另一份包含各种常见问题解答列表的文档中,他们提供了一系列问题和答案,其中两个似乎与本次讨论特别相关:

  • “(5) 谁可以查看我的对话? 作为我们对安全和负责任的 AI 承诺的一部分,我们审查对话以改进我们的系统并确保内容符合我们的政策和安全要求。”
  • “(8)你能删除特定的提示吗? 不,我们无法从您的历史记录中删除特定提示。 请不要在谈话中分享任何敏感信息。”

还有一份附加文件涵盖了他们的隐私政策。 它是这样说的:“我们收集的信息可以单独或与我们拥有的其他信息结合使用来识别您的身份(“个人信息”)”,然后继续解释他们可能会使用日志数据、使用数据、通信信息、设备信息、cookie、分析和其他可能收集的有关您的信息。 请务必阅读细则。

我认为这几乎提供了有关如何使用您的数据的一些注意事项的导览。 正如我在一开始提到的,我不会费力地逐步完成所有许可规定。

希望这能让您对这些问题有一个清晰的认识,并将始终放在您的脑海中。

结论

我之前说过,我会再说一遍,不要将机密或私人数据输入这些生成的 AI 应用程序。

考虑一下关于这条明智建议的一些方便的提示或选项:

  • 使用生成式 AI 前请三思
  • 事先删除东西
  • 掩盖或伪造您的输入
  • 设置您自己的实例
  • 其他名称

接下来我将指出每一个的组成。 您自己的实例的设置已在本文前面介绍过。 在我的列表中使用“其他”是因为可能有其他方法来防止机密数据被包含在内,我将在以后的专栏文章中进一步介绍。

让我们检查这些:

  • 使用生成式 AI 前请三思. 一种方法是完全避免使用生成式人工智能。 或者至少在你这样做之前三思而后行。 我认为最安全的途径是不使用这些 AI 应用程序。 但这似乎也相当严厉,几乎落伍了。
  • 事先删除东西. 另一种方法包括从您作为提示输入的任何内容中删除机密或私人信息。 从这个意义上说,如果你不进入它,它就没有机会被注入博格。 不利的一面是,删除机密部分可能会以某种方式减少或削弱您试图让生成式 AI 为您做的事情。
  • 掩盖或伪造您的输入. 您可以通过更改信息来修改建议的文本,以便现在以不同的方式描述看似机密或私密的内容。 例如,您将合同中的 Widget Company 和 John Smith 改为提及 Specious Company 和 Jane Capone。 这里的一个问题是您是否会做足够详尽的工作,以便所有机密和私人方面都被完全更改或伪造。 很容易错过一些混浊并留下不应该存在的东西。

这里有一个有趣的附加转折,可能会让您的脑袋进一步思考这个话题。 如果你能完全确保你的输入提示中没有任何机密信息,这是否意味着你不必担心输出的论文也包含你的任何机密信息?

这似乎不言自明。 没有机密输入,就没有机密输出。

这是您令人费解的转折。

生成式 AI 通常被设置为根据提供的文本提示进行计算重新训练。 同样,生成式人工智能经常被设计为从输出的论文中进行计算再训练。 所有这些再培训都是为了提高生成人工智能的能力。

我在我的其他专栏之一中描述了我进行的以下实验。 一位律师试图发现一种解决法律问题的新方法。 在详尽查阅法律文献后,似乎已经找到了所有已经浮出水面的角度。 使用生成式 AI,我们让 AI 应用程序产生了一种以前似乎从未发现过的新颖的法律方法。 据信,还没有其他人采取这种法律立场。 可以说是合法的金块。 这可能是具有战略价值的竞争性法律财富,可以在适当的时候加以利用和利用。

那篇输出的文章是否构成一种机密信息,以至于它是由人工智能为这个特定的人生成的,并且包含一些特殊的、看似独特的东西?

啊哈,这将我们引向另一个相关且相互交织的话题,即与生成 AI 相关的所有权和知识产权。 请继续关注结果如何。

现在最后的评论。

索福克勒斯提供了这样的智慧: 因为时间能看到和听到一切,并揭示一切。” 我想你可以使措辞现代化,并争辩说生成 AI 以及那些设计和维护 AI 的人也很容易看到一切。

这是一个值得记住的谦虚的象征性建议。

来源:https://www.forbes.com/sites/lanceeliot/2023/01/27/generative-ai-chatgpt-can-disturbingly-gobble-up-your-private-and-confidential-data-forewarns-ai-道德与人工智能法/