人工智能伦理质疑人类语音克隆，例如你已故亲属的语音克隆，旨在用于人工智能自治系统

我们是否应该设计可以完全模仿特定人类声音的人工智能语音克隆？

盖蒂

哎呀，一项看似漂亮的新技术已经让自己和它的制造商陷入了困境。

我指的是基于 AI 的人类语音克隆的出现，它是最近成功进入 oh-my-gosh 头条新闻的新技术。在这种情况下，该公司是亚马逊及其不断发展的 Alexa。

我专栏的读者可能还记得，我之前曾报道过 Alexa 鼓励一名年轻人将一分钱放入电源插座（不要这样做！）时发生的不合时宜的嘘声，请参阅我的报道这里的链接. 在那种情况下，幸运的是，没有人受伤，其后果是 Alexa AI 系统显然已经掌握了先前的病毒趋势，并且在没有任何常识评估的情况下只是重复了疯狂的建议，当被要求做一些有趣的事情时与 Alexa 互动的孩子。这凸显了 AI 伦理问题，即我们正被完全缺乏任何常识推理的 AI 所淹没，这是 AI 面临的一个显着的棘手问题，它继续无视在 AI 中体现的努力（对于我对基于 AI 的常识推导的分析）努力，见这里的链接).

最新的尘埃落定涉及进行语音克隆，也称为语音复制。此类技术和人工智能的最新进展正在引发紧迫的人工智能伦理和人工智能伦理考虑。有关我对 AI Ethics 和 Ethical AI 的持续总体报道，请参阅这里的链接和这里的链接，仅举几例。

基于人工智能的语音克隆是一个简单的概念。

人工智能系统被编程为录音你的一些口语。然后，人工智能会尝试通过计算找出你的语音模式。根据检测到的语音模式，人工智能会尝试发出听起来像你的音频语音。棘手的部分是语音涵盖了您之前没有作为音频样本提供给 AI 的单词。换句话说，人工智能必须以数学方式估计你可能会说的话。这包括语音的所有特征，例如语气、声音的高低、说话的速度或速度等。

当你听到一个人试图模仿另一个人时，你通常可以辨别出这种努力是在模仿。在短期内，例如，如果模仿者只使用了几个词，可能很难确定声音不是原来的说话者。此外，如果模仿者正在模仿原始说话者实际说出的单词，那么他们很可能可以将自己的声音调整为其他人的声音，以便针对特定的话语进行调整。

简洁和听到完全相同的话可以让某人几乎确定一个模仿。

挑战变成了覆盖其他人没有说过的词或模仿者从未听过该人说出这些特定词的词。对于试图弄清楚被模仿的人会如何说这些话，您有些不知所措。好消息是，如果听模仿者说话的其他人也不知道原来的人会怎么说的话，模仿者可以相对远离真实的声音，但仍然看起来花花公子和目标。

我还想暂时从等式中删除模仿的举止和身体动作。看到模仿者时，如果他们能够以同样模仿被模仿者的方式皱起脸或挥舞手臂，您可能会动摇。身体和面部的附加提示会欺骗你的大脑，让你认为声音也是死气沉沉的，即使它可能不是。声音模仿纯粹主义者会坚持认为，只有声音才能用作确定声音是否恰当地模仿被模仿者的标准。

您肯定已经看过这些天在社交媒体上流传的各种 deepfake 视频。有人巧妙地重新调整视频，让其他人的脸出现在视频中，覆盖原始录制中其他人的脸。这通常也伴随着对声音的深度伪造。你会受到双重打击，包括通过 deepfake AI 更改视频的视觉效果和通过 deepfake AI 更改的音频。

为了便于讨论，我只关注基于 AI 的 deepfake 音频方面，如前所述，这通常被称为语音克隆或语音复制。有些人厚颜无耻地将其称为罐头声音。

我相信你们中的一些人现在正在劝告我们已经有能力使用计算机程序来克隆声音很长一段时间了。这本身并不是什么新鲜事。我同意。同时，我们也确实需要承认，这种高科技能力正在变得越来越好。好吧，我说越来越好，但也许正如你稍后会看到的那样，我应该说它变得越来越令人担忧，越来越令人担忧。

坚持这个想法。

进行语音克隆的技术实力肯定在进步。例如，过去你必须通过讲述混合搭配单词的整个故事来“训练”一个 AI 音频复制程序。类似于跳过懒狗的快速棕色狐狸的著名或臭名昭著的台词（旨在让某人覆盖所有字母的台词），也有专门制作的短篇小说，其中包含用于目的的混合词让您说出足够多的单词和足够多的单词，从而使 AI 模式匹配变得更加容易。

您可能必须阅读几页单词，通常包括您难以发音并且甚至不确定它们的意思的单词，以便充分启用 AI 模式匹配。这可能需要几分钟甚至几小时的谈话才能为 AI 提供足够的音频，以用于寻找不同的声音模式。如果你缩短了这项训练活动，那么由此产生的语音复制很可能会被你的任何熟悉你声音的朋友轻易击倒。

好的，当时人工智能开发人员的兴趣集中在如何优化音频复制方面。 AI 建设者喜欢挑战。据说他们本质上是优化者。给他们一个问题，他们会倾向于优化，不管这可能会导致什么（我提到这是一个铺垫，很快就会变得更清楚）。

回答我这个：

最大程度地克隆一个人的声音所需的最少音频样本量是多少，并且音频样本几乎可以是任何随机允许的单词集，但仍允许语音克隆产生几乎任何可能曾经说过的单词目标声音和声音在对话或其他选择的上下文设置中与该人的声音基本相同？

里面有很多东西要解压。

请记住，您需要最大程度地克隆声音的最小音频样本，这样现在自动复制的声音中产生的 AI 话语似乎与真实的人完全没有区别。这比你想象的要棘手。

这几乎就像那个游戏节目一样，您必须尝试根据听到的最少音符来命名一首歌曲。演奏的音符越少，就越难猜出它是哪首歌。如果您的猜测是错误的，您将失去积分或输掉比赛。一场关于你是否应该只使用一个音符的斗争随之而来，这是最不可能的线索，但是你猜到这首歌的可能性可能会大大降低。您听到的音符越多，猜出正确歌曲的可能性就越高，但您也允许其他参赛者也有更高的猜测机会。

请记住，在语音克隆的情况下，我们也在处理规定词的概念，而不是任何词。如果一个人说“你无法处理真相”，而我们希望 AI 模仿或模仿这个人，那么 AI 在计算上很可能很容易捕捉到这种模式。另一方面，假设我们只有那个人说的这些话“这就是你要问我的全部吗”，我们想用这些话让 AI 说“你无法处理真相”。我认为您可以看到训练一组单词的难度，并且必须推断出一组完全不同的单词。

另一个艰巨的元素是口语的上下文。假设我们让您在平静和放松时录制一个句子。人工智能模仿这些词。它也可能会影响你声音的平静。想象一下，当你像大黄蜂一样疯狂和愤怒地尖叫时，我们希望 AI 假装是你。让 AI 将原始模式扭曲成准确愤怒的声音版本可能会令人生畏。

我们正在寻找什么样的最小值？

现在的目标是打破分钟标记。

获取一个您只有不到一分钟的音频价值的录制声音，并让 AI 仅从那个微小的样本中进行所有令人惊叹的语音克隆。我想澄清一下，几乎任何人都可以组成可以做到这一点的人工智能通常在不到一分钟的时间内，虽然生成的语音克隆很弱并且很容易被检测为不完整。再一次，我明确而坚定地认为采样时间最少和同时语音克隆最大。如果在语音克隆中也允许一个 dolt 达到最小采样值，则它们可以达到最小采样值。

这是一个有趣且令人兴奋的技术挑战。您可能想知道这样做的价值或优点。我们追求什么目的？通过能够如此高效地进行基于人工智能的语音复制，我们可以期待对人类有什么好处？

我希望你仔细考虑这个问题。

错误的答案会让你不经意间变成一堆糊状。

这似乎是乐观且完全积极的事情。

假设我们可能有像亚伯拉罕林肯这样的名人的旧录音，并且能够使用那些尘土飞扬的音频片段来制作基于人工智能的语音克隆。然后，我们可以听到林肯发表葛底斯堡演说，就好像我们在他发表四分之日和七年前令人难忘的演讲的那一天一样。作为旁注，遗憾的是，我们没有任何林肯声音的录音（该技术还不存在），但我们确实有本杰明哈里森总统的录音（美国总统中第一位有录音的美国总统） ) 和之后的其他总统。

我相信我们都可能会合理地同意，这种基于人工智能的语音克隆的特定用途非常好。事实上，与今天的演员试图假装他们说话像林肯一样，我们可能更希望这样做。这位演员大概会编造他们认为林肯的实际声音听起来像的任何东西。这将是捏造的，也许与林肯的声音相去甚远。相反，通过使用合格的人工智能语音克隆系统，林肯的声音如何真正听起来几乎没有争议。人工智能实际上是正确的，至少在人工智能复制目标声音方面有多好。

在人工智能语音克隆的优点类别中，我们可以通过这种用例获得胜利。

不想让人沮丧，但即使是这种明显的全面使用也有一个缺点。

有人使用人工智能语音克隆系统来识别西奥多·罗斯福（“泰迪”）的声音，我们珍贵的 26^th 美国总统、博物学家、环保主义者、政治家、作家、历史学家，几乎被普遍称为受人尊敬的人。他发表的演讲以及我们没有任何历史保存的音频版本的演讲现在可以“说出来”，就好像他今天亲自做演讲一样。学习历史的一个值得称道的推动力。

让我们把它变成丑陋的，只是为了揭示它的缺点。

我们使用基于 Teddy AI 的语音克隆来阅读邪恶独裁者发表的演讲。人工智能并不关心它在说什么，因为人工智能中没有任何感觉。单词只是单词，或者更准确地说只是一阵声音。

你可能会惊讶于有人会做这种卑鄙的事情。为什么要使用基于人工智能的著名和受人尊敬的西奥多·罗斯福的克隆声音来发表演讲，不仅泰迪最初没有做过，而且最重要的是，演讲的话题描述了一个卑鄙的人的一些邪恶独裁者？

太离谱了，你可能会惊呼。

轻松搞定，回复来了。

从本质上讲，关于基于人工智能的语音复制的一个非常重要的问题是，我们会突然发现自己充斥着虚假，或者我们应该说与任何历史事实或准确性无关的深度虚假演讲和话语。如果制作并公布了足够多的这些内容，我们可能会对什么是事实与什么是虚构感到困惑。

你可以充分看到这是如何发生的。使用基于人工智能的语音克隆，有人录制了伍德罗·威尔逊发表演讲的录音，但他从未真正发表过演讲。这是在互联网上发布的。其他人听到录音并相信它是真实的。他们把它贴在别处，提到他们发现了伍德罗·威尔逊的这段伟大的历史记录。很快，历史课上的学生就开始使用音频来代替阅读演讲的书面版本。

没有人最终知道演讲是否由伍德罗威尔逊发表。也许是，也许不是，每个人都认为这并不重要（好吧，那些不关注历史准确性和事实的人）。当然，如果演讲是卑鄙的演讲，这会给该历史人物留下错误的印象或虚假信息。历史与小说合而为一。

我相信您相信这是与基于 AI 的语音克隆相关的一个缺点。

同样，我们已经可以做这些事情，无需更新和改进的基于人工智能的语音复制，但这样做会变得更容易，并且生成的音频将很难区分真假。如今，使用传统的音频制作程序，您通常可以收听输出，并且通常很容易确定音频是伪造的。随着人工智能的进步，你很快就会不再相信自己的耳朵，在某种程度上。

尽管历史人物的声音克隆可能很糟糕，但我们需要考虑一下今天活人可能特别令人震惊的用途。

首先，您是否听说过一个颇受欢迎的骗局，其中涉及某人冒充老板或类似的人？几年前，有一种令人不安的时尚，那就是打电话给餐厅或商店并假装是该机构的老板。造假包括告诉工作人员做一些荒谬的事情，而他们经常会尽职尽责地做这些事情，错误地认为他们是在和老板说话。

我不想陷入这些令人愤怒的不法行为，但另一个相关的行为包括打电话给可能有听力障碍的人并假装是他们的孙子或孙女。模仿者试图说服祖父母提供资金来帮助他们，或者以某种方式拯救他们。根据模仿的声音，祖父母被愚弄了。卑鄙。可耻。伤心。

我们即将进入一个基于人工智能的语音克隆将启用类固醇的时代，如果你是的话，语音相关的诈骗和诈骗的出现。人工智能将在语音复制方面做得如此出色，以至于任何听到声音的人都会发誓说真人就是那个说话的人。

那能走多远？

一些人担心，使用基于人工智能的语音克隆可能会导致释放原子武器和军事攻击，从而诱使其他人相信高级军官正在发出直接命令。任何处于显要地位的人都可以这样说。使用极其准确的人工智能语音克隆让银行高管释放数百万美元的资金，这样做是因为他们被愚弄相信他们正在与手头的银行客户交谈。

在过去的几年里，用人工智能来做这件事不一定有说服力。电话另一端的人开始提问的那一刻，人工智能需要离开准备好的脚本。那时，语音克隆会恶化，有时甚至会恶化。让骗局继续下去的唯一方法是强迫谈话回到剧本中。

借助我们今天拥有的 AI 类型，包括自然语言处理 (NLP) 方面的进步，您可以脱离脚本，并可能让 AI 语音克隆似乎以自然对话的方式说话（并非总是如此，并且仍然有办法让人工智能绊倒）。

在深入了解基于人工智能的语音克隆背后的狂野和模糊考虑之前，让我们建立一些关于非常重要的主题的额外基础知识。我们需要简要介绍一下 AI 伦理，尤其是机器学习 (ML) 和深度学习 (DL) 的出现。

您可能隐约意识到，如今在 AI 领域甚至在 AI 领域之外，最响亮的声音之一就是呼吁更多地表现出道德 AI。让我们来看看提到 AI Ethics 和 Ethical AI 是什么意思。最重要的是，当我谈到机器学习和深度学习时，我们将探讨我的意思。

受到媒体广泛关注的人工智能伦理的一个特定部分或部分包括表现出令人不快的偏见和不平等的人工智能。你可能已经意识到，当人工智能的最新时代开始时，人们对现在一些人所说的东西产生了巨大的热情 永远的人工智能. 不幸的是，在那种滔滔不绝的兴奋之后，我们开始目睹 坏的人工智能. 例如，各种基于 AI 的面部识别系统已被发现包含种族偏见和性别偏见，我在这里的链接.

努力反击 坏的人工智能 正在积极进行中。除了吵闹法律在追求遏制不法行为的同时，也大力推动拥抱人工智能伦理以纠正人工智能的邪恶。这个概念是，我们应该采用和认可关键的道德 AI 原则来开发和部署 AI，从而削弱 坏的人工智能 同时宣传和推广可取的 永远的人工智能.

在一个相关的概念上，我主张尝试使用人工智能作为解决人工智能问题的一部分，以这种思维方式以火攻毒。例如，我们可以将道德 AI 组件嵌入到 AI 系统中，该系统将监控 AI 的其余部分是如何做事的，从而可能实时捕捉到任何歧视性行为，请参阅我在这里的链接. 我们还可以有一个单独的人工智能系统，作为一种人工智能伦理监视器。 AI 系统充当监督者，以跟踪和检测另一个 AI 何时进入不道德的深渊（请参阅我对此类能力的分析，网址为这里的链接).

稍后，我将与您分享一些 AI 伦理背后的总体原则。这里和那里有很多这样的列表。你可以说，目前还没有一个普遍的吸引力和同意的单一列表。这就是不幸的消息。好消息是，至少有现成的 AI 道德清单，而且它们往往非常相似。总而言之，这表明通过某种形式的理性融合，我们正在寻找通往人工智能伦理所包含的普遍共性的道路。

首先，让我们简要介绍一些整体的道德 AI 规则，以说明对于任何制作、部署或使用 AI 的人来说应该是一个至关重要的考虑因素。

例如，正如梵蒂冈在 罗马呼吁人工智能伦理 正如我在这里的链接，这些是他们确定的六项主要人工智能伦理原则：

透明度： 原则上，人工智能系统必须是可解释的
包括： 必须考虑全人类的需求，使每个人都能受益，并为每个人提供最好的条件来表达自己和发展
责任： 那些设计和部署使用人工智能的人必须承担责任和透明度
公正： 不产生偏见或根据偏见行事，从而维护公平和人的尊严
可靠性： 人工智能系统必须能够可靠地工作
安全和隐私： 人工智能系统必须安全运行并尊重用户的隐私。

正如美国国防部 (DoD) 在他们的 使用人工智能的伦理原则 正如我在这里的链接，这是他们的六项主要人工智能伦理原则：

负责人： 国防部人员将行使适当的判断力和谨慎程度，同时继续负责人工智能能力的开发、部署和使用。
公平： 该部门将采取慎重措施，尽量减少人工智能能力的意外偏差。
可追踪的： 国防部的人工智能能力将得到开发和部署，使相关人员对适用于人工智能能力的技术、开发过程和操作方法有适当的了解，包括透明和可审计的方法、数据源以及设计程序和文档。
可靠： 国防部的人工智能能力将有明确的、明确定义的用途，并且这些能力的安全性、保障性和有效性将在其整个生命周期中在这些定义的用途中进行测试和保证。
可治理的： 该部门将设计和设计人工智能功能以实现其预期功能，同时具备检测和避免意外后果的能力，以及脱离或停用表现出意外行为的部署系统的能力。

我还讨论了对人工智能伦理原则的各种集体分析，包括在一篇题为“人工智能伦理准则的全球景观”（已发表在自然)，我的报道将在这里的链接，这导致了这个基石列表：

用户评论透明
正义与公平
非恶意
社会责任
隐私政策
Beneficence
自由与自治
信任
永续发展
尊严
团结

正如您可能直接猜到的那样，试图确定这些原则背后的细节可能非常困难。更重要的是，将这些广泛的原则转化为完全有形且足够详细的东西，以便在构建人工智能系统时使用，这也是一个难以破解的难题。总体而言，很容易就 AI 道德准则是什么以及应如何普遍遵守它们进行一些挥手，而 AI 编码中的情况要复杂得多，必须是真正符合道路的橡胶。

AI 开发人员、管理 AI 开发工作的人员，甚至是最终部署和维护 AI 系统的人员，都将使用 AI 道德原则。在整个 AI 开发和使用生命周期中的所有利益相关者都被认为是在遵守 Ethical AI 的既定规范的范围内。这是一个重要的亮点，因为通常的假设是“只有编码员”或那些对 AI 进行编程的人才能遵守 AI 道德概念。如前所述，设计和实施人工智能需要一个村庄，整个村庄都必须精通并遵守人工智能伦理规则。

让我们也确保我们对当今人工智能的本质保持一致。

今天没有任何人工智能是有感知的。我们没有这个。我们不知道有感知的人工智能是否可能。没有人能恰当地预测我们是否会获得有感知力的人工智能，也无法预测有感知力的人工智能是否会以某种计算认知超新星的形式奇迹般地自发出现（通常称为奇点，请参阅我的报道：这里的链接).

我关注的人工智能类型包括我们今天拥有的非感知人工智能。如果我们想疯狂地推测 有知觉的 人工智能，这个讨论可能会朝着完全不同的方向发展。一个有感觉的人工智能应该具有人类的素质。你需要考虑到有感知的人工智能是人类的认知等价物。更重要的是，由于有人推测我们可能拥有超级智能人工智能，因此可以想象这种人工智能最终可能会比人类更聪明。

让我们更脚踏实地，考虑一下今天的计算非感知人工智能。

意识到今天的人工智能无法以任何与人类思维同等的方式“思考”。当你与 Alexa 或 Siri 互动时，对话能力可能看起来类似于人类的能力，但现实是它是计算性的，缺乏人类认知。人工智能的最新时代广泛使用了机器学习 (ML) 和深度学习 (DL)，它们利用了计算模式匹配。这导致人工智能系统具有类似人类的倾向。与此同时，今天没有任何人工智能具有常识，也没有任何强大的人类思维的认知奇迹。

ML/DL 是一种计算模式匹配。通常的方法是收集有关决策任务的数据。您将数据输入 ML/DL 计算机模型。这些模型试图找到数学模式。在找到这样的模式之后，如果找到了，那么人工智能系统就会在遇到新数据时使用这些模式。在呈现新数据时，基于“旧”或历史数据的模式被应用于呈现当前决策。

我想你可以猜到这是走向何方。如果一直在做出模式化决策的人类已经纳入了不利的偏见，那么数据很可能以微妙但重要的方式反映了这一点。机器学习或深度学习计算模式匹配将简单地尝试相应地在数学上模拟数据。人工智能制作的建模本身没有常识或其他感知方面的外表。

此外，人工智能开发人员可能也没有意识到发生了什么。 ML/DL 中的神秘数学可能使找出现在隐藏的偏见变得困难。您理所当然地希望并期望 AI 开发人员会测试潜在的隐藏偏见，尽管这比看起来要棘手。即使进行了相对广泛的测试，ML/DL 的模式匹配模型中仍然存在偏差。

您可以在某种程度上使用著名或臭名昭著的格言垃圾进垃圾出。问题是，这更类似于偏见，因为偏见潜伏在人工智能中。人工智能的算法决策 (ADM) 不言自明地变得充满了不公平。

不好。

让我们回到我们对基于 AI 的语音克隆的关注。

在最近的一次会议上，亚马逊的演讲旨在展示基于人工智能的语音克隆的理想优势，并强调 Alexa 中用于提升其功能的最新前沿人工智能。根据新闻报道，一个准备好的例子应该是温暖和乐观的，包括让一个孩子要求 Alexa 让他们的奶奶读完给他们听的故事 绿野仙踪. 观众被告知祖母已经去世，这是孩子与他们心爱的祖父母重新建立联系的一种方式。所有这些显然是亚马逊为帮助展示 Alexa 开发团队最新的人工智能语音克隆突破而制作的视频的一部分（包括尚未正式推出供公众使用的功能）。

对这个例子的一个反应是，我们可能会非常感动，一个孩子可以再次听到他们祖母的声音。我们大概假设祖母还没有记录完整的故事阅读，因此人工智能克隆正在做的工作让事情看起来好像祖母现在正在阅读整个阅读。

与不再与我们在一起的亲人重新建立联系的非凡而巨大的方式。

并非所有记者和分析师（加上 Twitter）都如此倾向于对这一进步做出有利的解释。一些人将其标记为完全令人毛骨悚然。据说试图重现已故亲人的声音是一项奇怪且有些奇怪的工作。

问题比比皆是，例如：

孩子会糊涂，相信死去的亲人还活着吗？
孩子现在会不会因为误以为祖母还和我们在一起而被带进一些令人不快的恶作剧或骗局？
孩子会不会因为听到死去的亲人而变得沮丧，现在又一次想念祖父母，仿佛打开了已经愈合的情感创伤？
孩子会不会认为死者可以从另一边说话，即这个看起来正是他祖母的神秘声音是从坟墓里对他说话？
是否可以想象，孩子会认为 AI 以某种方式体现了他的祖母，将 AI 拟人化，以至于孩子长大后会相信 AI 可以完全复制人类？
假设孩子对祖母的人工智能复制声音如此着迷，以至于孩子变得痴迷并使用声音进行各种音频收听？
复制语音的供应商是否可以选择为使用相同整体系统的其他人使用该语音，而无需获得家人的明确许可，从而从设计的语音中“获利”？
等等。

重要的是要意识到你可以想象出与正面一样多的负面，或者我们应该说正面和负面一样多。这些人工智能进步背后存在权衡。只看硬币的一面可能是短视的。

关键是要确保我们正在考虑这些问题的各个方面。不要在你的思想中蒙上阴影。只探索积极的一面很容易。只探索负面因素很容易。我们需要检查两者并找出可以做些什么来希望利用积极因素并寻求减少、消除或至少减轻负面因素。

在某种程度上，这就是为什么 AI Ethics 和 Ethical AI 是一个如此重要的话题。人工智能伦理的戒律让我们保持警惕。人工智能技术人员有时会专注于技术，尤其是高科技的优化。他们不一定会考虑更大的社会影响。拥有 AI Ethics 思维方式并将其与 AI 开发和部署相结合对于产生适当的 AI 至关重要。

除了采用人工智能伦理之外，还有一个相应的问题是我们是否应该有法律来管理人工智能的各种用途，例如基于人工智能的语音克隆功能。联邦、州和地方各级正在制定新的法律，这些法律涉及应该如何设计人工智能的范围和性质。起草和颁布此类法律的努力是一个渐进的过程。至少，AI Ethics 可以作为一种权宜之计。

话虽如此，一些人认为我们不需要涵盖人工智能的新法律，我们现有的法律就足够了。事实上，他们预先警告说，如果我们确实制定了其中的一些人工智能法律，我们将通过遏制人工智能的进步来提供巨大的社会优势，从而杀死金鹅。例如，请参阅我的报道这里的链接和这里的链接.

在这个重要讨论的关键时刻，我敢打赌，你希望有一些说明性的例子可以展示这个主题。有一组特别的、肯定很受欢迎的例子让我很喜欢。您会看到，以我作为人工智能专家（包括伦理和法律后果）的身份，我经常被要求找出展示人工智能伦理困境的现实例子，以便更容易掌握该主题的某种理论性质。生动呈现这种道德 AI 困境的最令人回味的领域之一是基于 AI 的真正自动驾驶汽车的出现。这将作为一个方便的用例或示例，用于对该主题进行充分讨论。

接下来是一个值得思考的值得注意的问题： 基于人工智能的真正自动驾驶汽车的出现是否说明了基于人工智能的语音克隆的任何内容？如果是这样，这展示了什么？

请允许我花一点时间来解开这个问题。

首先，请注意，真正的自动驾驶汽车并不涉及人类驾驶员。请记住，真正的自动驾驶汽车是通过人工智能驾驶系统驱动的。不需要人类驾驶员来驾驶，也不需要人类来驾驶车辆。有关我对自动驾驶汽车 (AV) 尤其是自动驾驶汽车的广泛且持续的报道，请参阅这里的链接.

我想进一步澄清当我提到真正的自动驾驶汽车时是什么意思。

了解无人驾驶汽车的水平

需要澄清的是，真正的自动驾驶汽车是指AI完全自行驾驶汽车，并且在驾驶任务期间没有任何人工协助。

这些无人驾驶车辆被视为4级和5级（请参阅我的解释，网址为这里这个链接)，而需要人类驾驶员共同分担驾驶工作的汽车通常被认为是第 2 级或第 3 级。共同分担驾驶任务的汽车被描述为半自动驾驶，通常包含各种称为 ADAS（高级驾驶员辅助系统）的自动附加组件。

5 级还没有真正的自动驾驶汽车，我们甚至不知道这是否有可能实现，也不知道需要多长时间。

同时，尽管是否应允许进行这种测试本身存在争议（我们都是实验中的有生命或有生命的豚鼠），但四级努力正在通过非常狭窄和选择性的公共道路试验逐渐吸引一些关注。有人说，这发生在我们的高速公路和小路上这里这个链接).

由于半自动驾驶汽车需要人工驾驶，因此这类汽车的采用与传统汽车的驾驶方法并无明显不同，因此，在这个主题上，它们本身并没有太多新的内容要介绍（尽管您会看到暂时，接下来提出的要点通常适用）。

对于半自动驾驶汽车，重要的是必须预先警告公众有关最近出现的令人不安的方面，即尽管有那些人类驾驶员不断发布自己在2级或3级汽车的方向盘上睡着的视频，，我们所有人都需要避免被误导以为驾驶员在驾驶半自动驾驶汽车时可以将注意力从驾驶任务上移开。

您是车辆驾驶行为的负责方，无论可能将多少自动化投入到2级或3级。

自动驾驶汽车和基于人工智能的语音克隆

对于4级和5级真正的无人驾驶汽车，不会有人类驾驶员参与驾驶任务。

所有乘客均为乘客。

AI正在驾驶。

需要立即讨论的一个方面是，当今的AI驾驶系统所涉及的AI并不具有感知性。换句话说，AI完全是基于计算机的编程和算法的集合，并且最有把握的是，它不能以与人类相同的方式进行推理。

为什么强调 AI 没有感知能力？

因为我想强调的是，在讨论AI驾驶系统的作用时，我并没有将AI的人格特质归咎于AI。请注意，这些天来有一种持续不断的危险趋势将人类拟人化。从本质上讲，尽管不可否认的事实是，人们至今仍在为人类的AI赋予类似人的感觉。

通过澄清，您可以设想AI驾驶系统不会以某种方式自然地“知道”驾驶的各个方面。驾驶及其所需要的全部都需要作为自动驾驶汽车的硬件和软件的一部分进行编程。

让我们深入探讨与此主题有关的众多方面。

首先，重要的是要认识到并非所有的人工智能自动驾驶汽车都是一样的。每家汽车制造商和自动驾驶技术公司都在采用自己的方法来设计自动驾驶汽车。因此，很难就人工智能驾驶系统会做什么或不做什么做出全面的陈述。

此外，无论何时声明人工智能驾驶系统不做某些特定的事情，这可能会被开发人员超越，而这些开发人员实际上对计算机进行了编程来做那件事。人工智能驾驶系统正在逐步完善和扩展。今天现有的限制可能不再存在于系统的未来迭代或版本中。

我希望这提供了足够多的警告来作为我将要讲述的内容的基础。

让我们勾勒出一个可能利用基于 AI 的语音克隆的场景。

一位父母和他们的孩子进入一辆基于人工智能的自动驾驶汽车。他们要去当地的杂货店。预计这将是一个相对平静的旅程。只是每周开车去商店，虽然司机是一个人工智能驾驶系统，父母不需要做任何驾驶。

对于父母来说，这是一个很大的福音。父母不必专注于转向和处理驾驶行为，而是可以将注意力集中在孩子身上。他们可以在自动驾驶汽车中一起玩耍，并度过宝贵的时光。虽然父母通常会因开车而分心，并且在驾驶繁忙的街道和与附近其他疯狂的司机打交道时可能会变得焦虑和紧张，但在这里，父母完全没有意识到这些担忧，只是愉快地与他们的宝贝孩子互动。

父母与人工智能驾驶系统对话，并告诉人工智能带他们去杂货店。在典型的场景中，人工智能会通过中性的音频话语做出响应，你可能会通过今天的 Alexa 或 Siri 听到这些话语。 AI 可能会回答说杂货店距离酒店有 15 分钟的车程。此外，人工智能可能会说自动驾驶汽车会将它们放在商店的最前面。

在这种情况下，这可能是人工智能唯一与语音相关的活动。也许，一旦自动驾驶汽车靠近杂货店，人工智能可能会说出目的地越来越近的信息。当您离开自动驾驶汽车时，可能还会有声音提醒您随身携带物品。

我已经解释过，一些人工智能驾驶系统将成为健谈的猫，就像它一样。他们将被编程为更流畅和持续地与人类骑手互动。当您乘坐由人类驾驶的拼车车辆时，有时您希望驾驶员能够健谈。除了打招呼外，您可能希望他们告诉您当地的天气状况，或者指出当地的其他景点。不是每个人都想要这只健谈的猫，因此应该将 AI 设计为仅在人类请求时进行对话，请参阅我的报道这里的链接.

现在我已经建立了所有的东西，让我们以一种小而重要的方式来改变它。

假设 AI 驾驶系统具有基于 AI 的语音克隆功能。我们还假设父母之前通过提供孩子祖母的音频片段来植入 AI 语音克隆。惊喜，家长想，我会让人工智能驾驶系统像孩子的已故祖母一样说话。

在去杂货店的路上，人工智能驾驶系统与父母和孩子互动，全程只使用祖母的克隆声音。

你觉得这怎么样？

令人毛骨悚然还是令人难忘？

我会把事情提高一个档次。做好准备。系好安全带。

一些人相信，正如我所做的那样，我们最终将允许孩子们自己乘坐基于人工智能的自动驾驶汽车，请参阅我的分析这里的链接.

在当今的人类驾驶汽车中，必须始终有成年人在场，因为法律要求必须有成年人驾驶。出于所有实际目的，您永远不能让孩子独自坐在车内（是的，我知道会发生这种情况，例如最近支持的一位主要电影明星的 10 岁儿子一辆非常昂贵的汽车变成另一辆非常昂贵的汽车，但无论如何这些都是罕见的）。

今天的父母可能会极力反对让他们的孩子乘坐无人驾驶汽车，而无人驾驶汽车中没有成年人担任监督者或照看他们的孩子。我知道这似乎几乎无法想象，但我敢打赌，一旦自动驾驶汽车盛行，我们将不可避免地接受儿童乘坐自动驾驶汽车时没有成人的想法。

考虑便利因素。

你在工作，你的老板正在追赶你完成一项任务。您需要从学校接您的孩子并带他们去棒球练习。你被困在一个石头和一个艰难的地方，因为太安抚你的老板或者没有带你的孩子去练习场。您认识的任何其他人都无法为您的孩子提供电梯。如果有的话，您当然不想使用有人类司机的拼车服务，因为您自然会担心陌生人在为您的孩子搭车时可能会说什么或做什么。

没问题，不用担心，只需使用基于人工智能的自动驾驶汽车。你远程指挥自动驾驶汽车去接你的孩子。通过自动驾驶汽车的摄像头，您可以看到并观看您的孩子进入自动驾驶汽车。此外，还有内向摄像头，您可以在整个驾驶过程中观看您的孩子。这似乎比要求陌生人为您的孩子提供电梯更安全，甚至更安全。话虽如此，有些人理所当然地担心，如果驾驶行为出了差错，您将有一个孩子独自一人，没有成年人立即在场帮助或指导孩子。

抛开许多疑虑，假设我在前面的场景中描述的同一个父母和孩子可以接受孩子在没有父母在场的情况下骑车。只要接受这最终是一个可行的方案。

这是最后的踢球者。

每次孩子乘坐基于人工智能的自动驾驶汽车时，他们都会受到欢迎并与人工智能互动，因为它正在利用基于人工智能的语音克隆和复制孩子已故祖母的声音。

你觉得那些苹果怎么样？

当父母也出现在自动驾驶汽车中时，也许我们可以原谅 AI 语音的使用，因为父母会在 AI 音频说话时告知孩子正在发生的事情。但是当父母不在时，我们现在假设孩子在祖母的声音复制中表现得很好。

这绝对是那些停下来认真思考这对孩子来说是好是坏的时刻之一。

结论

让我们做一个思想实验来仔细考虑这些重要的问题。

请牢固地拿出三个积极拥有基于人工智能的语音克隆的理由。

我会等你提出来的。

接下来，扎实拿出三个负削弱基于人工智能的语音克隆出现的原因。

我假设你已经想出了一些。

我意识到，毫无疑问，您可以提出更多的理由，而不仅仅是三个支持或反对这项技术的理由。在您看来，负面大于正面吗？有些批评者认为，我们应该对这些努力进行批评。

有些人想尝试阻止公司使用基于人工智能的语音克隆，但意识到这是典型的打地鼠困境之一。任何您停止使用它的公司，很有可能其他公司将开始使用它。冻结时钟或隐藏这种人工智能几乎是不可能的。

在关于这个话题的最后一句话中，想象一下如果有一天我们能够实现有感知的人工智能会发生什么。我并不是说这会发生。无论如何，我们都可以推测，看看这可能会导致什么。

首先，考虑一个关于说话和发声的有见地的报价。玛德琳奥尔布赖特有句名言：“我花了很长时间才发声，现在我有了，我不会保持沉默。”

如果我们能够产生有感知力的人工智能，或者即使我们不直接提出它，它也会以某种方式出现，那么人工智能应该有什么声音？假设它可以使用其基于人工智能的语音克隆，并通过一些可能由该人发出的音频采样片段制造任何人的任何声音。然后，这样的 AI 可以说话并欺骗您，让您相信 AI 看起来就是那个人。

话又说回来，也许人工智能会想要拥有自己的声音，并故意设计出一种与所有其他人类声音完全不同的声音，想要以自己迷人的方式变得与众不同。

天哪，这让一个人几乎说不出话来。

资料来源：https://www.forbes.com/sites/lanceeliot/2022/07/02/ai-ethics-starkly-questioning-human-voice-cloning-such-as-those-of-your-deeased-relatives-打算在人工智能自治系统中使用/