Nvidia 的新文本到 3D 对工程和产品设计意味着什么

TL;博士：生成式 AI 正在以令人振奋的速度发展。 Nvidia 的最新算法将文本转换为 3D 网格的速度是两个月前发布的项目的两倍。这意味着现在的技术能力已经超过了我们与他们合作的能力。

上周的纸 Nvidia 科学家展示了生成 AI 空间发展的指数级速度。这种活动的爆炸式增长——尤其是在过去 9 个月中尤为明显——将对生活的方方面面产生影响，尤其是在产品设计、工程和生产方面。这些变化将使该行业摆脱思想交流方式的结构性限制，加快创新周期，并最终实现其可持续发展承诺。

来自 Nvidia Research 的 Magic 3D 算法的示例网格，以及用于生成它们的提示。

英伟达深度想象研究

多年来一直被告知人工智能将从根本上改变我们的工作方式，但很少有人认为创意部门会成为其首批受害者。 3 年 GPT-2020 的类人文本生成器的出现使人们更加关注可能性。从那以后，这是一段疯狂的旅程：DALL-E（文本到图像）、Whisper（语音识别）和最近的 Stable Diffusion（文本到图像）不仅提高了语音和视觉 AI 工具的能力，而且减少了使用它们所需的资源（从 GPT-175 的 3 亿个参数减少到稳定扩散的 900 亿个）。

Stable Diffusion 的大小意味着不到 5gb 的磁盘空间——能够在任何笔记本电脑上运行。不仅; 与 OpenAI（主要由微软资助并发布 GPT-3、DALL-E 和 Whisper）不同，Stable Diffusion 是开源的，这意味着其他人可以更容易地在其学习的基础上进行构建。这意味着我们只是看到了创新周期的开始——正如 Nvidia 的论文现在所显示的那样，未来还有很多。

Stable Diffusion 的支持者 (stability.ai) 通过向其他团队提供技术和财政资助，进一步推动这一趋势，将探索带入新的方向。此外，大量项目正在使这些工具可供更广泛的用户使用。其中包括开源设计工具 Blender 的插件，以及 Adobe 专有的 Photoshop 等效插件。对这些工具的完整 API 访问由大量风险投资资助，这意味着数亿软件开发人员，而不仅仅是几十万数据工程师，现在将在这些算法上创建他们自己的工具。

语音、图像和文本是最先被这些技术颠覆的垂直领域。但 3D 也不甘落后。除了利基生成艺术，卡通显然是第一个应用点。已经有一个基于稳定扩散的神奇宝贝生成器。接下来是视觉效果和电影。但许多其他行业可能会被打乱——其中以 Interiorai.com 为首的室内设计行业。

在所有这些兴奋中，将创新应用于设计与工程感觉像是事后才想到的。然而，它很可能是最终受影响最严重的地区。当然，最初存在挑战：首先，Stable Diffusion 及其同胞还不是很精确。这对卡通来说不是问题，但对于任何将文本转换为工业环境中使用的全 3D 几何图形的尝试来说，这都是一个重大挑战。这是一个刚刚起步的领域（一个名为 Bits101 的项目于 2015 年在以色列启动）。这可能是该行业的圣杯，但还有许多中间挑战可能更容易解决。其中包括改进的对象识别（Yolo 算法已经被使用并取得了很好的效果），这将导致改进的引用和注释——提高质量并减少错误。插件还应该使使用生成式 AI 开发基本设计（基元）变得更容易，然后可以在设计工具中进一步编辑这些设计以根据需要提高容忍度。这是一种已经在 Altair 的 Inspire 中使用的方法，它使用有限元分析来做同样的事情。这些基元还可以作为带注释模型的综合数据库，而这在 3D CAD 行业中是非常缺乏的。 Physna 的 CEO 和创始人在一篇文章中指出了这一点详细介绍了他们自己使用这些新颖方法创建详细 3D 设计的尝试，这也突出了使用合成数据驱动这些算法的一些缺陷从 3D 绘图创建 2D 设计是另一个潜在的应用领域，智能 CAM 也是如此——从刀具磨损库以确定最佳加工策略。

这些挑战本身很重要且有利可图。然而，它们的主要影响将是通过最终减少对 3D 设计来传达意图的依赖来帮助改进从创意到设计的路径。设计，无论是 2D 还是 3D，都是将客户需求转化为最终产品的主要方式。这限制了行业，因为这些设计就像一个黑匣子，所有这些有价值的客户洞察、制造限制和公司目标都存储在其中，无法解开，但可以单独识别。这意味着当事情发生变化时，简单地调整设计几乎是不可能的。这就是为什么像 3D 打印这样的制造业创新需要很长时间才能被采用，并且长期让短期投资者失望。尽管飞机的生产寿命超过 20 年，但构成飞机的部件从设计之时就已“固定”。几乎没有创新的余地——这些必须等待下一代的推出。

能够更改单个约束并允许诸如稳定扩散之类的算法重构设计和生产参数将显着加快新创新的采用，并使我们能够更快地构建更轻、性能更好的产品。正如他们在一级方程式或系统设计中所做的那样，未来的工程师将充当约束经理，能够用文字和参考数据源来表达产品的目标和限制是什么。

如果不以这种方式加快新产品和现有产品的工程流程，我们几乎无法实现我们必须为自己设定的雄心勃勃的可持续发展目标。为此，我们必须首先就一种语言达成一致，我们可以使用这种语言来超越设计进行交流。这种新的语义模型是上述创新的明显差距。许多公司已经开始尝试使用它，例如 nTopology 及其场的概念. 然而，与语义模型将提供的算法不同，变化的速度很慢。据报道，Nvidia 的新算法速度是之前的两倍多梦幻融合，发布时间不到 2 个月前。产品和工程公司现在需要努力以新的、面向未来的方式捕捉他们的想法，以便充分利用这种生成式 AI 的爆炸式增长所带来的可能性。算法的变化速度再次表明，摩尔斯定律适用于工具数字化的任何地方。尽管任务紧迫，但挑战仍然是我们人类无法接受这种变化并部署能够释放其潜力的新通信方法。

资料来源：https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/