利用基于音频的生成式 AI，协调创新

人工智能是许多不同技术的总称。生成式 AI 是我们经常听到的一个话题，尤其是 ChatGPT。ChatGPT 得到了广泛报道，但绝不是生成式 AI 行列中唯一一员。英特尔的 AI 软件架构师兼生成式 AI 推广者 Ria Cheruvu 最近一直感兴趣的一个问题是音频领域生成式 AI（视频 1）。

视频 1。英特尔生成式 AI 传播者 Ria Cheruvu 探索基于音频的生成式 AI 的商业和发展机遇。（来源：insight.tech）

但无论何种类型的生成式 AI 都令人震惊，开发人员并非始终确切知道从哪里开始，或者开始之后，如何优化模型。与英特尔合作，可以真正简化流程。例如，初学者开发人员可以使用英特尔^® OpenVINO^™ 笔记本电脑，利用教程和代码示例，帮助他们开始使用 GenAI 。然后，当他们准备好提升到一个新水平或准备扩展时，英特尔将随时帮助他们。

Ria Cheruvu 与我们讨论 OpenVINO 笔记本电脑存储库，以及生成式 AI 用于音频的现实应用，以及适用于呼叫中心的方面与适用于音乐家方面之间的差异。

生成式 AI 的不同领域有哪些？

就生成式人工智能的类型而言，这一领域无疑正在不断发展。ChatGPT 并非唯一！当然，文本生成是一种非常重要的生成式 AI，但也有图像生成，例如，使用 Stable Diffusion 等模型来生成艺术、原型以及不同类型的图像。还有音频领域，您可以开始制作音乐，或者制作合成化身的音频，以及许多其他类型的用例。

在音频领域，快速运行时尤为重要，这是常见的痛点之一。您希望模型超级强大，能够快速生成高质量输出的结果，那就需要大量计算。因此，我想说，优化生成式 AI 模型的技术堆栈绝对至关重要，这也是我在英特尔日常工作中研究的东西。

音频生成式 AI 的具体商机是什么？

使用语音人工智能或对话式人工智能来读取和处理音频，这确实非常有趣，这就是您使用语音代理（例如手机上的语音助手）所做的事情。将其与音频生成式 AI 比较，您实际上是在创建内容，例如，能够生成合成化身或声音，以便打电话和交谈。首先想到的商业应用肯定是呼叫中心，或者是具有使用这种所创建音频的模拟环境的元宇宙应用。

但创意领域、内容创作领域也有一些非传统商业用例，我们开始看到一些应用与音乐生成式 AI 相关。对我来说，这非常令人兴奋。英特尔开始研究生成式 AI 如何补充艺术家的工作流程：例如，创建作品，使用生成式 AI 来采样节奏。音乐家和音乐制作人如何利用生成式人工智能，将其纳入内容创作工作流程之中，这也有一个非常有趣的文化元素。

虽然它不是一个传统的商业用例，比如呼叫中心或使用音频进行零售的交互式自助服务终端，但我认为，音乐生成式 AI 在内容创作方面有着巨大的应用。最终，它还可以进入需要生成声音的其他类型领域，例如，创建用于 AI 系统训练的合成数据。

音频生成式 AI 的开发流程是什么？

生成式 AI 领域目前正在采用几种不同的方式。其中一种肯定是改造已有的模型架构，以用于其他类型的生成式 AI 模型。例如，Riffusion 基于图像生成模型 Stable Diffusion 的架构；它只是生成波形，而不是图像。

我最近与从事音乐领域研究的人交谈，我们讨论的一件事是，您可以为这些音频领域模型提供的输入数据多种多样。可以是音符，也许是钢琴作曲的一部分，一直到波形或特定类型的输入，专门用于 MIDI 格式等的用例。有多种多样的数据。

训练和部署这些模型需要哪些技术？

我们一直在调查许多有趣的生成式 AI 工作负载，这些工作负载是英特尔 OpenVINO 工具套件和 OpenVINO Notebook 存储库的一部分。我们将许多音频生成的关键示例当作非常有用的用例，用于提示和测试生成式 AI 功能。我们曾经与英特尔的其他团队合作，使用 Riffusion 模型，创作 Taylor Swift 类型的流行节奏，一直到更高级的模型，生成与某人说话的内容相匹配的音频。

我看到 OpenVINO 的一件事是，能够优化所有这些模型，特别是在内存和模型大小方面，而且能够在边缘、云和客户端之间实现灵活性。

OpenVINO 实际上针对该优化部分。有一个基本概念，即生成式 AI 模型的大小和内存占用面积很大；而所有这些模型的基础，无论是音频、图像还是文本生成，其中某些元素非常大。我们使用压缩和量化相关技术，将模型占用面积减半，不仅能够大幅减少模型尺寸，而且确保性能相差无几。

所有这些都源于一个非常有趣的本地开发概念。音乐创作者或音频创作者希望在创作内容时使用电脑，在从事密集型工作时，在云端工作，例如收集音频数据、录音、注释，以及与不同专家合作创建数据集。然后他们可以在电脑上执行其他工作负载，然后说：“好吧，现在让我在系统上本地生成一些有趣的流行节奏，然后在房间里制作原型。”

开发人员开始使用生成式 AI 有哪些示例？

我真正喜欢讨论的一个例子是，您如何正确地使用我们在笔记本存储库中展示的 OpenVINO 教程和工作负载，然后投入实际运用。在英特尔，我们与 Audacity 合作，后者是一个基本上实现开源音频相关编辑创作的工具。它是一种用于音频编辑的一站式 Photoshop 类型的工具。我们所做的一件事是通过我们提供的插件，将 OpenVINO 与其集成在一起。我们的工程团队从 Python 获取 OpenVINO Notebook 存储库中的代码，将其转换为 C++，然后将其部署到 Audacity 之中。

这样就能实现我之前提到的性能和内存改进，但它也直接集成到相同的工作流程中，许多编辑和操作音频的人也在利用此工作流程。您只需挑选一段声音，然后说 “生成”，OpenVINO 就会生成其余部分。

这是一个工作流程集成的例子，可用于艺术家工作流程；用于电影行业为语音制作生成合成音频；或用于零售行业中的交互式自助服务终端；或用于医疗保健领域的患者与医疗人员对话。工作流程的无缝集成是英特尔非常期待推动和帮助协作的下一步。

生成式 AI 还有哪些，特别是音频生成式 AI？

说到音频生成式人工智能，我认为在这个领域的任何一个特定时刻都是 “眨眼即失”。看到添加了如此众多工作负载，真是太神奇了。但是，展望不久的将来，也许是今年年底或明年，我能看到的一些发展肯定是围绕我之前提到的那些工作流程，以及确定您到底想在哪里运行，是在本地系统上，还是在云上，还是在两者的混合体上？这绝对是我真正感兴趣的事情。

我们正在尝试采用英特尔^® 酷睿^™ Ultra 和类似类型的平台，在 AI 电脑上生成音频，当您坐在房间里与一群音乐家一起制作原型并玩音乐时，理想情况下，您不必访问云端。相反，您可以在本地这样做，将其导出到云端，然后在本地和云端之间往返移动您的工作负载。关键在于，我们如何将利益相关者纳入该流程，即我们如何准确创建生成式 AI 解决方案，将其实例化，然后随时维护？

最后，您能给我们留下一点关于生成式人工智能的启示吗？

现在，生成式人工智能这个领域光鲜亮丽，但几乎人人都能看到当中的价值，而前提是有一个面向未来的战略。英特尔对这个行业的价值主张，是能够携手开发人员，向他们展示他们能够利用这项技术做什么，以及在他们实现目标的每一步上给予帮助。

用于音频的生成式 AI （通用生成式 AI）的发展如此之快。因此，请密切关注工作负载、评估、测试和原型设计；在我们迈进音频生成、合成生成等众多领域的新时代之际，这些都绝对是关键。