Meta 发布 Voicebox AI 模型：可生成音频回复信息，用于 NPC 对话等

6 月 19 日消息，Meta 目前发布了 Voicebox AI 模型，相对于只能使用文字或图片回复的竞品模型，Voicebox AI 模型的优势主要如其名，能够生成用于回复的音频消息。

▲ Voicebox AI 模型的特色，图源 Meta

据悉，Voicebox AI 模型只需要一段 2 秒钟的音频样本，即可准确辨别出音频细节、音色，并基于文字结果转换为语音输出，支持英语、法语、德语、西班牙语。此外，Voicebox 还具备“基于语音片段前后内容来补齐中间缺失内容”的能力。

▲ Voicebox AI 模型的特色，图源 Meta

Meta 表示，Voicebox 可以为基于 AI 的虚拟助手或元宇宙中的 NPC 提供自然而真实的语音效果。而对于无障碍方面而言，Voicebox 也可以对声带受损的人群提供一定的协助作用。

经过查询得知，Voicebox AI 模型目前仍处于研发阶段。Meta 表示，他们意识到这种人工智能技术在虚假伪造方面，可能会带来潜在危害，因此 Meta 目前正在努力找到一种有效的方式来区分真实语音和由 Voicebox 生成的音频，在找到解决方案前，暂时不会向公众公开提供。目前可以在这里找到 Voicebox 模型的更多信息。

Meta 发布 Voicebox AI 模型：可生成音频回复信息，用于 NPC 对话等

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复