亚马逊推出全新Nova Sonic语音到语音模型

智东西4月9日消息，亚马逊宣布推出一款全新的基础模型Amazon Nova Sonic，将语音理解与语音生成统一于单一的模型中，使AI应用程序中的语音对话更贴近真人交流。该模型通过Amazon Bedrock上的新API提供，可简化语音应用开发流程，例如客户服务通话自动化及覆盖旅游、教育、医疗、娱乐等领域的跨行业AI agents。

Nova Sonic摒弃了使用多个不同模型的方式，而是将理解与生成功能统一于单一模型中。这种整合使模型能根据语气、风格等声学情境以及口语输入调整所生成的语音响应，从而实现更自然的对话。Nova Sonic甚至能理解人类对话的细微之处，包括说话者的自然停顿与犹豫、能在恰当时机做出回应，并能从容应对对话中的插话情况。

该模型还会为用户语音生成文字转录，让开发者能够利用这些文本来调用特定工具与API，从而构建语音AI agents。这些功能，加上其超快的推理能力，使Nova Sonic支持的语音应用不仅更加自然，而且实用性更强。