智东西4月9日消息,亚马逊宣布推出一款全新的基础模型Amazon Nova Sonic,将语音理解与语音生成统一于单一的模型中,使AI应用程序中的语音对话更贴近真人交流。该模型通过Amazon Bedrock上的新API提供,可简化语音应用开发流程,例如客户服务通话自动化及覆盖旅游、教育、医疗、娱乐等领域的跨行业AI agents。
Nova Sonic摒弃了使用多个不同模型的方式,而是将理解与生成功能统一于单一模型中。这种整合使模型能根据语气、风格等声学情境以及口语输入调整所生成的语音响应,从而实现更自然的对话。Nova Sonic甚至能理解人类对话的细微之处,包括说话者的自然停顿与犹豫、能在恰当时机做出回应,并能从容应对对话中的插话情况。
该模型还会为用户语音生成文字转录,让开发者能够利用这些文本来调用特定工具与API,从而构建语音AI agents。这些功能,加上其超快的推理能力,使Nova Sonic支持的语音应用不仅更加自然,而且实用性更强。