亚马逊云科技Nova Sonic端到端语音模型实战工坊全程
关键字: [亚马逊云科技, 生成式AI, , Nova Sonic端到端语音模型, 实时双向流式传输, 多轮对话交互, 工具调用集成, 知识库集成]
导读
在本次演讲中,演讲者介绍了亚马逊云科技自研的Nova Sonic端到端语音模型。Nova Sonic是一种支持双向流式语音识别的模型,可实现实时低延迟的多轮对话。它具有自适应云响应、支持打断和保留对话上下文、对接知识库构建RAG系统、支持工具调用搭建智能体应用、对背景噪音具有鲁棒性以及内置内容审核和水印保护等核心特性。演讲者通过动手实验演示了Nova Sonic的各项功能,包括系统提示处理、聊天历史管理、工具调用使用以及与知识库、MCP工具和Agent的集成等,展现了Nova Sonic在语音客户服务、个人助理、教育等场景的应用前景。
演讲精华
以下是小编为您整理的本次演讲的精华。
在阳光明媚的日子里,亚马逊云科技举办了一场关于Nova Sonic端到端语音模型的实战工坊。作为亚马逊自研的首款端到端语音模型,Nova Sonic具备实时双向流式传输、自适应云响应、支持打断保留对话上下文、对接知识库构建RAG系统、支持工具调用等核心特性,可广泛应用于语音客户服务、语音个人助理、教育和语言学习等场景。
当天下午1点30分,实战工坊正式开始。主讲人高云怡是来自亚马逊云科技的GNI产品解决方案架构师,现场还有其他资深架构师陈冰、云齐等担任助教,为学员答疑解惑。
高云怡首先向学员介绍了传统语音智能体的工作流程。传统流程需要先进行人声活动检测(VAD),然后使用自动语音识别(ASR)模块将语音转录为文本,接着使用自然语言理解(NLU)模块或大语言模型处理文本,最后通过语音合成(TTS)将文本转化为语音输出。而Nova Sonic作为一种端到端模型,可以直接将语音识别并生成语音输出,无需中间的文本处理环节,工作流程更加简洁高效。
不仅如此,Nova Sonic还提供了实时转录、工具调用接入、情绪渲染等多种功能。它的实时转录功能可将语音直接生成文字;工具调用接入允许它连接外部API、函数、知识库等,构建更加复杂的AI工作流;情绪渲染则可根据内容自动调整语音的音调、音律,使输出语音更加自然流畅。
Nova Sonic的核心特性主要有以下几点:首先,它支持双向流式语音识别,可实现实时低延迟的多轮对话。其次,它具备自适应云响应能力,可根据语音的节奏动态调整输出。第三,它支持打断识别,可根据用户意图转变当前话题,并保留对话上下文信息。第四,它可对接Bedrock上托管的知识库,用于构建RAG系统。第五,它支持工具调用,可搭建各种智能体应用。第六,它对输入语音环境的背景噪音有很强的鲁棒性,可在一定噪音下依然精准识别。最后,Nova Sonic内置了内容审核和水印保护功能,可识别AI生成内容,有助于构建负责任的AI系统。
在语音客户服务领域,Nova Sonic可用于电话销售、人工客服培训等,提高服务效率。在语音个人助理领域,它可助力日常事务的处理,如日程安排、活动预定等。在教育和语言学习领域,Nova Sonic作为一个自然的英语语音模型,可通过互动对话的方式教授复杂主题,帮助学生和非母语人士提高英语口语水平。
理论部分介绍完毕后,高云怡带领学员进入动手实验环境。实验使用亚马逊云科技提供的账号,通过网页端VS Code进行配置和操作。Nova Sonic的API接口是Invoke Model with Streamed Action and Streamed Response,支持HTTP/2双向通信协议。如需使用WebSocket,则需通过HTTP/2包装。该API支持多种语言的SDK,其中Python版本需要较高版本。
Nova Sonic的核心实现基于JSON格式的事件流输入输出。当用户输入语音时,会按时间顺序逐步输入一系列JSON事件,包括Session Start、系统提示词、对话历史记录、音频帧等。模型输出也是一系列JSON事件,包括Session Start、实时转录结果、工具调用结果、文字输出预览、音频帧输出、最终文字输出、Session End等。如果模型检测到用户打断意图,还会输出Barging事件。
总的工作流程是,当用户输入语音后,Nova Sonic模型会给出实时转录文字和音频输出,同时可动态通过工具调用与外部系统连接,包括对接知识库、执行外部函数、调用API和数据源等,实现语音代理功能。
了解了基本原理后,高云怡带领学员在实验环境中体验Nova Sonic的各项能力。首先与模型进行语音交互,观察其JSON事件流的输入输出格式。在输入端,有Session Start事件,其中包含了推理模型的max_tokens、top_p、temperature等参数,用于控制模型的输出多样性。Prompt Start事件中包含了voice_id参数,指定了一个男性英语语音。System Prompt事件则设置了模型的角色和回答范式。Chat History事件记录了之前的对话内容。在输出端,模型先给出一个Speculative Transcript预览将要输出的文字,然后输出一串音频帧,最后给出Final Transcript确认实际输出的文字。
接下来,高云怡调整了系统提示词,观察它对模型输出的影响。最初让模型扮演友好助手,以对话形式简短回复。后来将提示词改为要求每次输出时附加情绪标签,如“同情”、“快乐”等。实验结果显示,模型不仅输出了相应的情绪标签,语音也根据情绪进行了实时渲染,使输出更自然。
之后,高云怡展示了Nova Sonic的打断识别和对话历史管理能力。由于支持双向流式通信,Nova Sonic可在输出过程中实时检测用户的打断意图,中断当前输出并重新生成回复,同时保留之前的对话上下文。高云怡还演示了如何在Chat History参数中包含对话历史,让模型紧密衔接上下文,如补充之前未说完的信息。
下一个环节是工具调用。高云怡定义了一个获取当前日期时间的简单工具get_day_two,并在与模型交互时主动触发该工具,观察它如何影响模型的输出。实际上,工具调用功能允许Nova Sonic连接外部API、函数、知识库等,构建复杂的AI工作流。
考虑到Nova Sonic作为开放式交互模型的安全风险,高云怡介绍了两种保护方法。一是通过系统提示词限制模型不回答涉及暴力、不当内容等不当输出;二是通过工具调用的方式,连接Bedrock上的GuTrueIL服务,对模型输入输出进行内容审核,拦截不当内容。
接下来,高云怡带领学员体验Nova Sonic与Bedrock知识库的集成。当用户提问时,Nova Sonic根据自身推理能力判断所需工具和参数,调用Bedrock托管的知识库服务,从中检索相关文档;然后Nova Sonic将这些文档知识与对话上下文进行整合,最终回复用户。构建知识库只需在Bedrock控制台上注入文档,并选择推理模型进行同步。高云怡还现场演示了如何将知识库ID设置为Nova Sonic的环境变量kb_id,让其能够在对话中调用知识库服务。
除了知识库,Nova Sonic还可与MCP工具集成,如地点搜索、地理编码等。它会根据用户的问题,识别出所需调用的工具,并在后台调用MCP服务获取结果。
另一种集成方式是与亚马逊自研的StrengthAgent SDK集成。用户可使用该SDK构建Agent模型,并将其包装为一个工具,由Nova Sonic进行调用。这种方式的优点是将复杂的推理工作交给专门的Agent模型处理,缺点是会增加一些响应延迟。
最后,高云怡介绍了利用Bedrock Agent服务的方式。用户可在Bedrock上构建和部署Agent模型,然后通过工具调用的方式,由Nova Sonic进行调用。
高云怡总结了利用Nova Sonic构建智能体应用的两种设计思路:一是利用Nova Sonic的推理能力,拆解任务并调用合适的工具,完成后返回结果;二是直接调用预先构建的Agent模型,将复杂的推理工作卸载给Agent。具体采用哪种方式,需要根据业务场景对延迟和推理能力的要求来权衡。
虽然工坊的实验时间有限,但高云怡鼓励学员在实验有效期内继续探索Nova Sonic更多功能拓展,如与Bedrock知识库、MCP工具、StrengthAgent等的集成实践。
总的来说,这场实战工坊全面深入地介绍了Nova Sonic这一创新的端到端语音模型,让学员对其原理、能力和应用场景有了较为透彻的理解。通过动手实验,学员亲身体验了Nova Sonic在语音交互、工具集成、知识库对接等多方面的卓越能力,见识到了它为语音AI应用带来的全新可能。相信通过这次工坊,学员们对Nova Sonic有了更加深刻的认识,并为未来在实际场景中的应用和创新打下了坚实基础。
下面是一些演讲现场的精彩瞬间:
The speaker announces the start of the experimental session at 1:30 PM as everyone has gathered.
The speaker explains how to access the experimental environment, including connecting to WiFi, scanning a QR code, opening the experiment page, and launching the AWS-provided web-based VS Code IDE to set up the testing environment.
一个演示视频展示了如何使用语音输入与AI助手进行对话,并解释了后台发生的JSON事件流和相关参数设置。
The AI model demonstrates its ability to provide speculative and final responses, allowing for real-time adjustments and a unified final reply.
通过使用 Strength Agent、Bedrock Agent 或其他构建 Agent 的框架,并以 Agent as Tool 的方式调用 Nova Sonic,可以将复杂推理的工作负载分配给其他模型,从而提高性能并更好地适应业务场景。
总结
Amazon Nova Sonic est le premier modèle vocal de bout en bout développé par 亚马逊云科技, capable de reconnaître la parole, de comprendre le contexte et de générer une réponse audio en temps réel avec peu de latence. Cet atelier pratique a permis aux participants d’expérimenter les principales fonctionnalités de Nova Sonic, notamment la gestion du contexte conversationnel, l’intégration d’outils externes comme des bases de connaissances et des API, ainsi que des garde-fous de sécurité pour un IA responsable.
Le modèle repose sur un flux d’événements JSON pour transmettre les entrées audio de l’utilisateur et renvoyer les réponses audio générées. Il peut s’adapter au contenu et aux émotions pour moduler le ton de sa voix. Nova Sonic offre une grande robustesse face aux bruits de fond et intègre des fonctions de détection de contenu inapproprié.
Les participants ont pu déployer une application web de démonstration en configurant un serveur Python et une interface React, puis interagir avec le modèle par la voix. Ils ont exploré les différents paramètres pour personnaliser les réponses, comme les invites système, la gestion de l’historique conversationnel et l’appel d’outils externes. L’atelier a également abordé l’intégration avec la base de connaissances Bedrock d’亚马逊云科技, les protocoles MCP et l’utilisation d’agents IA comme outils.
En conclusion, Nova Sonic ouvre de nouvelles perspectives pour créer des assistants vocaux naturels et intelligents, en tirant parti des capacités d’Amazon Web Services dans le cloud pour le déploiement et l’évolutivité.
我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。
垒富优配-168股票配资网-全国十大股票配资平台-中国股票配资网网提示:文章来自网络,不代表本站观点。