Deepgram推出Aura-2

Aura-2在对话企业应用案例的偏好测试中击败了ElevenLabs、Cartesia和OpenAI,提供无与伦比的清晰度、速度和成本效益的自然、上下文感知语音合成,适用于实时企业互动。图片{ width=60% }


Deepgram是领先的企业用语音AI平台,今天宣布发布其下一代文本到语音 (TTS) 模型——Aura-2,专为关键业务环境中的实时语音应用而设计。Aura-2经过优化,具有清晰、一致和低延迟的性能,可通过云或本地API进行部署,使开发人员能够构建可扩展的类人语音体验,适用于企业中的自动化交互,包括客户支持、虚拟代理和AI驱动的助手。Aura-2建立在Deepgram Enterprise Runtime之上——同样支撑该公司的行业领先的语音到文本 (STT) 和语音到语音 (STS) 功能,为企业提供控制、适应性和性能,以满足生产级语音AI的部署和扩展需求。通过Aura-2,Deepgram在企业语音技术领域进一步巩固了其领导地位,使企业能够在大规模上提供自然、响应迅速和上下文准确的对话。目前,已有超过200,000名开发者和1,200家公司,包括财富500强企业和像Jack in the Box、Vapi及OneReach.ai这样的语音AI初创公司在使用Deepgram。

“我们依赖Deepgram的语音识别在规模上支持实时语音交互,因此能够在同一企业级基础设施中部署TTS是非常有吸引力的,”Vapi首席技术官Nikhil Gupta表示。“从单一供应商获取STT和TTS显著降低了集成复杂性和延迟,为构建大规模对话AI的团队提供了更顺畅的体验。”

“Aura-2出色的清晰度和自然性显著提升了我们的对话AI解决方案,使客户互动更加流畅和引人入胜,”Cognigy人工智能转型高级副总裁Thys Waanders表示。“Deepgram能够以规模化的方式提供实时、领域特定的发音,确保我们满足企业呼叫中心在高效和降低成本方面的复杂需求。”

弥合差距:企业优化的语音AI
在当今的TTS领域,娱乐导向模型与企业级语音系统的运营需求之间存在显著差距。虽然以娱乐为导向的TTS平台是针对故事讲述、角色声音和情感表达交付进行训练和优化的,但当应用于企业用例时,它们却无法满足需求。企业应用需要的不仅仅是自然声音——它们还要求领域特定的发音、专业语调、一致的上下文处理,及在需要完全部署控制的环境中,能够可靠、经济高效地运行。Aura-2弥合了这一差距,提供为企业关键环境的规模、精确和弹性所设计的高质量、上下文感知的语音。与针对创造性表达进行优化的娱乐导向系统不同,Aura-2反映了企业语音AI的优先事项,在关键维度上提供优势:

  1. 领域特定的发音卓越——Aura-2确保精确处理行业术语,准确发音医疗术语、金融行话、产品名称和复杂数字,无需手动标记。这一内置的准确性消除了对广泛发音词典或手动干预的需求,确保在专业领域清晰沟通,其中精确性至关重要。

  2. 专业语音质量和自然性——Aura-2提供40多种覆盖美国英语和本地口音的声线,发布真实的、适合商业的语音,避免了娱乐导向TTS中常见的过于戏剧化的语调。组织可以选择与其品牌身份一致的声线角色,从“充满同情和魅力”到“冷静而专业”,在所有客户接触点保持一致。

  3. 上下文感知的表现——Aura-2根据上下文智能调整节奏、停顿、语调和表达——无论是拨打电话号码、处理支持升级还是进行交易交互,结果都是平滑、连贯的语音,音量均匀,发音清晰。

这些语音和交付优势转化为真实用户偏好。在企业场景的面对面比较中,Deepgram几乎在60%的情况下胜出。

实时性能——Aura-2针对现实企业工作负载进行了优化,提供低于200毫秒的首次字节时间 (TTFB),实现超响应的交互。它高效支持成千上万的并发请求,同时在高容量部署中维持持续低延迟和高质量语音输出——从呼叫中心到虚拟助手。对于具有严格安全或数据驻留要求的团队,在本地或VPC中部署Aura-2不仅确保完整控制——还可以通过消除往返云端的延迟来减少延迟。

成本效益——Aura-2以透明的定价提供企业级语音,优化了大宗使用。每1000个字符仅需0.030美元,相较于ElevenLabs Turbo(0.050美元)和Cartesia Sonic(0.038美元)提供可观的节省。Deepgram的基于使用量的模式包括所有40多种声音,以单一费率计费,无隐藏费用,并提供分层的企业定价,从而显著降低高容量实施的成本。这种方法消除了质量与成本的权衡,使企业能够在不牺牲性能的情况下,在所有接触点提供一致的声音体验,以控制成本。

“我们的客户需要的不仅仅是听起来不错的声音——他们需要在专业环境中精确、可靠地交流的声音,”Deepgram首席执行官Scott Stephenson表示。“Aura-2实现了自然语音与企业级准确性的完美平衡,使组织能够创建真正强化客户互动的语音体验,同时维护运营效率。”

“Aura-2为企业级TTS设定了新的标杆。它所提供的清晰、一致和低延迟的体验为我们的AI代理体验带来了变革,”Stack AI联合创始人Bernardo Aceituno表示。“凭借Deepgram的语音合成,我们能够构建不仅听起来更人性化,而且在企业所需的可靠性中表现出色的工作流程。”

“我们选择Deepgram是因为它提供了我们支持大规模实时交互所需的速度、成本效益和准确性,涵盖从STT到TTS,”LockedIn AI首席执行官Caesar Gui表示。“Aura-2的响应性和质量让我们能够创建语音自然的AI代理——同时从单一供应商获得整个语音堆栈意味着更快的迭代和更少的集成麻烦。”

企业级架构用于实时应用
Aura-2由Deepgram Enterprise Runtime (DER) 提供支持——这是一个专为企业级性能定制的基础设施层,运行Deepgram所有的语音模型。DER专门设计用于实时协调语音AI,提供生产规模部署所需的速度、可靠性和适应性。主要功能包括:

  • 自动模型适应——通过高价值数据策划、合成数据生成和自动训练持续改善表现,使语音模型随着业务演变。
  • 模型热切换——允许在生产中即时更换模型而无须停机,支持实时个性化和快速迭代。
  • 极端压缩——专有无损压缩显著减少计算负载和运营成本,同时不影响质量。
  • 灵活部署——支持公共云、私有云 (VPC) 和本地环境,使企业能够控制和灵活地整理内部基础设施、合规政策和数据治理标准。
  • 为实时而非回合制设计——旨在流畅、人性化的对话,具备中断处理和思维结束检测,支持动态、重叠的语音模式。

通过运行在DER上,Aura-2继承了一个为关键任务性能构建的企业级基础。此架构优势意味着组织可以部署先进的TTS能力,同时维护Deepgram可信平台所定义的安全、可靠性和可扩展性的运营标准。不同于限于云端的供应商,Deepgram提供真正的部署灵活性——在云、VPC和本地环境中实现对称性能,因此企业可以在没有权衡的情况下满足安全和基础设施要求。企业获得的不是运营特征迥异的独立系统,而是一个为生产环境设计的统一语音AI基础设施。

Deepgram在STT方面的领导地位增强了TTS功能
Deepgram在STT领域的公认领导地位使Aura-2在提供准确、生产就绪的TTS方面具备了明显优势。通过运行在驱动Nova-3语音识别和对话AI的同一企业运行时上,Aura-2受益于共享学习、统一部署和无缝的开发者体验。Deepgram语音AI堆栈的这种深度集成消除了通常因为将多个供应商的工具拼接在一起而出现的操作复杂性和调试挑战。

“我们多年来开发Nova-3和其他STT模型使我们对现实世界的语音模式有了深刻的洞察,”Deepgram产品副总裁Natalie Rutgers表示。“借助Enterprise Runtime,Aura-2直接利用我们的声学模型和发音数据集,实时提供精确、特定于行业的语音合成。”

这一统一架构允许持续的跨模型学习,语音识别中的改进自动增强语音合成,利用共享运行时。这一平台根据您的特定行业术语和用户互动不断学习和适应,将孤立的语音组件转变为一个随着每次交互不断增强的统一语音AI平台。对于企业来说,这意味着更可衡量的性能:系统间一致的发音、减少的端到端延迟和实时模型自定义——所有这些都出自于Deepgram所定义的同样可靠的平台。

亲自体验Aura-2
马上开始构建企业级的TTS。通过我们的互动游乐园立即体验Aura-2,或在deepgram.com上探索深入的产品能力。新用户可获得200美元的免费积分——足以生成超过1300万字符(约220小时的语音)。迈出转型您的语音应用的第一步,使用Deepgram的行业领先技术。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

作者

ByteAILab

发布于

2025-04-17

更新于

2025-04-17

许可协议