2024-07-09发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1095个字)

aiOla的AI通过额外培训适应任何行业的行话

aiOla的专有模型在转录特定领域对话时，与OpenAI的Whisper相比，实现了45%的语音识别准确度提升。{ width=60% }

aiOla是演讲识别技术领域的领导者，宣布推出一种新的AI模型，利用他们在行话检测方面的突破性研究，使其能够即刻适应任何行业的独特词汇，无需重新训练。aiOla正在帮助企业通过利用专门定制的演讲识别技术有效捕捉以往未被捕捉的宝贵数据。aiOla的技术取代了以前用纸和笔进行的手工流程，同时支持100多种语言，并能准确转录甚至是重口音的演讲。
现成的演讲识别模型，包括诸如OpenAI的Whisper等领先解决方案，在行业应用中未能胜任，因为它们无法准确转录领域特定术语。为了解决这些限制，通常需要针对每个行业的独特需求进行大量训练。培训最先进的AI模型的初始成本可能达到数亿美元，甚至微调模型的过程也需要极大的资源投入，需要专业的AI专业知识。
利用他们的专有技术，aiOla的模型为企业提供了跨所有行业部门的灵活性，包括制造业、供应链等。通过利用提示指导的创新模型架构，它有效地融入领域特定的行话，实现了零重新培训的定制AI演讲识别系统。
aiOla已经开始在财富500强公司中部署这一技术，涉及物流、航运、制造、维护和库存控制等领域，提供针对各种规模公司的服务，同时带来即时、可衡量的投资回报。
aiOla的执行主席Mitch Garber表示：“各行各业的企业都清楚地意识到采用AI来保持竞争优势的迫切需求，但他们不知从何开始。” “虽然基于文本的AI解决方案非常适用于办公环境，但基于语音的界面在工业环境中占据主导地位，因为它们可以无缝地集成到现有工作流程中，并收集以前未被记录的口头数据。之前的AI演讲识别模型无法适用于业务用例，因为它们无法理解行话。现在，aiOla通过提供即时定制的AI模型来改变这一点，使其能够理解您特定行业、组织甚至团队的独特行话。”
aiOla已经发表了他们关于实现即时行话识别的新方法的研究。他们采用了两步过程：首先，通过aiOla的先进关键词识别模型检测特定术语的存在，并将这些信息用于增强其整体语音识别能力和正确检测行话词或术语的基于Whisper的模型。“对于这种用例，我们决定增强目前最准确的语音识别模型，OpenAI的Whisper，” aiOla的研究副总裁Gil Hetz表示。 “但您可以将这种方法应用于任何语音识别模型，包括Meta的MMS模型和专有模型，从而释放进一步提升甚至最高性能语音转文本模型的潜力。”
aiOla的模型之所以能够即时理解行话，是因为首先冻结主要的语音识别模型并添加专有的自适应层。该适配器进行一次性训练，引导其有效利用行话词汇，同时保留模型的核心通用语音识别能力。在训练之后，可以将行话词汇热交换为不同部门的行话，从而实现在识别产业特定语言和一般语音方面的最新性能。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

https://www.gptnb.com/2024/07/09/2024-07-08-auto3-JFOfxe/

作者

ByteAILab

发布于

2024-07-09

更新于

2025-03-21

aiOla的AI通过额外培训适应任何行业的行话

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新