这些工具将使开发人员能够更轻松地扩展人工智能应用程序,为全球用户提供快速、准确的语音技术,用于生产规模的用例,如多语言聊天机器人、客户服务语音代理和近实时翻译服务。其中包括:
Granary是一个庞大的开源多语言语音数据集语料库,包含约100万小时的音频,其中近65万小时用于语音识别,超过35万小时用于语言翻译。
NVIDIA Canary-1b-v2,一个在Granary上训练的十亿参数模型,用于欧洲语言的高质量转录,以及英语和二十多种支持语言之间的翻译。
NVIDIA Parakeet-tdt-0.6b-v3,一个流线型的6亿参数模型,专为Granary支持的语言的实时或大容量转录而设计。
Granary论文将于8月17日至21日在荷兰举行的语言处理会议Interspeech上发表。该数据集以及新 Canary和Parakeet模型现在可以在Hugging Face上找到。
Granary如何解决数据短缺问题
为了开发Granary数据集,NVIDIA语音AI团队与卡内基梅隆大学和基金会的研究人员Bruno Kessler合作。该团队通过由NVIDIA NeMo语音数据处理器工具包支持的创新处理管道传递未标记的音频,将其转化为结构化的高质量数据。
该管道使研究人员能够将公共语音数据增强为可用于人工智能训练的格式,而不需要资源密集型的人工注释。它可以在GitHub上开源。
借助Granary的干净、即用型数据,开发人员可以率先构建模型,以处理几乎所有欧盟24种官方语言以及俄语和乌克兰语的转录和翻译任务。
对于在人类注释数据集中代表性不足的欧洲语言,Granary提供了一种关键资源,可以开发更具包容性的语音技术,更好地反映非洲大陆的语言多样性,同时使用更少的训练数据。
该团队在他们的Interspeech论文中证明,与其他流行的数据集相比。要达到自动语音识别(ASR)和自动语音翻译(AST)的目标准确率,需要大约一半的Granary训练数据。
利用NVIDIA NeMo进行加速转录
新的Canary和Parakeet模型提供了开发人员可以使用Granary构建的模型的示例,这些模型可以根据他们的目标应用程序进行定制。Canary-1b-v2针对复杂任务的准确性进行了优化,而Parakeet-tdt-0.6b-v3则针对高速、低延迟的任务进行了设计。
通过共享Granary数据集和这两个模型背后的方法,NVIDIA使全球语音AI开发人员社区能够将此数据处理工作流程适应其他ASR或AST模型或其他语言。从而加速语音AI创新。
Canary-1b-v2在许可证下可用,将Canary家族支持的语言从4种扩展到25种。它提供了与3倍大的模型相当的转录和翻译质量,同时运行推理的速度提高了10倍。
NVIDIA NeMo是一个用于管理AI代理生命周期的模块化软件套件,加速了语音AI模型的开发。NeMo Curator是软件套件的一部分,它使团队能够从源数据中过滤出合成样本,从而只使用高质量的样本进行模型训练。该团队还利用NeMo语音数据处理器工具包完成了将成绩单与音频文件对齐以及将数据转换为所需格式等任务。
Parakeet-tdt-0.6b-v3优先考虑高吞吐量,能够在一次推理过程中转录24分钟的音频片段。该模型自动检测输入的音频语言并转录,而无需额外的提示步骤。
Canary和Parakeet模型在输出中都提供了准确的标点符号、大写字母和单词级时间戳。
NVIDIA DLI 与Ai时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。
相关教程
2024-09-30
2023-11-19
2024-06-08
2024-04-30
2023-12-10
2024-05-15
2025-05-23
2024-09-25
2023-10-01
2025-08-17
2025-08-16
2025-08-15
2025-08-15
2025-08-15
2025-08-14
copyright © 2012-2025 纯净系统之家 m.kzmyhome.com 版权声明