产品中心

中国科技少年对话“Kaldi之父”Daniel Povey
TIME: 2024.10.20

  月初,Daniel 团队的新一代 Kaldi 语音项目获得了小米2023百万美金技术大奖评选的二等奖。近日,两位《超脑少年团》成员“小孩哥”高培淇和宫一森来到小米祝贺偶像Daniel 获奖。

  Kaldi 是一款开源的语音识别工具包,大多数都用在语音识别、说话人识别、自然语言处理等领域。

  在智能语音方面,大到微软、苹果、腾讯这样的巨头,小到各种初创企业,几乎都曾或在使用 Kaldi 的技术进行研发及开发产品。而小米首席语音科学家Daniel Povey正是 Kaldi 的创始人。

  说到为什么还要研发新一代 Kaldi,也是随着深度学习技术的发展以及硬件算力的提升,智能语音领域也进入到一个新的发展阶段,Kaldi 也要一直更新以适应新的应用场景和技术趋势。

  Daniel 博士在2019年注意到了 Transformer 架构的潜力,并判断构建通用基础模型的时机已到来,加入小米后,他就开始实施这一蓝图,研发新一代 Kaldi 语音基础引擎。

  新一代 Kaldi是一个开源的智能语音技术工具集,包含核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa 四个子项目,开发的人能基于这些工具集轻松定制自己的智能语音应用。

  如果把一个AI应用比喻为一座冰山,那用户所能感知到的应用界面就是暴露在“海平面”之上的冰峰,强有力地托起这些应用的核心和庞大的技术基底,则是被深埋在“海平面”之下。

  深藏在“海平面”之下的新一代 Kaldi 通用技术基底有哪些?它们又能带来怎样的作用?下面就为大家介绍。

  Zipformer是一个应用 Attention 机制的通用声学编码器,不但可以用在语音领域,初步实验验证其在文本和图像任务上同样适用。

  Zipformer 具有效果更好、计算更快、更省内存等优点,这使得 Zipformer 模型非常适合于低资源设备端部署。

  全新升级的神经网络优化器ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器 Adam 的基础上,引入了可学习的缩放因子,实现了网络训练时间大幅度缩短。而且ScaledAdam与Adam一样,是一个通用的网络训练优化器。

  实验多个方面数据显示,相比 PyTorch 中实现的 RNN-T 损失函数,Pruned RNN-T 损失函数在仅使用 1/5 显存的基础上,取得了约 10 倍的速度提升。

  可微分FST(Finite State Transducer)是一个有限状态转换器,可以构建复杂的语言处理模型。

  新一代 Kaldi 团队创造性的实现了运行于 GPU 的可微分有限状态机,使开发者只需要在外部构建好图的拓扑结构,将其他的一切计算和训练的部分交给 k2 引擎, 以此来降低建模的工作量,提高灵活性。此外,新一代 Kaldi 团队还实现了基于 GPU 的状态机解码方法,实现了语音识别解码的全链路 GPU 加速。

  新一代 Kaldi 还有众多杰出的成果,如:近乎零成本的知识蒸馏技术,让小模型也能学习到大模型的本领;基于时延惩罚的低时延端到端模型的训练方法;PromptASR 语音识别系统;高效数据集构建方案 textsearch ; 全平台语音任务服务引擎 sherpa 等等。集众多优质技术于一身的新一代 Kaldi ,也将会在未来给大家带来更多实用的惊喜,敬请期待吧!

  新一代 Kaldi 作为一个基础引擎,不仅推动了公司的技术发展,更对业界产生了深刻的影响。

  首先,它可以在语音交互层面有力赋能小米「人车家全生态」新战略。以座舱为例,使用新一代 Kaldi 引擎后,座舱的语音识别的性能逐步提升, jira 解决率提升45%,服务器成本也降低一半。

  其次,新一代 Kaldi 作为一个基础引擎,不但可以服务于语音任务,还可以广泛地适用于各种 AI 任务。目前,团队首创的 ScaledAdam 优化器已经用在了小米自研大模型中。

  最后,在智能家居领域中,利用新一代 Kaldi 技术,人类能通过语音指令控制家电设备、查询天气、播放音乐等;在教育行业中,可以对学生进行口语测试和纠正,提高学生的口语表达和听力理解能力;在医疗行业中,能轻松实现自动化的病历记录和诊断,提高医疗行业的效率。可以说,新一代 Kaldi 的出现正在对各行各业产生积极的影响。

  坚持开源是新一代 Kaldi 与前一代一脉相承的底色。“我为人人,人人为我”,这是 Daniel 坚持 Kaldi 开源的期望,也是小米积极拥抱开源的初心。

  “人因梦想而伟大,又因坚持梦想而成长。”Daniel借用雷军的话,寄语和高培淇、宫一森一样怀揣着编程梦想的科技少年。今日的科技少年也一定会成长为未来科研事业中的栋梁。

  最后,让我们把目光再次聚焦到获奖的新一代 Kaldi 团队,这是一个创新和经验的结合体,正是因为他们,新⼀代 Kaldi 取得了众多世界领先的成果。期待新一代 Kaldi 在未来,给大家带来更多极致、好用的技术,让开源普惠大众。

  瓜州县:探索“1+1”产业+N种电商举措新模式 助推电子商务高质量发展

  瓜州县:探索“1+1”产业+N种电商举措新模式 助推电子商务高质量发展

  联动「DOU来内容实验室」共创中国女足大片,看Prada怎么样玩转奢侈品新营销

  联动「DOU来内容实验室」共创中国女足大片,看Prada怎么样玩转奢侈品新营销

  月初,Daniel 团队的新一代 Kaldi 语音项目获得了小米2023百万美金技术大奖评选的二等奖。近日,两位...

  胜利一刻,经典见证!北京时间1月14日,2024年澳大利亚网球公开赛正式开赛。伴随着泸州老窖国窖1573、...

  近年来,愈加复杂的应用场景对储能电池的单位体积内的包含的能量、安全性等相关参数也提出了更高的要求。目前,电池技...

  1月16日,全球知名移动市场评估机构data ai发布2023年12月中国游戏厂商应用出海收入排行榜,由世纪华通(S...

  数字化、智能化的发展,使得各行各业都在面临着巨大的挑战,和前所未有的机遇。紫燕百味鸡作为餐饮卤味赛...

  1月16日香港永安旅行社一行近百人莅临卡撒天娇集团,此次问访这不仅是一次企业间的交流,更是两地经济合...

  1月16日,以温暖世界泉牵黔沪为主题的2024贵州省温泉康养产业专题洽接会在上海举办。此次专题洽接会由贵...

  2023年12月,经过中国整形美容协会的严格审查和评选,深圳阳光医疗美容医院(下面简称:阳光医美)第3次...

  进了腊月就是年,年货节为家里焕新,添置新的家电家居已成为当下年轻人迎接新年的仪式感之一。1月17日晚...

  龙起九州,啸动苍穹!《魔域》全新龙年兽今日霸气现世,一遇风云便化龙!铜梁龙舞正是如...