Kaldi之父Daniel Povey领衔智能语音前沿技术分享 AICon欧宝平台
Daniel Povey 是著名的语音识别开源工具 Kaldi 的主要开发者和维护者,被称为 Kaldi 之父。Kaldi 集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,公认是业界语音识别框架的基石。
2019 年 10 月,Daniel 正式加入小米公司,担任小米集团语音首席科学家,开发下一代 Kaldi。
在将于 9 月 24~25 日举行的 AICon 全球人工智能与机器学习技术大会上,Daniel Povey 将分享他们团队的研究成果。
除他之外,我们也邀请了多位国内一线公司的知名专家,来分享智能语音方面的最新进展,我们一起来看看。
李杰,快手资深语音算法专家。曾任微软(亚洲)互联网工程院语音科学家。2017 年加入快手,负责语音识别声学模型相关算法研究和产品落地,在国际主流语音会议上发表论文十余篇,主要研究方向包括语音识别、语音唤醒等。目前快手智能语音交互技术已经赋能多个产品和业务,包括小快直播间智能助理、快手音悦台、智能字幕、语音输入法、语音搜索等。
智能语音技术在快手具有丰富的应用场景欧宝平台,一方面要对每天快手用户产生的海量语音数据进行内容分析,为接下来的信息安全、内容理解、广告与推荐等提供基础服务。另一方面,要赋能快手的众多产品,提升用户与产品交互的便利性和趣味性。大量多样化的场景和海量数据对语音识别的精度与效率提出了重大挑战。近年来,端到端语音识别技术以其框架简洁、高精度、高效率的优势,成为领域研究热点,短短几年经历了多次技术更新与迭代。本次分享将会介绍端到端语音识别技术的发展历程和最新进展,并结合快手业务,介绍快手团队在 SpeechTransformer 模型上进行的多项改进与落地实践。
王士进,科大讯飞北京研究院院长,科大讯飞研究院副院长。他带领团队在机器翻译、阅读理解、写作诊断等领域获得十余项国际比赛冠军,在 ICASSP、ACL、KDD、AAAI欧宝平台、Computer Speech and Language 等期刊会议发表数十篇论文,目前还担任中国人工智能产业发展联盟技术与产业工作组副组长。
智能语音语言技术旨在让机器“掌握”人类独有的语音和语言能力,包含语音识别、语音合成、机器翻译和语言理解等关键技术,近年来在深度学习的推动下取得了长足进步。多语种语音语言技术在人类语言互通、人机交互无障碍方面具有广阔的应用前景,受到业界的广泛关注。本次分享,在简要回顾多语种语音语言技术发展基础之上,重点介绍科大讯飞多语种最新技术进展和产业化应用实践,最后探讨多语种技术面临的挑战和未来的发展趋势。
陈云琳,出门问问高级语音工程师。曾在微软从事声学模型以及拼接系统的研究与优化工作。2018 年加入出门问问,研发并推动上线端到端语音合成系统 MeetVoice(Mobvoi End to End TTS Voice),大幅度提升语音合成质量,MeetVoice 目前已广泛应用在出门问问的车载、TicWatch、TicPods、魔音、小问秘书等多项产品和 ToB 业务中。
近些年来,随着深度学习的快速发展,端到端(End-to-End)语音合成得到了广泛的关注和研究。传统的语音合成声学模型训练的流程复杂,包括 label 设计、问题集设计、HMM-GMM 训练以及决策树聚类等一系列流程欧宝平台。而端到端的声学模型直接使用单一的深度神经网络模型进行建模,极大的降低了模型的复杂度。另一方面,基于神经网络的声码器(Vocoder)在性能上也逐渐超越基于信号理论的传统声码器。端到端声学模型和神经网络 Vocoder 虽然能够合成非常高质量的声音,却面临着计算开销大和使用成本高的问题。如何解决这些难题,有效地将这一系列新技术落地,是语音合成从业者当前面临的最大挑战。本报告将介绍出门问问近期在端到端语音合成系统上取得的研发成果以及在语音合成技术产品化和 ToB 行业落地的经验。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
王小川张鹏李大海杨植麟回应大模型的一切:AGI、价格战、开源和Scaling Law
17岁中专女生闯进全球数学竞赛决赛12强 ,竞争对手多来自清华 北大 剑桥 等名校
与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏
大手笔!央企又拿核心宅地,海口这一片区城市更新,线亿!中建智地+朝开+江苏绿建摘北京首宗多业态地块
MediaTek联合Discovery探索频道推新节目 由天玑9300芯片手机全程录制欧宝平台欧宝平台