全国服务热线:0898-08980898

欧宝平台云知声4篇论文入选国际顶会INTERSPEECH 2023

发布时间:2024-05-10 15:05:06点击量:

  近日,国际性语音及语言科学技术领域盛会INTERSPEECH 2023在爱尔兰都柏林举行。云知声联合上海师范大学发表的4篇论文被大会成功收录,成果覆盖语音增强、语音识别、防攻击声纹等研究方向。这是继ACM MM 2023后欧宝平台,云知声AGI技术实力在2023年再次获欧宝平台得国际顶会认可。

  INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,是国际性语音及语言科学技术领域的顶级会议之一,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都备受全球各地语音研究领域人士的广泛关注。

  此次获得国际顶会认可,既是云知声与上海师范大学通力合作、持续探索智能语音技术的结果,也离不开云知声AGI技术架构的有力支撑。

  作为中国AGI技术产业化的先驱之一,云知声于2016年打造Atlas人工智能基础设施,并构建公司云知大脑(UniBrain)技术中台,以山海(UniGPT)通用认知大模型为核心,包括多模态感知与生成、知识图谱、物联平台等智能组件,并通过领域增强能力,为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑,推动“U(云知大脑)+X(应用场景)”战略落实,践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。

  作为云知大脑(UniBrain)的重要组件,智能语音技术包含语音识别、声纹识别、语音合成等,目前已广泛应用于家居、车载、客服等领域。以车载场景为例,在云知声智能语音技术的加持下,可实现多音区识别、连续语音交互、个性化语音播报、所见即可说、模糊指令匹配等强大语音能力,为用户带来更智能更自然的交互体验。随着云知声智能语音技术的不断发展,其在各个场景的落地应用也将进一步提速。此次论文收录,充分印证了云知声在智能语音领域的技术创新实力,同时,也将进一步夯实其AGI技术底座,加速千行百业的智慧化升级。

  接下来,云知声将继续践行“U+X”战略,携手上海师范大学等高校机构,共同加强AI基础理论和关键技术的研发,不断拓展AGI应用场景,为智慧物联与智慧医疗两大领域提供更广泛、更深入的人工智能解决方案,致力实现以人工智能赋能千行百业的美好愿景。

  目前主流时频语音增强系统以复频谱作为输入,存在着训练工具不支持复数,复数建模方式不易训练,以及基于掩蔽的方法理论上无法完全恢复出干净语音的问题。为解决以上问题欧宝平台,本文提出了一种无需掩蔽的语音增强系统。该系统利用短时离散余弦变换(STDCT)作为特征,不仅与STFT同样具备信息完备性,而且是一种实数特征。我们在MetaFomer基础上,结合MobileNet block的轻量架构以及NAFNet的设计理念构建了全局局部模块,整个网络由此模块堆叠而成。结果表明,相比其他网络,MFNet的性能达到了SOTA欧宝平台水平,且计算量具有优势。

  低资源重口音语音识别是当前ASR技术在实际应用中面临的重要挑战之一。在这项研究中,我们提出了一个基于Conformer的架构,称为Aformer,以利用大量非口音和有限口音训练数据的声学信息。在Aformer中设计了一个普通编码器和一个口音编码器来提取互补的声学信息。此外,我们使用多通道的方式训练Aformer,并研究了三种交叉信息融合方法,以有效地结合来自一般编码器和口音编码器的信息。结果表明,在六个域内和域外口音测试集上,我们提出的方法优于Conformer基线,词/字错误率相对减少了10.2%到24.5%。

  在端到端的自动语音识别(ASR)中,开发有效的目标建模单元是非常重要的,也是大家一直关注的问题。我们提出一种语音辅助的多目标单元(PMU)建模方法,以渐进式表征学习的方式增强Conformer-Transducer ASR系统。具体来说欧宝平台,PMU首先使用语音辅助子词建模(PASM)和字节对编码(BPE)分别产生语音诱导和文本诱导的目标单元;在此基础上,我们提出了三种增强声学编码器的框架,包括基本PMU、paraCTC和paCTC,它们集成了不同层次的PASM和BPE单元,用于CTC和transducer多任务训练。在LibriSpeech和口音ASR测试集上的实验结果表明,与传统的BPE相比,提出的PMU方法显著降低了LibriSpeech clean、other和6个重音ASR测试集的WER,分别降低了12.7%、6.0%和7.7%。

  自动扬声器验证系统通常很容易受到欺骗攻击,特别是不可见的攻击。由于语音合成和语音转换算法的多样性,如何提高合成语音检测系统的泛化能力是一个具有挑战性的问题。为了解决这个问题,我们提出了一种改进的RawNet2,通过引入一个基于注意力的通道掩蔽模块来改进RawNet2,其中包括三个主要组成部分:SE、通道掩蔽和全局-局部特征聚合。在ASVspoof 2019和ASVspoof 2021数据集上评估了该系统的有效性。其中,ARawNet2在ASVspoof 2019 LA任务上达到了4.61%,在ASVspoof 2021 LA和DF任务上的EER分别达到了8.36%和19.03%,比RawNet2基线%。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  俄罗斯警告:F-16被视为核武器载机!泽连斯基被通缉后,俄再将一名乌克兰前政要列入通缉名单

  长安、华为、宁德时代合资阿维塔11事故后猛烈燃烧!网友曝内情:撞上电动车电瓶起火,引燃了阿维塔

  留置针软管在患儿体内5年多未取出,“考虑已在血管内漂移,可能至心、肺部”。医院:正以借款形式出资治疗

地址:海南省海口市  电话:0898-08980898  手机:13988888888
Copyright © 2012-2024 ob电竞·(中国)电子竞技平台 版权所有  ICP备案编号:粤ICP备88888888号  
网站地图