本篇文章1778字,读完约4分钟
年6月23日,百度语音技术媒体信息发布会在北京百度大厦召开,百度语音技术部总导演、高级经理刘洋、技术设计师谢延以及百度语音开放平台高级产品经理如何向与会媒体和专家讲解和展示百度语音技术的最新进展。 此外,搭载小型机器人和百度远程信息技术carlife的中途岛亮相,展示了百度语音技术繁多终端一体声音入口未来的布局。 未来的人机交互将会用越来越多的声音进行,任何终端都会一声进入。
/ S2// S2 /
百度语音技术:识别精度达到97%,请求量每天超过亿
在语音技术最核心的语音识别、语义分析、语音合成三大技术中,百度语音不仅在技术上处于领先地位,还是行业最开放的免费语音技术服务提供商。 目前,百度安静的环境下普通话语音识别准确率已经达到97%,超过了正常人的听力水平; 百度语音合成技术也可以引入深度学习技术,根据大数据的情感合成明星的个性声音; 百度语义理解技术支持56个以上行业的定制配套。
目前,采用百度语音的APP数量为8万+,每日语音识别请求量为1亿+,每日语音合成请求量为2.5亿+。 重量级领域的客户包括高端智能手机行业的联想、中兴、魅惑等;智能家居行业的联想、康佳、sony等汽车领域的特斯拉、比亚迪等智能设备行业的惠普、三诺、艾米通信等。
超越苹果和谷歌:百度语音技术的国际领先
在会议上,百度语音向众多媒体代表展示了技术实力。 在语音识别行业,无论是儿童的声音发音还是方言,百度的声音都能准确识别,给人留下深刻印象的语音合成行业,情感小说的合成、明星语音、名人的声音都很优美,令人叹为观止。
据了解,这些非凡的效果来源于百度语音的技术积累。 年12月,百度称语音识别技术取得重大突破,语音识别效果超过谷歌和苹果。 在嘈杂的背景下进行了测试,百度的deepspeech语音识别技术deepspeech的错误率比谷歌语音api、wit.ai、微软的语音和苹果的dictation低了10%。 年11月,百度硅谷实验室发布新一代深度语音识别系统( deep speech 2),被美国权威杂志《麻省理工学院评论》列为年十大突破技术之一,也是来自中国科技企业的唯一科技成果。
在语音合成技术方面,百度已经实现了业界领先的拼接合成和参数合成两大技术的研发。 拼接式合成、基于大量文案素材的自然语言理解技术和深度加工专业发音库,经过多层建模,使得韵律表达更加稳健、具有表现力。 其智能灵活的单元筛选策略可以从大规模的录音语料库中求得。 由于拼接合成所需的资源很多,我们通过在线合成的方法提供服务。 参数合成来源于优质的声建模和模型压缩技术,以及音质优良的声编码器技术,可以大幅减少资源,并且可以离线生成接近人类发声的合成效果。
2开放两种重要的语音技术。 将来,任何终端都会以一个声音进入
会议上,百度语音宣布将进一步对外开放两大关键语音技术:唤醒技术和定制语义技术。 通过小型机器人和搭载百度远程信息技术carlife系统的中间件演示,参与者证实了百度基于语音合成和自然语言理解的强大交互能力。
百度唤醒技术的唤醒率达到95%,支持自定义唤醒和连续表达,轻便易集成。 即使客人用语音说你好,也请播放古典音乐的指令。 或者,虽然说你好,但是可以迅速应对请带我去附近的加油站的请求。 不仅适用于远程信息处理技术,还可以广泛应用于手机和电视等各种终端。 定制语义功能将开放语义和语音的映射能力,从而使许多开发者和第三方制造商能够更快、更准确地提高识别率。
关于百度免费开放这两种语音技术的意义,百度负责人表示,这些能力背后支撑着百度的人工智能和大数据能力,是百度智能+战术的落地。 正如李彦宏在年百度大会上预言的那样,未来五年语音图像检索将超过副本。 从年第二季度开始,百度语音输入增长了4倍以上,输出增长了26倍以上。 应用于carlife、小型机器人,甚至搜索、外卖等行业的语音技术,极大地优化了产品体验,方便了人们的生活。 未来的人机交互被认为将会以声音这种人类最自然的交流形式进行。
百度的语音愿景是用智能的语音连接万物。 百度是业界首款完全永久免费新形式,为开发者提供基于百度大脑的行业顶级音响模型和语音模型。 基础服务免费,永久采用。 在百度开放觉醒和定制语义技术之后,百度将进一步推动语音交流的普及。 将来,任何终端都将一声进入。
来源:UI科技日报
标题:“百度展现多终端一体“音入口”布局能力”
地址:http://www.ulahighschool.com/uiitzx/809.html