2019年12月26日,由百度与ZOL联手举办的“智见未来”峰会——暨2019年度“星标大奖”颁奖盛典在北京举行。在盛典上百度语音首席架构师贾磊发表了主旨为“百度大脑语音技术的前沿进展”的演讲,从百度语音产品矩阵、百度智能语音解决方案、百度智能语音交互系统这三方面全方位介绍了百度智能语音交互系统全景。
会后,中关村在线和中国科技网对贾磊进行了专访。贾磊在访谈中谈到了自己对于智能语音行业的看法。他认为智能语音的爆发期才刚刚开始,百度希望能够把这种技术进一步的铺开,整个行业所代表的“口的经济”可以帮助人们进一步提升生活愉悦感。
01行业的变化——爆发才刚刚开始
智能语音行业的蓬勃发展,从百度给出数据就可以很清晰的看出。百度大脑宣布语音的交互引擎日均调用量已经超过100亿,来自于各行各业。许多业内人士都在讲深度学习的研发已经进入了瓶颈,而在贾磊看来,智能语音的爆发期才刚刚来临。
贾磊在采访中回顾了智能语音行业的几个重要节点。2003年他刚刚博士毕业,语音行业的发展并不太乐观。当时整个行业基于混合高斯模型,虽然大词汇量连续语音识别应用点不少,但是因为混合高斯模型精度较低,因此语音行业应用处于不温不火的状态。
2011年,微软的邓力和俞栋两位学者通力合作,把深度学习技术应用于工业级的大词汇量连续语音识别实验,获得相对于传统基线系统的23%的显著提升。这也是整个深度学习的工业应用爆发的导火索。
当看到符合工业门槛要求的实验室创新之后,贾磊的团队迅速跟进,2012年中就上线了百度基于深度学习的中文语音搜索产品。百度也成为最早把深度学习应用于工业产品的企业之一。
从2012年到2018年,随着深度学习建模技术的发展,智能语音识别技术迎来了一次又一次的提升。国内外的语音技术从业人员,把国际上最先进的深度学习技术,应用于语音识别的工业产品实践中,并结合自己学科特点,产生了一系列创新,语音识别技术的繁荣发展到了一个顶峰时期。
2019年1月,贾磊的团队发布了采用全新的在线语音技术的输入法产品。实现了国际上第一次把注意力建模机制引入到语音识别工业产品在线服务中。纵观过去19年的语音识别领域的发展历程,贾磊表示整个行业的变迁依托于技术的变革,尤其是深度学习极大的革命了语音识别。
02百度的变化——加强合作,把技术应用到更多领域
把视角拉回到现实,贾磊也谈及了百度今年在智能语音领域的成果,其中最具突破性的莫过于一次唤醒多轮沟通。贾磊表示:“传统的智能音箱是一次唤醒一次问答,这种问话方式其实是非常的不自然,每次用户表达需求之前都要说一遍唤醒词,交互成本被大大提高了。现在通过我们的这个新技术,交互可以持续的进行。只有在第一次唤醒音箱的时候,需要唤醒词。这样的交互极大的提升了人们对智能音箱的使用体验。”
不仅仅是智能音箱,百度的智能语音交互未来还能被用在许多IoT产品身上,比如扫地机器人。与扫地机器人这样的产品进行交互,如何克服噪音是一个极大的问题。贾磊表示百度在唤醒技术上,百度已经研发了两三年的时间,目前,百度的唤醒技术会让机器先暂停工作,集中听取用户在说些什么,然后进一步的执行后续动作。
与合作伙伴的关系也是百度今年一个在智能语音领域的一个重要的突破口。贾磊提到,百度在语音识别的技术的研发上是超前的,但是寻求软硬一体解决方案的过程中,他们还是需要更多合作伙伴的。今天“星标大奖”颁奖盛典上介绍的百度鸿鹄芯片,就是百度与芯片厂商合作生产的。另外,高性能存储设备和服务器也是百度没有覆盖的,因此他们也与许多的第三方厂商建立起良好的关系。
无论技术上有多先进,智能语音这样的产品终究还是需要落地与用户进行更多的互动。百度也深知,只有更加个性化的东西,甚至是用户自己生产的,才是智能语音交互的未来。贾磊则直言,想要把一项技术铺开,光靠PPT宣讲是不够的,要让个性化的AI技术落地产品,让用户感觉到产品和技术的温度。百度地图上的20句话就可以定制个性化的语音包,让大家在驾车过程中感受到亲人的“AI”陪伴。
一些分析人士认为,中国的智能音箱产业成长非常迅速,价格是主因,贾磊也认可这一点。他认为一个东西想走入千家万户,成本就要更低。以前最初的小度音箱,唤醒的模块就要10 兆,20兆都是可能的。百度鸿鹄语音芯片内存大都是2兆左右。现在百度最新语音交互技术就可以完全内置到百度鸿鹄芯片中。我们都知道,音箱内存消耗和设备成本是成正比的。通过语音交互芯片化,可以大幅度降低智能音箱的成本,使得智能音箱更快的走入千家万户。
最后,贾磊也展望了整个智能语音行业的未来。他提出触摸屏是“手指经济”,到了智能语音则变成了“口的经济”。通过手和口的结合,触摸屏结合语音交互,使得人和设备交互的方式更加多元,更加丰富。人获得信息和资讯的渠道更加的广泛,使得设备更好用,人们生活愉悦感更加提升。这样的联动也给未来的智能语音行业指明了道路。