今年互联网女皇的报告发布了,相比去年用了10%的篇幅大谈语音交互,今年的报告对于语音交互似乎冷静了许多。不过我们仍然能看到,报告指出,来自Google Assistant的数据显示,接近70%的请求都是自然语言、对话方式发出的,机器学习已经驱动Google的语音识别率从2013年的不足80%,提升至如今的95%(国内大部分平台公布的识别率是97%)。
我们可以看一看去年的报告,其中提到,快速简便、个性化的语音交互很可能代替人们的双手,成为人机交换的新模式。解放了双手和视觉,能将“在线”这一概念延伸的更远。
可让人困惑的是,语音交互应用,尤其是中文语音交互真的离我们那么近了吗?
面对Siri,让她来段beatbox之外,好像也没有什么好说的。看到报告中的数据后,我破天荒的长按home键,看到屏幕上那行“请问需要什么帮助”后竟然没由来的感到一丝尴尬,这感觉和我面对不熟的亲戚时搜肠刮肚找话题的感觉一样。
我知道语音助手们能帮我做很多事,搜索、打电话、发信息、叫外卖……可我就是开不了那个口。
我相信有很多人跟我一样,除了在不方便听微信语音时点个长按识别或者开车时指挥一下XX地图之外,宁愿死守着手指与键盘老一套的交互方式。这究竟是怎么一回事?
语音交互真有这么厉害?
首先我们来看看,语音交互已经走到哪一地步了。
简单来说,语音交互的关键在于两点,一个是语音识别准确率,另一个则是自然语言处理(你经常能看到的NLP)水平。
语音识别将声音转换成波形文件,对声音进行分帧,再从每一帧中提取包含内容信息的多维向量,这一过程就是声学特征提取。提取特征后再将特征组成音素(单词发音的构成,类似于音标,对应汉语则是声母、韵母)。
而有了音素之后,还需要大量语音数据,对应声纹帧和声学特征利用隐马尔可夫模型、Viterbi算法考虑语音与音素的匹配程度、音素之间转换的概率再加上可以解决多音字问题的语音模型,最终形成一个有足够多节点的网络,识别语音时,只需要找到与声音最匹配的路径就好。
计算能力加强、数据量增大,加上深层学习神经网络将计算机视觉应用于语音波形文件之上,语音识别准确率提高几乎是必然的结果。方言、多音字、语音语速个性化这些问题也正在被一一解决中,例如科大讯飞就表示自己可以利用“基于说话人编码和i-vector的深度神经网络自适应算法,以完全不需要人工干预的方式率先在产品中解决了深度学习框架下的说话人自适应问题。”
而NLP则是一个大话题,和语音交互有关的自然是其中语音处理的部分。从理解到生成反馈,其中涉及到大量有关机器学习的复杂问题,这里就不再赘述。我们只需要知道的是,计算能力、数据量、机器学习三个关键指标的发展,已经极大的提高了语音交互的应用性。吴恩达曾经说过,“人们很快会习惯与机器流畅交流的时光,而忘记以前是如何与机器交互的”,如此可以看出,语音交互似乎已经可以代替如今人机交互中的很大一部分了。
语音交互应用范畴:先让速记下岗
语音交互已经在我们生活中的哪些场景开始应用了?目前来说,与其称之为“彻底的改变交互”,不如说“更多的代替人工”。最典型的例子就是在很多发布会上看到语音识别速记,其准确率已经和人工齐平甚至超过了人工。
语料库累积不够、识别能力和理解能力有限,在这些大前提下,语音交互应用于有特定场景的服务系统似乎更为实际。例如客服、人工服务窗口等等,从其业务范畴制定语音交互系统或许可行,如同线上智能客服。
除了单纯的识别文字,语音交互更大的价值在于把声音中更丰富的内容传递给机器。旋律、语种、情绪还有最关键的声纹,这些都是文字中无法体现的。如何挖掘这些信息的价值,语音这个不算新鲜的交互方式的沟通密度达到一个新的维度,这些才是语音交互的革命性所在。相比之下,让Siri帮你找个加油站,已经是语音交互最最浅层的应用了。
可我还是觉得和Siri说话好尴尬
那么回到最初的问题,面对语音交互我们为什么开不了口?
这一点和我们与整个物理世界交互的方式有关。从原始人时期开始,我们想挪动石块就会伸手,想召唤朋友就呼喊。从一开始,我们和物体的交互方式就是动手,而和生物的交互方式则是语言。当我们和非人甚至非生命体用语音交互时,我们心中常常默认TA是有“人性”的,比如宠物、植物等等,古代艳情小说里也常写到,书生日夜与画中美人交谈,最终画成精幻做人形。
后来进入了机器时代,虽然机械已经能代替我们做很多事,可我们和机械的交互依旧是物理式的。包括如今通过终端操作移动互联网,虽然只是手指,但还是物理层面。甚至到传说中吹气指挥行动的呼吸控制型轮椅,但凡不是语音交互,人们的接受度都不低。
而互联网的出现更是把人与生命体之间原有的方式极大的改变了,不用说话,以物理方式(打字)也能进行交流,甚至给彼此留出了更多斟词酌句的时间,说错话了可以撤回,还能用表情包斗图呢。看看大家是在饭局上说的话多还是微信群里斗的图多,很快我们就能知道计算机对生物之间交互的方式改变了多少。
而到了语音交互,则是彻底改变了我们和物理世界的交互模式,更考验着我们对于“人性”的固执认识。尤其是在被给予了很多希望的物联网领域,想象一下,如果你回到家不是用手去摸开关,而是在空荡荡的房间里说一声“开灯”,这画面是不是有点诡异?同理,做语音助手的都喜欢给自己起个人一样的名字,目的就是为了增强人性、消除用户的不适感。
对于人类这种被计算机调教的越来越依赖物理交互的生物来说,将语音交互带入生活简直是在开生活习惯的倒车,忍不住要说一声好别扭。
或许在语音交互普及方面,我们除了要克服技术方面的难题,更多的还要克服我们自己。
(彩蛋:打开百度图片,在搜索框中输入siri,不要点搜索,看看默认结果第一个是什么,回来告诉我你怕不怕)
登录后发表你的伟大言论!
立即登录 注册