硅谷风投 Andreessen Horowitz (a16z) 的合伙人本·伊万斯 (Benedict Evans) 近日在其博客文章中表示,智能手机的创新时代已经终结,但是现在没人能说语音界面或人工智能就一定会成为下一个“爆发点”。他还在文章中详细分析了语音界面目前面临的发展挑战。
iPhone 6 的设计已经延续了三年 (之前的每一代 iPhone 设计苹果只使用两年),今年秋季苹果预计会发布新一代的 iPhone,但是也不过就是“又一部” iPhone 而已。想必到时候我们又会听到许多诸如“苹果创新已死”的声音。安卓也是如此,最新发布的 O 版本里大的新特性不多,外界仍旧是那个论调——“创新已死”。
实际上,智能手机的创新时代已经结束了。在 a16z,我们将其总结为新技术产品的 S 型曲线 (如图)。90 年代的个人电脑产品就经历了同样的 S 曲线,PC 现在的发展几乎停滞 (虎嗅编辑: 看一看联想电脑就知道了),智能手机也正在或即将面临同样的状况。虽然智能手机的摄像头性能会变得更强,芯片速度会变得更快,但是关于智能手机的战争已经结束了。
也就是说,没有人会再问“谁会赢得这场战争”之类的问题。苹果和谷歌赢了,胜局已定,就像 1995 年个人电脑操作系统领域的微软一样。现在面临的问题是,全球有 25 亿智能手机用户,并且会在几年内发展到 50 亿的规模,下一个 S 型曲线会是那一种技术产品?会是语音助手吗?不太可能。虽然亚马逊可能已经买出了上千万台 Echo,谷歌也推出了 Google Home 产品,但是语音助手仍旧有太多问题要解决。
我们还是先看看为什么最近一段时间关于语音助手的讨论比较多吧。首先是语音识别技术的效果已经和过去大不一样了,从 2012 至今,语音识别技术的错误率已经从 33% 降到了 5% 以下。虽然 5% 仍旧不是一个足够好的效果,但是已经开始逐渐被用户接受了。另外,从美国市场来看,四大科技公司 (Google、Apple、Facebook 和 Amazon) 里面,后两家公司是没有自己硬件平台的。所以亚马逊会力推 Echo,Facebook 也在极力推动人工智能方面的产品。
那么当下的语音助手产品是否会出现 S 型曲线的爆发呢?不太可能。
如果仔细来看目前语音技术产品的应用,不难发现从本质上,它仍旧只是作为一个语音命令界面来使用,也就是将语音转化为文字 (而且这个过程的识别率仍有待提高),实际的系统命令操作,依然是旧有的模式。打个比方,就是用户可以用语音输入来填一个对话框,但是解决方案的本质仍旧在对话框后面,语音只是一个尚不完善的界面。
但是现在的某些语音助手产品却在做一件有误导的事:科技公司让用户觉得只要对着语音助手说话,它们就能听懂,做到一切。
实际情况是,在语音界面背后真正的“对话框”,只有那么几十种 (最多 50 种),也就是说,即便用户的自然语言命令能够成功被识别,“对话框”能够完成的操作也是很有限的。当然,有人也会说科技公司会不断增加语音助手能够做的事情,或许未来能够增加到上百种。但是站在用户的角度,使用语音助手就面临这样一个“窘境”:我需要先知道它能做什么,否则我对着它说了半天也是白说——这还是在能够成功识别的情况下。
从用户体验的角度来讲,这增加了使用这种产品的难度,不但没有获得方便,而且还增加了负担。考虑到目前的语音助手产品大多时候只能够做一些简单的操作,那么用户实际上没有必要绕这么一圈,只需要点几下屏幕就可以了。触控操作也是大多数用户已经建立起使用习惯的方式。
我们不妨将语音助手和智能手表的使用情景做一下比较。这两款产品能够做的事情,你的智能手机都可以完成,但是这两款产品在特定情景下让用户操作更便捷 (只要你能想起来使用它们),比如设置闹钟或者汇率换算。但是只有在用户清楚了解这些特定情景的情况下,便捷性才会体现出来。否则的话,用户最便捷的选择其实是掏出手机,点几下屏幕。
语音助手产品在使用场景不多的时候,无法确保有效的使用结果,这增加了用户的成本。而且,语音识别率仍旧有待提高。不过,对于一些特定且简单的用户操作来说 (比如开关灯) ,像亚马逊 Echo 这样的产品的确更有优势。也就是说,虽然从理论上来讲语音助手能做的事情很多,但其实只有一两个功能才是最适合这种产品的。
有些人希望把语音技术做成下一个爆发性的产品,可以理解。尤其是考虑到智能手机正在逐渐向 PC 靠拢。但是语音技术是否能够迎来 S 型曲线的爆发,非常令人怀疑。
登录后发表你的伟大言论!
立即登录 注册