对话式界面40年

2015-09-17 16:04

你可能听说过这样一个故事：1979年，当年轻的乔布斯拜访施乐公司位于Palo Alto的PARC研究中心时，他看到了施乐新发明的的图形用户界面（GUI）。相比起传统的文本界面，程序图标、窗口化、下拉菜单和绚丽的图像效果把乔布斯狠狠震撼了一把。“仿佛蒙在我眼睛上的纱布被掲开了一样。”《乔布斯传》中如此描述乔布斯当时的感受，“我看到了计算机产业的未来。”

乔布斯回到苹果后，他立刻下令研究人员开始着手模仿他刚看到的一切。这一技术在随后上市的Macintosh上首次被应用，并取得了轰动效果，PC历史上的一个新时代也从此展开：图形用户界面开始成为主流的交互方式，无论是第一台Macintosh，还是最近上市的iPhone 6s，都无一例外地采用了图形用户界面。

其实，这个故事还有一个很少有人知道的分支：就在乔布斯拜访PARC的同时，有另一支团队也在研究另外一种完全不同的人机交互方式，这种方式今天被称为“对话式界面”。该团队设想了这样一个世界：在数十年后，当计算机的功能足够强大，用户可以用通用的人类语言与计算机进行交互，帮助解决问题。

在PARC领导自然语言研究团队的科学家叫Ronald Kaplan。Ronald的团队在上世纪70年代就设计了一个系统，能让用户以自然语言与计算机交换信息和订购机票。但对Ronald的团队来说，首当其冲的就是成本问题。“服务每个客户的成本...嗯，我猜大概要上百万美元吧。”Ronald如是说。不仅如此，他们还需要更快、可以更好进行分布式计算、更聪明和更高效的电脑。Ronald认为，按摩尔定律，这或许需要15年的时间才能达到他们的要求。

事实上，他们等了将近40年。

今天的Ronald Kaplan是一家叫做Nuance Communication公司的副总裁。Nuance不仅是苹果Siri和福特专为手机配备的SYNC车载多功能通讯娱乐系统和的技术提供方，其合作伙伴更是涉及几乎每个科技细分领域，但Nuance逐步发现，近几年有越来越多的人开始进入这一领域，无论是Amazon、Google还是微软这样的巨头或是其他创业公司，都在试图改进Ronald和其团队近40年的研究成果：他们相信，总有一天你可以像和你的朋友对话一样和各种设备对话，而这些设备会正确理解和执行你所说的一切。这些新工具将会幕布那些图形化用户界面无法满足用户的安全和愉悦需求，反过来，这些日渐增长的对话式界面交互也使得你与设备之间更加亲密和个人化。

但事实是：语音接口的效果仍然不尽如人意。例如，不少公司已经使用这一技术来做简单的客户服务，但在在实际使用中，我仍然经常需要放下电话用虚拟键盘输入生日信息等内容（可能和我的广东腔英语有关），至于Siri，如果是一些诸如问路之类的简单问题倒是可以对付，但如果你的问题逻辑太复杂把Siri逼急了，Siri也会无耻的给告诉你，外事不决问Google然后丢一个页面给你让你自己看去。像Tony Stark一样和人工智能JAVIS那样对话的场景，也只能出现在电影里。

不过，这一切总在朝好的方向发展。今年6月初，SoundHound的首席执行官Keyvan Mohajer对外展示了一个从其2005年初创之时就一直在打磨作品。在此之前，我们对SoundHound的理解是一个流行音乐识别应用，如果你对着手机哼上几句歌，SoundHound就会识别这首歌曲的名称。但这款叫“猎犬”（Hound）的原型则更进一步：一开始，Keyvan问的是一些简单的问题，例如现在在柏林的时间、日本的人口等。突然Keyvan冒出一句：“它们之间相距多远？”根据之前的问题，“猎犬”对此作出了正确的回答：“大约5536英里”。

在接下来的测试中，“猎犬”成功回答了诸如计算按揭贷款的数额以及“告诉我首都有Space Neddle这个建筑物的那个国家有多少人口？”之类的问题，对于Keyvan一口气连珠炮发问的多个问题，一般人或许都需要想一阵才能反映过来，但对于“猎犬”来说同样不在话下。就其表现而言，仍然处于内侧阶段的“猎犬”或许是迄今为止速度最快、功能最全的语音识别系统。猎犬的牛逼之处在于可以同时进行语音识别和自然语言处理，但对其他类似系统而言，要迎头赶上或许只是时间问题。

对于上个世纪七十年代的Ronald来说，他们所头疼的“门槛技术”现在已经是任何一家语音识别公司都能轻易掌握的东西。今天的对话式界面技术是一个经典的跨界融合：技术计算能力的增长、语音识别、移动通信、云计算和神经网络都在同一阶段达到一个临界点，最终使得这一领域的研究者开发出足够好、足够便宜和无处不在的实时对话界面。而这种交互方式的发展，也进一步推进了那些没有屏幕的联网设备（例如路由器或者烟雾报警器之类），毕竟对于这些设备，我们需要的是一种不需要按钮、菜单和图标的自然交互方式。

而在另一方面，由乔布斯发扬光大的GUI世界正处于一个令人尴尬的瓶颈期。图形用户界面要求每一个动作和功能都有一个图标或者菜单选项，但即便像我们每天都要使用的Photoshop或者Excel，你所熟悉的可能也就只有最常用的几个操作，真要完全掌握所有功能足以把大多数人逼疯。Ronald也承认，现在的图文用户界面已经几乎达到了天花板。

如果想要再进一步，你可能不得不让虚拟助理来帮你解决问题——不管是iOS 9、Android 6、Windows 10还是Siri、Google Now和Cortana，巨头们都在通过虚拟助理的方式帮助用户提高效率。哦对了，另外一家不做操作系统但具有十亿级用户的巨头Facebook也有智能助手Ask M。

对于这些虚拟助理而言，他们的出现并不是要替代触摸屏或者图形用户界面，但技术的进步会在很大程度上绕开GUI，例如不少00后已经懒得打字而直接用麦克风输入文本，而对于像老年人或者部分残障人士（例如视力障碍）来说至关重要。

这是另一个创业故事：2010年，24岁的有志青年Maury被医生告知，他的视力在衰减并最终会失明。Maury意识到，他不得不考虑如何在看不到东西的情况下使用电脑，而这也是美国2000多万视力障碍人士会遇到的问题。现有的解决方案是一种叫做“Screen Reader”（屏幕阅读器）的技术，已经有30年的历史，但随着数字化环境越来越复杂（很大程度是Android的错），这一技术已经跟不上时代。

发现了这一需求，Maury开始创办了一家叫做Conversant Labs的公司，针对视力障碍人士开发能够用语音来操作的应用和服务。Conversant的第一款产品叫做SayShopping，可以帮助视力障碍人士通过语音在Target上买东西，在下一步，Maury还计划在今年年底前完成一个能为iOS应用添加对话互动的框架，便于开发者开发针对视力障碍人士的产品。

另一个例子是Amazon的Echo。在刚面世时，有人这么评价Echo：这款产品希望同时扮演无线音乐播放器和虚拟助手两种角色，但不管哪个角色都表现一般。但随着使用时间的增加，Echo的自动学习能力开始显现出效果，逐步适应使用者的说话速度、模式和偏好，更符合用户的需求。

这也是对话式界面和图形用户界面的不同：你的使用时间越多，它就会和你更亲近。毫无疑问，开发虚拟助手的巨头们也注意到了这一点，例如微软就给其虚拟助手Cortana（中国官方名称“小娜”）一个邻家女孩般的个性形象。

不管是苹果、Google、微软、Nuance或者其他这一领域的创业公司，他们的结论都是一致的：基于语音接口的个人代理的出现可以了解你的喜好、你的日常行为、你的表达方式、你的习惯和进展程度，从而帮助你更高效地去使用各种App和设备。这就好比我们生活中的水和空气，不引人注意又无处不在，一旦你已经习惯，它就会成为你生活中不可或缺的一部分，再也无法分开。

发表评论