语音交互（VUI）将如何影响人机交互？

boyiworld · 发表于 2017-12-16 15:14:29

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

x

现如今，
智能音箱，自然语音理解（NLP）, 人机对话，语音识别，人工智能等热门词汇每天都在以各种不同的方式冲击我们的视线，
语音交互听起来很美好，”handsfree interaction“, 哇
好高大上，想象一下说话之间就直接控制了所有的家用电器，实现那些我们现在还不能触及的场景，但是智能音箱也出来有几年了，从低端到高端的都有，真正影响我们生活方式的应用却很少，也有些人形容它是一个“玩具”，那语音交互究竟会如何影响人机交互以至于我们的生活方式？其表现形式将会是以智能音箱为重点吗？
带着这些疑问，我们梳理一下人机交互的发展过程，期望能为我们的答案提供一些线索。

人机交互的发展经历了很长一段历史，
在此不再回顾，网上也可以找到很多资源，这里也不以过去的趋势推断后面人机交互的发展方式，这就像炒股票，我也不擅长。但是有一点是肯定的，那就是人机交互的每次革新，都对我们的生活方式产生了深远影响。首先我们分析一下现代计算机系统人机交互的主要环节以及每个环节具体的演进和它所产生的影响。

一，
当前人机交互的主要方式

要提到当前人机交互的主要方式，所有人都会想到鼠标和键盘这两个每天伴随我们的标准设备，但是很少人能了解其发展历程和所带来的影响，当然人机交互目前是很丰富的，不局限于前面两者，
如手势识别，体感识别，脑电波等一大堆黑科技，但是没有产生大规模的应用之前我们不作为主要交互方式讨论，下面我们梳理一下鼠键这对难兄难弟的发展历程，
为了缩小讨论范畴，避免牛角尖问题，我们仅仅局限在计算机的鼠标键盘，也就是（computer system mouse and keyboard）。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image001.jpg

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg

图 1. 鼠标和keyboard

1, 鼠标

用鼠标来控制计算机系统的第一次公开演示是在1968年（距今约50年），
按照维基百科的定义，计算机鼠标是一个指示点的设备，用于检测相对于一个表面的二维运动（x-y 平面），这样的运动被变换到显示器上用于对GUI界面实现平滑控制。请注意这个控制是平滑的，也就是我们常说的指哪儿打哪儿，不能指歪了。在接下来的讨论中我们先缅怀一下为鼠标的发展做出巨大贡献的科学家
道格拉斯.恩格尔伯特（Douglas Engelbart ），

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image003.jpg

道格拉斯.恩格尔伯特及其发明的第一个鼠标原型（1968）

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image004.png

道格拉斯.恩格尔伯特演示其操作。左边还有5个并排的按键（快捷键），主要目的是减少对中间键盘的使用。

根据恩格尔伯特先生的笔记，发明鼠标的灵感来自于1963年参加一次图形学的会议，大家都在热火朝天的聊天，由于他不善言辞，实在无聊就自己和自己讲话，并想起了高中时候看到的一个让他很着迷的求积仪，可以利用这个原理来指示鼠标在X-Y方向的移动。那么为什么当时要发明鼠标呢？没有鼠标对于当时的计算机工作者来说有什么样的痛点呢？没有鼠标我们如何告诉计算机我接下来的指令将要发生在什么地方呢？或者我要选择屏幕上的什么地方进行操作呢？

要回答这个问题，我们必须回顾一下在鼠标出现之前主要的人机交互方式是什么，没错，就是下面这张图： light pen detector光笔检测器(1955),

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image005.jpg

光笔检测器主要的工作原理是使用者将笔放在想要输入信息的位置（屏幕的某个地方）， CRT显示器将计算机要显示的图像按照每个像素的值逐个扫描（显示）在屏幕上，因此就会导致在屏幕上的每个像素的亮度出现一定时序的变化，当然CRT显示估计要做一定的处理以区分相同亮度规律的像素位置，使用者将笔放在想要输入信息的位置，如图中的女士的操作，光笔检测器会自动探测这个点的像素的变化时序并将该时序传回计算机，计算机通过比对该时序以判断使用者所指示的位置，看完这个原理不得不叹服这个在当时绝对算是高科技了，因此不是一般的人能够使用得起计算机的。

但是就如恩格尔伯特先生所说，这样的使用方式非常大的一个痛点是使用者必须要用一只手举着这个光笔，同时另外一只手还得在键盘上敲击你所需要输入的内容，想想这场景就觉得有点难受，难道当时就只有恩格尔伯特先生觉得麻烦？但即使是这样不方便，光笔检测的输入在1980年代的电脑上还有出现，距离鼠标第一次公开演示也有12年之久了。

值得注意的是恩格尔伯特先生在其专利中描述鼠标相比光笔检测器来说可以提供一种"hands free"的交互方式，可见举着一个笔而且同时去输入是非常不“free”的，而且“hands free”的理念不是现在才有的概念，而是很早就有的想法。

因此回顾完鼠标的出现及其解决的痛点，可以总结鼠标的作用主要是操作者告诉计算机将要在什么地方输入指令, 和今天的操作方式没有太大的区别。

2， keyboard

计算机键盘从最早的电报机到现在变化都不大，主要的作用是给计算机输入文本或者数字，
那么有没有键盘所表达不了的想要输入给计算机的信息呢？
比如麦克风，摄像头还有其他一些东西。

虽然鼠标在1986年就已经公开演示了，但是真正意义上把鼠标集成在计算机系统的是1973年Xerox 推出的Alto系统，
该计算机系统具备一个3按钮的鼠标，相比恩格尔伯特推出的鼠标按钮的数量增加了。这个在当时绝对算是一个黑科技，这台计算机具备了一个基于GUI（图形用户接口）的操作系统，okay, 这里出现了我们的第三个主角GUI，到今天大家都非常熟悉GUI，但是在Alto出现之前我们人是如何确定计算机是否按照我们输入进行了对应的操作，并且接下来我们还有哪些操作可以做呢？那我们就来追溯一下GUI是如何诞生的。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image006.jpg

Xerox Alto 1973。

3 GUI 图形用户接口

有了GUI人机交互才能形成一个闭合的环路，那个时候计算机还没有标配音箱，计算机不能靠今天的智能音箱一样通过嘴巴告诉我们它接收到的以及它想要告诉我们的。但即使是今天的智能音箱也不能完全准确的表达计算机想要表达的意思，比如告诉你“张三很美”， okay, 张三如何的美法，你自己去猜吧，或者告诉你“张三就像凤姐一样美”，
是的，认识凤姐的人就知道张三怎么美。但是总有个人没有见过凤姐吧，“凤姐怎么美？长什么样？”，于是乎，没有见过凤姐的欧美科学家很直接，“你为啥不在屏幕上画一个张三呢？”，可是在1963年之前计算机是不具备当前形式的画图功能，如果要让计算机画一个矩形或者其他形状，你必须用命令行的方式告诉计算机在什么地方画一个形状，比如你要用计算机画一个张三的画像，你可能需要记住所有的命令行同时按照一定的顺序输入计算机，当你在计算机里面输入100条命令之后，画出来的很可能是“蒙娜丽莎在微笑”，
怎么看都不像凤姐，于是乎，科学家们希望能够直观的去调整所画出来的图形，就像你在真正的使用画图板画画一样，
开创这一伟大工作的也是一位伟大的科学家萨瑟兰，当年他还在读博士，研究的课题是用计算机画图，下面这张图片来自于他的博士论文。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image007.png

Ivan E. Sutherland（萨瑟兰）
论文中绘图板的演示，图中作者前面的黑色的按钮主要是提供特别的绘图函数，桌面上方的4个旋钮主要控制整个屏幕的尺寸和位置，作者手中所持为光笔检测器，主要是指示接下来的绘图函数将要从什么地方开始绘制。

萨瑟兰用图中的设备绘制了一个六边形矩阵，通过面前的按钮和开关给计算机发出指令画出特定的图形，并用光笔指示将要添加图形的位置，比如要在某个地方添加一个线段，然后通过旋钮旋转和缩放所添加的部分，以此来完成向计算机输入图形的目的，
重要的是你在每一个操作环节都能够立刻直观地看到每一步操作的效果或者反馈。
按照Sutherland
博士论文的说法，如果当时人们要让计算机绘制某个图形，必须要给计算机用文字的形式输入指令来描述这个图形，比如某个机械部件的形状，以及某个电路元件的连接与否。那么这样会带来很多不利的问题，我们还是以“张三很美”为例来进行说明，比如我们要让计算机绘制张三的容貌，我们得要告诉计算机张三的鼻子脸有多长，他的鼻子长在脸的什么地方，眼睛有多大，眼间距有多大，，，等等，
那么最后可能还需要经过反复的修改才能够画出一个类似张三的图像。这种输入指令的交互方式有点类似于今天程序工作者们使用的CLI(command line interaction),在使用初期需要花一定的时间记住每个指令的作用及其对应的参数，一旦你会熟悉的使用之后工作效率就会很高，前提是你得花很多时间去熟悉每个命令，而且即使你记住了所有的命令也不一定能够很好的画出张三的图像，因为命令本身没有那么多功能。

最后Alan Kay在萨瑟兰和恩格尔伯特的基础上和团队一起开发了带GUI以及鼠标和键盘的真正意义上的计算机 Xerox Alto computer，
并于1973年面世。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image008.jpg

Alan Kay.

我们按照上面的分析，梳理一下时间线

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image009.png

因此到1973年现代人机交互技术才得以成熟，我们现在主要使用的计算机系统交互技术鼠标，键盘和GUI（图形用户接口）才得以完善并大规模使用。有人也许会说目前有很多新的交互技术比如手术识别，体感识别，。。我觉得后面出现的交互技术在一定程度上和这三大组件所提供的功能有重叠，且看后续分析。

通过以上分析我们大致可以得出：

1，
鼠标的主要功能是在在平面上选择计算机GUI的操作对象。

2，
键盘的功能变化不大，主要提供字符和数字的输入。

3， GUI图形用户接口用于为计算机提供一个直观的信息显示，以及将需要操作的对象整理以提供一个接口（一种方式）供使用者操作。

Okay, 这些好像是大家都知道的事情，对于分析后面的语音交互技术又有何意义呢？
之所以目前这些交互技术可以稳定存在这么多年是因为他们提供了目前认为最稳定便捷的告诉计算机系统需要做怎样的操作，以及计算机将操作后的结果反馈给我们。随着计算机技术的发展这几样技术本身的局限也逐渐的暴露了出来，
比如目前的鼠标只能在平面之间进行平滑映射，在3维立体设计的时候就显得不足，对空间方位角俯仰角等模拟就不能做到很好的映射。比如怎样才能操作鼠标让立体空间的视角准确的旋转呢？这些问题我们留给后面解决。下面我们围绕交互的核心将现实中的交互场景做一下梳理，并按照一定分类方法对其进行归类。

二，
人机交互的核心要素

交互无处不在，当你开车打右转灯的时候你是在告诉行人你需要转向了，如果他让你通行了，说明他接收到了你的信息，并给了你正反馈，在这个交互过程中，交互的对象是行人，信息是你要转弯，行人止步让行是给你的反馈。

小时候放电影，村长用广播通知大家今天晚上6点在村东头沙加坝子放《少林寺》，5点半还不到大伙儿都乐呵乐呵的在沙加坝子自己带上板凳开始唠嗑了，等待电影的播放，这就是我们平常的交互，交互的对象是村民，信息是放电影，村民积极的反应就是对村长交互诉求的反馈。这是一个完整的交互过程。

如果你打开电脑用搜索引擎搜索张三的照片，首先在你想要输入的页面输入“张三”并选择搜索内容为“图片”，最后点击“搜索”按钮，
在这个交互过程中你所操作的对象是“搜索图片”，并对其输入信息“张三”，
最后搜索引擎显示出张三的图片给你，这就是他们反馈的方式。
你需要先输入“张三”，在选择“图片”，最后点按键这些是搜索引擎提供商所给定的方式而已，搜索引擎提供商完全可以做一个“图片搜索”的按键，你点击之后直接输入“张三”，然后就反馈给你所需要的图片，而且反馈给你的信息可以不用多张，这只是取决于反馈的形式。

当然还有很多的交互例子，大家可以想想，生活中我们几乎无时无刻不在交互，人机交互，人人交互，等等，但是所有的交互都离不开三个非常重要的因素：
选择交互的对象，根据对象输入交互信息，交互对象对你的交互诉求反馈信息。这三个要素构成了整个的交互过程，这三个要素直接的连接必须打通才能构成一个交互闭环，否则交互将受到很大的局限。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png

常规交互环

根据这个交互环，那我们来分析一下计算机系统的交互过程，以及在这个过程中那个环节是紧耦合（联系紧密），那个环节是松耦合（联系融合程度较低）。

file:///C:/Users/manco/AppData/Local/Temp/msohtmlclip1/01/clip_image011.png

根据前面交互环的分析，我们将常见的几种交互系统和场景分类，环与环之间交叉的程度代表耦合程度，环的大小代表该交互环节的便利程度或者优劣，越大的环代表越有利于交互, 通过对比总结出不同的交互环所具有的特点：

1，
常规的计算机系统交互环：常规计算机交互系统其特征是GUI图形用户接口既显示用户输入信息，又提供鼠标操控的对象，比如菜单项，按钮，信息提示区，滚动条，绘图区等等，鼠标所操控的对象主要由GUI图形用户接口提供，但是GUI又必须兼顾信息显示，美观而且易于人的使用习惯等，因此在一定程度上限制了鼠标所操控对象的数量，想象一下一个网页GUI既提供了网络购物又有社交以及旅游，天气等各种功能, 对的，没错它就是以前的网络黄页。命令行交互的方式不在此列，因为不需要过多依赖GUI图形用户接口，由于GUI图形用户接口提供了鼠标操控交互对象，因此这两者耦合比较紧密，同时键盘所输入的所有信息可以很直观的在GUI图形用户接口显示出来，因此这两者也耦合比较紧密。其缺点是限于GUI图形用户接口所提供的有限交互对象，因此鼠标所能够交互的对象有限，而且用鼠标选择交互对象，用键盘输入交互信息是两个设备分别执行，耦合也不够紧密，
恩格尔伯特当初左边的5个快捷键就是为了减少对键盘的使用。
但是用鼠标选择交互对象有一个很大的优势就是提供了交互对象在GUI图形用户接口的平面位置信息，
这是目前很多交互方式都不能提供的。

2，
普通遥控器交互系统：普通的遥控器或者按键交互系统，往往将选择交互对象和输入交互信息两者结合，比如给空调增加温度，交互对象“温度”和交互信息“增加”，是结合在一个按键上的，相当于计算机系统的热键，或者又比如增加电视机音量，交互对象是“音量”，交互信息/内容是“增加”，这两者也是耦合得非常紧密，因此这种交互方式在选择交互对象到输入信息之间可以非常的迅速，但是这样带来了很大的缺陷，因为遥控器上面的按键数量是有限的，而且不同遥控器的“热键”组合方式不同，这样导致了遥控器所能够提供的功能非常有限，而且人的主观体验很差，因为遇到不同的遥控器，操作者需要花比较长的时间去适应这个遥控器。那么遇到需要较多操控对象的时候怎么办？这个时候就需要更多的按键，比如汽车的控制台，飞机等控制台。因为操控对象数量非常有限，因此操控信息反馈就非常简单，比如我们常见的家用电器的显示屏，而且大多数信息反馈设备不能为操控对象提供便利，仅仅起到信息显示作用，因此这种交互系统存在很多不便利之处，这里面不得不说的一个特例，那就是电视机，因为电视机本身属于普通的遥控器交互系统，因此其缺点也没有太大的区别，
电视机本身有一个巨大的显示屏，对于反馈信息显示而言应该是很有帮助，而且为交互对象选择应该也有类似于GUI图形用户接口的功能，但是我们看到电视目前所能提供的功能非常有限，本来作为家庭娱乐的主角，却慢慢的被手机取代，主要原因还是受限于遥控器能操作的交互对象非常有限，因此一旦交互对象的数量能够大幅提升，电视机所能提供的交互场景将完全超出现在的情况。

3，
智能音箱交互系统：
智能音箱现在处于很火的阶段，那我们根据这个交互环的结构分析其交互的特点，首先语音输入本身就在选择交互对象阶段具有巨大的潜力，其选择交互对象的能力超出了传统交互系统的局限，甚至是到了一个超出我们自身想象力的程度，在假设所有语音识别都正常的情况下，自然情况下我们所需要选择的任何操作对象都可以通过语音告诉计算机系统，其次在选择完交互对象之后可以没有任何阻碍的输入交互的信息，比如我们现在经常问智能音箱的“今天xxx天气怎样？”“开门”“打开空调”，
“订一张明天到北京的机票”等等。虽然在选择交互对象和输入交互信息两个环节上具有极大的优势，但是智能音箱在信息反馈环节却是很弱的，例如你对智能音箱说一句话，你完成了从选择交互对象到输入交互信息的整个环节，你却不知道计算机系统是否收到了你的输入，就连最简单的遥控器系统都可以让你立刻感受到各个操作，而且智能音箱目前云端处理环节所带来的延迟是不确定的，而且普遍比较长，对于这种信息输入的不确定性更近一步增加，导致用户经常会问“它到底听到了我说的什么吗？，不仅如此，而且交互信息反馈环节对于选择交互对象环节几乎是没有帮助的，比如你问智能音箱“张三怎么个美法？”，智能音箱往往回答你一个结束性的回答，对于更进一步的交互没有帮助，比如他告诉你“张三和凤姐一样美”, 而不知道凤姐长相的人可能还想继续追问凤姐哪个地方美，而如果你再说一句“凤姐美在什么地方？”智能音箱很可能会把这句话和上一句话分开为单独的两句话，这就是大家普遍研究的上下文，但笔者认为其实就是信息反馈和选择操控对象两个环节有巨大的脱节，相比于GUI图形用户接口和鼠标而言有巨大的差距。因此智能音箱如果再按照这样的情况发展下去很可能会遇到一个非常严峻的问题，计算机和人互相猜测对方说了啥？最后导致相互都听不懂对方说了啥。

三，语音交互将如何改变人机交互？

通过以上的分析，我们首先梳理了传统计算机系统交互的发展历程，总结了计算机系统人机交互的几个要素，并且提出了交互环的概念，并在此基础上对比了目前主要几种交互方式的优缺点，可以看到没有一种交互方式是完美的，彼此都有各自的优势所在，语音交互目前的主要呈现方式是智能音箱，那么随着智能音箱的发展，智能音箱会是语音交互的终极呈现吗？如果不是，语音交互的最成熟呈现方式会是什么？语音交互会对我们的生活带来哪些影响？

1，
重叠的历史，

语音交互带来的体验确实是前所未有的，如果要和传统计算机交互系统对比，我觉得语音交互还只是处在了1968年恩格尔波特发明了鼠标的时间线附近，也许此时“画图板”的工作已经完成，但是急需Xerox这样的公司以及Alan Kay这样的人做出一个GVUI（图形语音用户接口）的这样一套系统，不仅可以解决交互环节中计算机告诉人“我听到了什么”，“我做了啥操作”以及"接下来你可以说啥"等过程，
而且可以实时纠正交互过程中的“误操作”，
讲交互的内容呈现得更加丰富。

2，
覆盖的功能

从上面的交互环可以发现，智能音箱的交互环是完全可以覆盖传统遥控器/按钮的交互环，也就是说即使只利用目前的语音识别水平也可以完成一个智能遥控器，解放人的双手，并解决掉很多目前遥控器交互的痛点，而且如果将语音交互应用在电视机上，相信能够提供的功能会远远超出目前电视机遥控器所能提供的。

3，
未来？？

这个留给读者自己去想象，最近很流行这样的，xxx限制了我们的想象力。

[原创] 语音交互（VUI）将如何影响人机交互？

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

站长推荐 /2