感知 | 机器之心

简介

感知是获取、解释、选择和组织感官信息的过程。

感知假定感觉 sensation，各种类型的传感器将某种类型的简单信号转换为系统的数据。把数据放在一起，感知机制perception mechanism使得这些数据变得有意义。

感知可以被看作是一种特殊类型的分类(或分类，模式识别)，其中输入是感官数据，输出是分类判断和概念关系。

任务的困难来自于多个抽象层次，其中数据项之间的关系是多对多、不确定和随时间变化的。

准确地说，我们从来没有“看到事物的本质”，而智能系统的感知过程通常(也应该是)受到与信号本身相关的内部和外部因素的影响。此外，感知不是由输入驱动的纯被动过程。

在人工智能领域，对感知的研究主要集中在人类感知的再现上，尤其是对听觉和视觉信号的感知。

听觉

Speech recognition, 语音识别是一种能够感知和理解口语的系统的前端，用于语音指令界面和语音翻译。

语音识别（speech recognition；语音辨识／言语辨别）技术，也被称为自动语音识别（英语：Automatic Speech Recognition, ASR）、电脑语音识别（英语：Computer Speech Recognition）或是语音转文本识别（英语：Speech To Text, STT），其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

视觉

视觉开始于从物体表面反射到眼睛的大量光的测量。然后，分析将分阶段进行，每一个阶段都会产生更多有用的信息表示。

计算视觉研究通常遵循三个主要阶段:

早期表示可以捕获诸如图像中显著强度变化或边缘的位置、对比度和清晰度等信息。这种变化对应于物理特征，如物体边界、纹理轮廓和物体表面上的标记、阴影边界和高亮。在动态变化场景的情况下，早期表示也可以描述图像强度变化的运动方向和速度。
中间表示从观看者的角度描述关于物体表面的三维（3D）形状的信息，例如小表面区域的方向或从眼睛到表面点的距离。这样的表示也可以描述表面特征在三个维度上的运动。
物体的更高水平表示基于物体或在世界上的固定位置相对于坐标系，描述它们的三维形状、形状和方向。诸如物体识别、物体操纵和导航的任务可以从世界上物体的3D布局的中间或更高层表示操作。

对于相对简单的模式识别问题，神经网络通常被用来通过学习过程直接将输入映射到输出。近年来，层次化学习方法在各种问题上取得了显著的进展，如推荐系统，文本挖掘等。

视觉不是一个纯粹的输入过程。眼球运动对人的视觉感知有重要的影响。一个主动的视觉系统是一个能够通过改变它的视角而不是被动地观察它，并且通过对图像序列进行操作而不是在单个框架上操作来与环境交互的系统。此外，还有一些关于使用 eye-gaze 来进行操控界面。

高层次的感知

“更高层次的感知”，指的是给定的输入数据是该如何分类。在低级感知中，处理大部分是“自底向上”的，即，输出或多或少是输入的函数，在较高层次的感知中涉及到更多的因素。

“高层次感知”最重要的特性之一是它非常灵活。根据上下文和感知者的状态，给定的输入数据集可以以多种不同的方式被感知。由于这种灵活性，将感知视为一个与固定的相关联的过程是错误的。

【URL:https://cis.temple.edu/~wangp/3203-AI/Lecture/IO-2.htm】

发展历史

语音感知：

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间规整Dynamic Time Warp技术。

进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM）的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。

DARPA(Defense Advanced Research Projects Agency）是在70年代由美国国防部远景研究计划局资助的一项10年计划，其旨在支持语言理解系统的研究开发工作。

到了80年代，美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。

到了90年代，这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。

日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标，虽然没能实现预期目标，但是有关语音识别技术的研究有了大幅度的加强和进展。

1987年起，日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。

语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

【来源：WIKI, URL:https://en.wikipedia.org/wiki/Speech_recognition】

计算机视觉感知：

计算机视觉领域的突出特点是其多样性与不完善性。

这一领域的先驱可追溯到更早的时候，但是直到20世纪70年代后期，当计算机的性能提高到足以处理诸如图像这样的大规模数据时，计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要，因而何谓“计算机视觉问题”始终没有得到正式定义，很自然地，“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此，人们已开始掌握部分解决具体计算机视觉任务的方法，可惜这些方法通常都仅适用于一群狭隘的目标（如：脸孔、指纹、文字等），因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分（例如医学图像的处理，工业制造中的质量控制与测量）。在计算机视觉的大多数实际应用当中，计算机被预设为解决特定的任务，然而基于机器学习的方法正日渐普及，一旦机器学习的研究进一步发展，未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是：如何让系统具备“计划”和“决策能力”？从而使之完成特定的技术动作（例如：移动一个机器人通过某种特定环境）。这一问题便与计算机视觉问题息息相关。在这里，计算机视觉系统作为一个感知器，为决策提供信息。另外一些研究方向包括模式识别和机器学习（这也隶属于人工智能领域，但与计算机视觉有着重要联系），也由此，计算机视觉时常被看作人工智能与计算机科学的一个分支。

【来源：WIKI, URL:https://zh.wikipedia.org/wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89】

主要事件

年份	事件	相关论文/Reference
1958	Rosenblatt, F.提出The perceptron，首个有关感知机的成果	Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6), 386.
1961	Rosenblatt, F对感知机进一步证明	Rosenblatt, F. (1961). Principles of neurodynamics. perceptrons and the theory of brain mechanisms (No. VG-1196-G-8). CORNELL AERONAUTICAL LAB INC BUFFALO NY.
1988	Lee, K. F.使用HMM进行语音识别	Lee, K. F. (1988). Automatic speech recognition: the development of the SPHINX system (Vol. 62). Springer Science & Business Media.
1998	Bradski, G. R.提出用于感知用户界面的计算机视觉人脸跟踪	Bradski, G. R. (1998). Computer vision face tracking for use in a perceptual user interface.
2010	Vedaldi, A., & Fulkerson, B提出VLFeat:一个开放和可移植的计算机视觉算法库	Vedaldi, A., & Fulkerson, B. (2010, October). VLFeat: An open and portable library of computer vision algorithms. In Proceedings of the 18th ACM international conference on Multimedia (pp. 1469-1472). ACM.
2012	利用神经网络进行语音识别	Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.

发展分析

瓶颈

基于语音识别的瓶颈

语音识别大多都依赖数据库，并不是都来自于自然数据。
语音识别目前很难获取到语义信息和文化背景信息，这些都是目前存在的挑战。

和语音识别与图像识别不一样，语义理解处在一种发展的状态。我们看演示的时候时常能看到一个机器人或智能型产品与人进行流畅的交流。达到这种状态有两种可能：一种是作弊，后面放了个人，属于人工的人工智能；另一种是对话被限定在特定的场景下，比如在汽车里打电话，让地图导航等。语义理解的难度与所要处理的概念数有关，当要处理的概念数在几千个以下的时候，针对特定场景按照基于规则的方式还是可能搞定的，会做得比较流畅。但是一旦这个范围扩大到整个社会生活，那么最多就是Google Now和Siri那个样子。与这点密切相关的应用，一个是各种智能语音助手在对话时的智能程度，另一个则是翻译。

未来发展方向

除了传统的视觉，听觉的计算之外，未来研究人员还会进一步去实现更高层次的感知计算，如心情，性格等。这些更加抽象的数据需要更多研究人员的努力。

Contributor: Ruiying Cai

简介