1.3 马尔视觉理论
马尔首次从信息处理的角度综合了图像处理、心理物理学、神经生理学及临床神经病学等方面已取得的重要研究成果,在1982年出版的Vision一书提出了视觉理论框架,使得机器视觉有了一个比较明确的体系。该框架既全面又精炼,不仅使视觉信息理解研究变得更加严谨,而且是把视觉研究从描述的水平提高到数理科学水平的关键。马尔的理论指出,要先理解视觉的目的,再去理解其中的细节,这对各种信息处理任务来说都是合适的。下面简要介绍马尔视觉理论的基本思想及理论框架。
1.3.1 视觉是一个复杂的信息加工过程
马尔认为视觉是一个远比想象中复杂的信息加工任务,而且其难度常常不为人们所正视。其中的一个主要原因是:虽然用计算机理解图像很难,但对于人类而言这是轻而易举的。
为了理解视觉中的复杂过程,首先要解决两个问题:第一,视觉信息的表达问题;第二,视觉信息的加工问题。这里的“表达”指的是一种能把某些实体或几类信息表示清楚的形式化系统以及说明该系统如何工作的若干规则,其中某些信息是突出和明确的,另一些信息则是隐藏和模糊的。表达对后面信息加工的难易有很大影响。至于视觉信息加工,它要通过对信息的不断处理、分析、理解,来将不同的表达形式进行转换和逐步抽象来达到目的。要完成视觉任务,需要在若干个不同层次和方面进行处理。
近期的生物学研究表明,生物在感知外部世界时,视觉系统可分为两个皮层视觉子系统,即有两条视觉通路,分别为what通路和where通路。其中,what通路传输的信息与外界的目标对象相关,而where通路用来传输对象的空间信息。结合注意机制,what信息可用于驱动自底向上的注意,形成感知和进行目标识别;where信息可以用来驱动自顶向下的注意,处理空间信息。这个研究结果与马尔的观点是一致的,因为按照马尔的计算理论,视觉过程是一种信息处理过程,其主要目的就是从图像中发现存在于外部世界的目标以及目标所在的空间位置。
1.3.2 视觉系统研究的三个层次
马尔从信息处理系统的角度出发,认为对视觉系统的研究应分为三个层次,即计算理论层次、表达与算法层次和硬件实现层次。
计算理论层次主要回答视觉系统的计算目的与计算策略是什么,或视觉系统的输入输出是什么,如何由系统的输入求系统的输出。在这个层次上,视觉系统输入是二维图像,输出则是三维物体的形状、位置和姿态。视觉系统的任务是研究如何建立输入输出之间的关系和约束,如何由灰度图像恢复物体的三维信息。表达与算法层次是要进一步回答如何表达输入和输出信息,如何实现计算理论所对应功能的算法,以及如何由一种表示变换成另一种表示。一般来说,使用不同的表达方式完成同一计算的算法会不同,但表达与算法是比计算理论低一层次的问题,不同的表达与算法,在计算理论层次上可以是相同的。最后一个硬件实现层次解决如何用硬件实现上述表达和算法的问题,比如计算机体系结构和具体的计算装置及其细节。
从信息处理的观点来看,至关重要的是最高层次,即计算理论层次。这是因为构成视觉的计算本质取决于计算问题的解决,而不取决于用来解决计算问题的特殊硬件。计算机或处理器所运算的对象为离散的数字或符号,计算机的存储容量也有一定的限制,因而有了计算理论还必须要考虑算法的实现,为此需要给加工所操作的实体选择一种合适的表达——一方面要选择加工的输入和输出表达,另一方面要确定完成表达转换的算法。表达和算法是相互制约的,其中需要注意三点:①一般情况下可以有许多可选的表达;②算法的确定常取决于所选的表达;③给定一种表达,可有多种完成任务的算法。综上所述,所选的表达和操作的方法有密切联系。一般将用来进行加工的指令和规则称为算法。有了表达和算法,在物理上如何实现算法也是必须要考虑的,特别是随着对实时性的要求越来越高,专用硬件的问题常常被提出。需要注意的是,算法的确定常常依赖于从物理上实现算法的硬件特点,而同一个算法也可由不同的技术途径来实现。
1.3.3 视觉系统处理的三个阶段
马尔从视觉计算理论出发,将系统分为自下而上的三个阶段,即视觉信息从最初的原始数据(二维图像数据)到最终对三维环境的表达经历了三个阶段的处理,如图1-6所示。第一阶段(早期视觉处理阶段)构成所谓“要素图”或“基元图(primary sketch)”,基元图由二维图像中的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成。对第二阶段(中期视觉处理阶段),马尔称为对环境的2.5维描述。2.5维描述是一种形象的说法,即部分的、不完整的三维信息描述,用“计算”的语言来讲,就是物体在以观察者为中心的坐标系下的三维形状与位置。当人眼或相机观察周围的物体时,观察者对三维物体最初是以自身的坐标系来描述的,而且只能观察到物体的一部分(另一部分是物体的背面或被其他物体遮挡的部分)。这样,重建的结果就是以观察者坐标系描述的部分三维物体形状,称为2.5维描述。这一阶段中存在许多并行的相对独立的模块,如立体视觉、运动分析、由亮度恢复表面形状等。事实上,从任何角度去观察物体,观察到的形状都是不完整的。不难设想,人脑中存有同一物体从所有可能的观察角度看到的物体形象,可以用来与所谓的2.5维描述进行匹配与比较,2.5维描述必须进一步处理以得到物体的完整三维描述,而且必须是物体在某一固定坐标系下的描述,这一阶段为第三阶段(后期视觉处理阶段)。
图1-6 视觉系统处理的三个阶段
马尔的视觉计算理论是视觉研究中第一个影响较大的理论,它推动了这一领域的发展,对图像理解和机器视觉的研究具有重要作用。但是马尔的理论也有不足之处,比如下面四个有关整体框架的问题。
1)框架中的输入是被动的,输入什么图像,系统就加工什么图像。
2)框架中的目的不变,总是恢复场景中物体的位置和形状。
3)框架缺乏或者说没有足够重视高层知识的指导作用。
4)整个框架中的信息加工过程基本自下而上,单向流动,没有反馈。
针对上述问题,人们提出了一系列改进思路,具体如图1-7所示。改进后的框架优点如下。
图1-7 改进的马尔框架
1)人类视觉具有主动性,例如会根据需要改变视角以帮助识别。主动视觉指视觉系统可以根据已有的分析结果和视觉任务的当前要求决定相机的运动,以便从合适的位置和视角获取相应的图像。人类的视觉又具有选择性,可以注目凝视(以较高分辨率观察感兴趣的区域),也可以对场景中某些部分视而不见。选择性视觉指视觉系统可以根据已有的分析结果和视觉任务的当前要求决定相机的注意点,以获取相应的图像。考虑到这些因素,改进框架中增加了图像获取模块,该模块会根据视觉目的来选择图像采集方式。
选择性视觉也可看作主动视觉的另一种形式上述的主动视觉是指移动相机以聚焦到当前环境中被关注的特定目标上,而选择性视觉是关注整幅图像中的一个特定区域并动态与之交互以获得解释。尽管这两种形式看起来很相似,但在第一种形式中,主动性主要体现在相机的观察上,在第二种形式中,主动性主要体现在加工层次和策略上。虽然两种形式中都有交互,即视觉都有主动性,但是移动相机是将完整场景全部记录和存储,因而是个较烦琐的过程,而且这样得到的整体解释并不一定全都被使用。而第二种形式中仅收集场景中当前最有用的部分、缩小其范围并增强其质量以获取有用的解释模仿了人类解释场景的过程。
2)人类的视觉可以根据不同的目的进行调整。有目的的视觉任务指视觉系统根据视觉的目的进行决策,例如,是完整、全面地恢复场景中物体的位置和形状等信息,还是仅仅检测场景中是否存在某物体。这里的关键问题是确定任务的目的,因此,在改进的框架中增加了视觉目的框架,可根据理解的不同目的确定进行定性分析还是定量分析,但目前定性分析还比较缺乏完备的数学工具。有目的的视觉动机是仅将需要的信息明确化,例如,无人驾驶汽车的避免碰撞功能就不需要精确的形状描述,只要一些定性的结果即可。这种思路还没有坚实的理论基础,但为生物视觉系统的研究提供了许多实例。此外,与有目的的视觉密切相关的定性视觉需求是对目标或场景的定性描述。它的动机不是去表达定性任务或决策所不需要的几何信息。定性信息的优点是对各种不需要的变换或噪声没有定量信息敏感。定性或不变性允许在不同的复杂层次下方便地解释所观察到的事件。
3)人类可以在仅从图像获取了部分信息的情况下完全解决视觉问题,原因是隐含地使用了各种知识。例如,借助设计资料来获取物体的形状信息,从而帮助解决由单幅图恢复物体整个形状的困难。利用高层知识可解决低层信息不足的问题,所以改进框架中增加了高层知识模块。
4)人类视觉中前后处理之间是有交互作用的,改进框架中也考虑了这一点。