深度学习架构与实践
上QQ阅读APP看书,第一时间看更新

1.3 深度学习的基本内容及理论基础

1.3.1 深度学习的基本内容

深度学习作为机器学习的一个分支,能够通过逐层学习从原始数据中获取到更加抽象的特征,有效改善了过去人工设计的特征的诸多缺点。

2006年,深度学习的概念由Hinton等人首次提出,自此之后,深度学习取得了辉煌的成就,应用广泛,涵盖了语音识别、图像识别、计算机视觉和物体检测等多个领域。

深度学习的出现不仅使计算硬件成本显著降低,同时又大幅度地提升了芯片处理能力。这两个重要的原因使得深度学习广受欢迎,成为如今研究应用中的热门研究对象。

深度学习有比较常见的四种定义,可以帮助我们理解深度学习的主要研究内容和研究方法:

1)深度学习是机器学习技术,非线性的多层信息处理方法被深度学习技术运用于特征提取或变换,从而进行模式分析分类。

2)深度学习是一个机器学习子门类,是用于学习和建模数据间的复杂关系的多级表示。特征的层次结构之所以被称为深度架构,是因为高级特征和概念是根据低级特征定义的。

3)深度学习是一个机器学习的子领域,围绕着学习多级表示,其中高级概念被低级概念定义,同一级别的高级概念之间也会相互影响,有助于彼此定义。此外,观察量可以被很多方式表示,但其中某些表示方式可以使输入中的候选区域的学习更加简单,因此,深度学习的研究始终在尝试创造及学习更好的表示方式。

4)深度学习是机器学习新的研究领域,初衷是想让机器学习能与人工智能更接近。特征的多级表示和抽象作为深度学习的主要学习对象,应该有助于数据,如语音、图像等变得更加有意义[8]。深度学习采用的训练过程是:

①自下而上的无监督学习。此过程作为一个无监督训练的过程,同时也是一个特征学习的过程,采用无标签的数据分层训练每个层的参数。这一过程作为深度学习最鲜明的特点,是和传统方法最不同的一步。

②自顶向下的监督学习。首先进行预训练,在此之后的学习过程中,深度学习在自顶向下地传输误差的同时,还利用已经有标签的数据进行网络区分性训练。虽然第一步的预训练操作与传统神经网络中的随机初始化有一些相同点,但是因为深度学习采用无标签数据训练网络,如此所得到的初值将会更靠近全局最优。也正因为如此,特征学习过程会很大程度上影响整个网络获得的最终结果的优劣程度[5]

深度学习使计算机通过较简单的概念构建复杂的网络系统,图1-4展示了深度学习系统如何通过组合较简单的概念(例如拐角与轮廓,它们反过来由边缘定义)来表示图像中人的概念。

图1-4 深度学习模型的示意图

深度学习模型的典型例子是前馈深度网络或多层感知机(Multilayer Perceptron, MLP),通俗来讲,就是很多个简单的函数组合成为每一组输入到输出的映射,且其中每应用一次不同函数皆会产生新的表示并送给输入[9]

1.3.2 深度学习的理论基础

假设有一个层结构的系统,如果输出等于输入,也就是说在经过系统之后,输出的信息量与输入相比维持不变,这也就要求任意一层的输入的信息量都不可以丢损,对整个系统而言,每一层的输入都能视为原始输入的不同表达形式。深度学习的精髓就在于此。而在其学习过程中,最好的情况是可以不需要人为干预地自动学习对象的特征。若给系统一组语音、文本或图像信息作为输入,输入信息会被系统进行多层处理,为了达到使最终输出等于输入的目标,我们可以修改系统中的参数,最终获得输入信息的层次特征。

需要明确的是,在假设输出严格地与输入相等时,“相等”并非传统意义上的意思,它们不是在绝对形式上的相等,而是在抽象意义上的相等。并且“相等”还包含限制约束的程度,绝对的“相等”在现实中很难达到,在实际实现中我们也可以适当放松标准,输出和输入的差别只需在某个范围内即可[10]