
4.3 基于模糊性的知识表示与学习
4.3.1 知识表示参数的神经网络净化
产生式规则(IF-THEN规则)是知识表示的一种最流行的模式。规则中前件和后件都可使用带参数的模糊集合及相应的运算表示,这些参数通常是可调的,被称为知识参数。因此,可设计一个前馈神经网络,这些知识参数可根据已有的输出或输入数据放到前馈神经网络中净化,即通过训练这个前馈神经网络来取得这些知识参数的最优值,从而使得这种模糊产生式规则表示的知识更为精确合理。前馈神经网络可以采用知识参数作为网络的连接权。不同于一般的前馈神经网络运算,网络的前馈传递运算采用了取大-取小算子。由于取大-取小算子的不可微性,基于误差反馈的梯度下降训练算法中采用了弱微分表示的弱梯度计算。这种知识参数的前馈神经网络净化技术在实验中已充分证实是一种高精度的不确定性知识学习手段。
4.3.2 模糊极值熵理论
不确定性知识表示的一个突出特征就是系统(分类器)的输出不是一个单一的类标而是一个关于类别的分布。这个分布可正则化为一个概率分布,也可以是一个更一般化的可能性分布,其中的每一个分量表示隶属于相应类别的可能性。在可能性分布上可定义各种形式的不确定性,如模糊性和不可指定性等。分类器输出分布的模糊性可反馈用于分类系统的重建,澄清分类器输出分布的模糊熵与分类器泛化能力的关系。这项研究最早始于1992年开始的模糊环境下的回归与分类问题,在1998年建立了模糊示例学习框架,又在2005年提出了有监督学习和半监督学习的模糊极值熵理论。理论的核心结论是分类器输出分布的模糊熵与分类器泛化能力有着密切关系,最优的泛化能力一般对应于极值熵,但究竟对应于极大熵还是极小熵,这取决于归纳偏执和模型的复杂度。这推翻了传统模式识别教科书中的关于决策过程不确定性最小蕴含模型最优的论断,该理论指出在一定的条件下,模糊性大的预测模型比模糊性小的预测模型有更强的泛化能力。
4.3.3 无监督学习的0.5-偏离模型和相应的计算策略
无监督学习或聚类分析是知识表示与学习中最重要的手段之一。特征选取或再生无论在有监督学习还是无监督学习中都扮演着一个十分重要的角色。研究针对基于相似性的聚类方法建立了一种特征权学习技术,其核心贡献是设计了一种建立在样本对集合的评价函数,函数的自变量为需调整的特征权。极小化评价函数可使样本对的相似度发生这样的改变:若一对样本原来的相似度小于0.5,则评价函数极小化后此相似度会变得更小;而若一对样本原来的相似度大于0.5,则评价函数极小化后此相似度会变得更大。这个模型突破了特征子集选取的束缚,通过特征软子空间的演化学习将决策对象的度量值与0.5之间的距离拉大,从而改变决策过程的不确定性,进而清晰化分类学习的决策过程。通过构造一个类似于模糊交叉熵的不确定性度量函数,刻画出样本输出类别的可能性与0.5之间的距离,指出这个距离可通过特征权的学习而优化。该方法解决了特征权学习的一些关键技术问题如收敛性和梯度衰减,阐明了这个学习过程可拉近或拉远对象与0.5之间的距离,从而清晰化决策空间,明显提升聚类效果。