Tuesday, May 25, 2010

贝叶斯网络的发展及理论应用

1 引言

在人工智能领域,贝叶斯方法是一种非常有代表性的不确定性知识表示和推理方法。在贝叶斯方法中,由于全联合概率公式假设所有变量之间都具有条件依赖性,其计算复杂,使用中采用朴素贝叶斯分类器的简化形式。但是朴素分类器假设所有变量之间都是条件独立的,于实际不是很相符。而贝叶斯网络充分利用了变量之间的独立性和条件独立性关系,大大减小了为定义全联合概率分布所需要指定的概率数目,同时也避免了朴素贝叶斯分类器要求所有变量都是独立的不足,是一个很好的折中办法。作为一种特殊的建模方式,贝叶斯网络在各领域的应用也越来越广泛。

2 贝叶斯网络

2.1 贝叶斯网络的基本概念

贝叶斯网络是一种概率网络,用于表示变量之间的依赖关系,带有概率分布标注的有向无环图,能够图形化地表示一组变量间的联合概率分布函数。

贝叶斯网络模型结构由随机变量(可以是离散或连续)集组成的网络节点,具有因果关系的网络节点对的有向边集合和用条件概率分布表示节点之间的影响等组成。其中节点表示了随机变量,是对过程、事件、状态等实体的某些特征的描述;边则表示变量间的概率依赖关系。起因的假设和结果的数据均用节点表示,各变量之间的因果关系由节点之间的有向边表示,一个变量影响到另一个变量的程度用数字编码形式描述。因此贝叶斯网络可以将现实世界的各种状态或变量画成各种比例,进行建模。

贝叶斯网络中包括两个重要的独立关系性,其一是节点与他的非后代节点是条件独立的;其二是给定一个节点的马尔可夫覆盖,这个节点和网络中的所有其他节点是条件独立。马尔可夫覆盖在贝叶斯网络的推理中起到非常重要的作用。

2.2 贝叶斯网络的推理

贝叶斯网络的推理有精确推理和近似推理。利用枚举推理的方法可以实现精确推理,任何条件概率都可以通过全联合概率分布表重点某些项相加计算而得到,有如下条件概率公式:
(1)
其中X为查询变量,e为事件,y为未观测变量(即隐变量), α为归一化常数。根据贝叶斯的语义计算公式,可将上述联合概率分布中的项写成条件概率乘积的形式。因此推理结果可通过计算条件概率的乘积并求和。

在实际应用中,对于大规模多连通的贝叶斯网络而言,精确推理是不可操作的。因此需要引入近似推理方法——马尔可夫链蒙特卡罗(MCMC)方法。MCMC算法是最近发展起来的一种简单且行之有效的贝叶斯方法。它的基本思想通过建立一个平稳分布 P(x)的马尔可夫链,得到分布P(x)的分布样本,基于这种样本作出各种统计推理。MCMC算法一般有两种形式,一种是Gibbs抽样,一种是Metropolis-Hastings算法。Brooks,Giuici详细介绍了Metropolis-Hastings算法在网络结构学习中的应用。学习方法的主要思想是利用Metropolis-Hastings算法,构造一个关于贝叶斯网络的马尔可夫链,平稳分布是后验概率分布p(G/D)[1]。

设G是一已知的贝叶斯网络结构,nbd(G)表示由G和那些对G实行一次边的简单操作(删除边、增加边、改变边的方向)得到的图构成的集合,成为G的邻近域。在利用算法构造马尔可夫链时,从G转移到G’的接受概率为


2.3 贝叶斯网络的特点

作为一种图形化的建模工具,贝叶斯网络具有一下几个特性:(1)贝叶斯网络将有向无环图与概率理论有机结合,不但具有正式的概率理论基础,同时也更具有直观的知识表示形式。一方面,它可以将人类所拥有的因果知识直接用有向图自然直观地表示出来,另一方面,也可以将统计数据以条件概率的形式融入模型。这样贝叶斯网络就能将人类的先验知识和后验的数据无缝地结合,克服框架、语义网络等模型仅能表达处理定量信息的弱点和神经网络等方法不够直观的缺点;(2)贝叶斯网络与一般知识表示方法不同的是对问题域的建模。因此当条件或行为等发生变化时,不用对模型进行修正;(3)贝叶斯网络可以图形化表示随机变量间的联合概率,因此能够处理各种不确定性信息;(4)贝叶斯网络中没有确定的输入输出节点,节点之间是相互影响的,任何节点观测值的获得或者对于任何节点的干涉,都会对其他节点造成影响,并可以利用贝叶斯网络推理来进行估计预测;(5)贝叶斯网络的推理是以贝叶斯概率理论为基础的,不需要外界任何推理机制,不但具有理论依据,而且将知识表示与知识推理结合起来,形成统一的整体[2-4]。

3 贝叶斯的结构学习

3.1 贝叶斯网络的结构学习

一般专业根据事物间的关系确定出贝叶斯网络的结构及每个节点的条件概率,不可避免其主观性。在没有专业先验知识的情况下,如何将专家知识和客观观测数据结合起来,共同构建贝叶斯网络,并学习网络结构和参数,是研究人员关注的问题。借鉴统计学领域对多变量联合概率分布近似分解的方法,从多个角度对此问题进行了研究,形成了基于独立性校验和基于评价与搜索的两大类算法[5-6]。贝叶斯网络结构的学习,通过数据的处理,发现事物间因果关系,获得结构模型,也称为因果挖掘。

3.2 贝叶斯网络的结构学习算法的发展及存在问题

20世纪80年代,研究人员根据主观的因果知识构建贝叶斯网络结构.1991年,Cooper和Herskovits提出的K2算法结合了先验信息进行贝叶斯网络结构学习,对推经贝叶斯结构学习算法,起到重要作用,1995年Singh和Valtorta提出一种混合算法,通过对基于独立性校验的算法——PC算法,进行改进来获得节点顺序木然后再用K2算法学习网络结构,此算法在没有先验知识情况下进行贝叶斯结构学习。随后1998年研究者又研究了基于校验变量间的独立性关系来构建网络的基于独立性校验的结构学习算法,即Boundary DAG算法。由结构学习算法的发展过程可见都是以构建因果贝叶斯网络模型为目的,似的研究对象是专家预先处理过的数据集合,算法则是根据这些变量之间的统计特性来推断出他们之间的因果关系。因此也存在一些问题。如马尔可夫等价类问题、前提假设过强问题。

同一马尔可夫等价类表示同样的独立性关系的网络结构,在没有专家先验知识的情下,无法通过观测数据来区分,这样网络中有些边的方向无法确定。

在贝叶斯网络机构学习中,算法的许多假设在实际中无法满足。仅此需要寻求更一般情况下的学习。

后来的一些算法也对上述不足做了一定程度的改进。

4 贝叶斯网络的理论应用

4.1 基于贝叶斯的遗传算法

人工智能的研究中,对于遗传算法所涉及的信号处理、模糊模式识别、多目标优化。模糊优化、可靠性设计等较复杂结构,往往有成千上万个变量,变量之间又以不可预测的方式影响其他的变量,若每一个变量以一般的选择、交叉、变异的遗传操作,难以实现群体内个体结构重组的迭代。基于贝叶斯网络的遗传算法,以贝叶斯网络按概率传播方法,将群体(问题的解)一代一代地以优化和推理,并逐渐比较最优解。保持了遗传算法的优点,而为对不确定性命题进行推理和搜索,从而拓展了遗传算法。

4.2 基于贝叶斯网络的多目标优化问题

多目标优化算法的研究目前成为人工智能领域的研究热点,对该探索的技术主要集中在利用进化计算各种各样的求解方法。但是标准的进化机制有普遍的缺点:(1)必须设置参数,如交叉、变异和选择概率,并且需要选择适当的遗传算子,而参数的规范性设置和遗传算子的选择一直没有得到有效地解决。(2)简单的交叉、变异算子有较高的倾向去打破或丢失既不块,而保证积木块的适当成长和混合对进化的成功很重要;(3)将每个候选解看作一个独立的个体,即忽略了候选解之间的相互关系。正是由于这些原因,在多目标进化计算的求解过程中存在着无效进化和计算浪费。

应该注意到,通过一定的选择机制,筛选出候选解集体现着个体之间的本质联系,代表着遗传算法的进化方向和强度,影响着算法的有效性。因此在进化过程中重视这一部分优良解集的整体属性,充分挖掘器信息内涵,以便利用这些信息确保积木合适地积累。研究的方法可以在进化机制上进行创新,寻找能够详细刻画个体之间本质联系的有效工具进行种群学习。

将贝叶斯网络(Bayesian Networks,BN)和种群优良解集联系起来,种群中的寻优信息体现在贝叶斯网络上,网络的结构对应于个体编码之间的相互联系,网络的参数属性对应于个体编码之间的联系程度,根据这种联系程度进行知识推理以实现进化信息的遗传,这种方法称为基于图形模型的进化算法,它是基于概率模型的遗传算法的进一步发展,日益引起人们的重视。对当前贝叶斯网络的度量机制和搜索机制进行分析,理论总是需要为实践服务的,提出并应用一个新的贝叶斯多目标优化算法是一个极有意义的研究方向。

5 结论

随着贝叶斯网络的不断发展,以及其显著的优点,将很快成为人工智能领域不确定性推理和建模的一个有效工具。利用贝叶斯网络对事件或属性间带有不确定性的相互关系进行建模和推理在决策、实现特征融合、进行分类的数据分析领域得到广泛应用。如在医学诊断、故障诊断和预测等方面也都有很多成果。

参考文献

  [1] 史会峰,谷根代.基于MCMC算法贝叶斯网络的学习[J] .华北电力大学学报 .2004,31(4):109~112.
  [2] Dawid A P. Applications of a general propagation algorithm for probalilistic expert systems[J],Statistics and Computing,1992,2(2):25~26 .
  [3] Buntine W L.Operations for learning with graphical models[J] .Journal of Artificial Intelligence Research,1994,2:159~225.
  [4] Laurizen S I,Spiegelhalter D J.Local comoutations with probabilities on graphical structures and their application to expert systems[J],Journal of the Royal Statistical Sosiety,1988,50(2):157~224.
  [5] Chickering D M.Learning Bayesian networks is NP-complete[A] .Learning from Data:AI and Statisitcs V[M] .New York:Springer,1996 .121~130 .
  [6] Chow C K,Liu C N .Approximating discrete probability distributions with dependence trees[J] .IEEE Transaction on Information Theory,1968,IT-14(3):462~467 .

No comments:

Post a Comment