论文部分内容阅读
贝叶斯网络是研究不确定性问题的重要方法之一。它基于概率和统计理论,具有坚实的数学基础。由于具有自然的表达方式、强大的推理能力和方便的决策机制等许多优点,贝叶斯网络在许多领域得到了广泛的应用。本文在贝叶斯网络基础理论框架的基础上,主要研究了以下几个方面的内容:基于信息几何理论的贝叶斯网络研究、朴素贝叶斯分类器的提升、规则方法与贝叶斯网络结合文本信息抽取研究、层次贝叶斯网络文本分类器。本文的主要贡献如下:(1)分析了贝叶斯网络这一特殊类型的概率分布簇所对应的统计流形的特点:由于贝叶斯网络引入了条件独立性,从而降低了流形的维度,简化了统计流形上的Riemman度量矩阵。提出了基于信息几何理论的不完备数据条件下贝叶斯网络的参数学习算法:贝叶斯网络的自然梯度学习算法(NGBN)。推导出了离散型、连续型、条件Gaussian网、父节点连续而子节点离散等不同的贝叶斯网络类型其自然梯度的计算公式。通过理论分析和试验,说明了自然梯度学习比欧式梯度学习更合理,更快速。(2)提出了一种通过在原有属性的基础上重新构造属性集,从而提高属性间的条件独立性的方式来提高朴素贝叶斯分类器性能的新方法:基于Fisher分构建朴素贝叶斯分类器(FS-NBC)。新属性集的分量为贝叶斯网概率分布函数的对数对每个分布参数的偏微分。我们证明了在一定条件下,经过Fisher分映射后得到的新属性集是条件独立的,并从理论上分析了对于无先验信息的多项分布和原属性集已经是条件独立的情况下新属性集的独立性。试验表明该方法较好地提高了朴素贝叶斯分类器的性能。(3)提出了一种新的文本信息抽取算法:结合规则的动态贝叶斯信息抽取网(RDBIEN)。在半结构化文本抽取任务中,主要有两种技术手段:一种是基于规则的方法,另一种是基于概率的方法。基于规则的方法是处理确定性问题的重要手段,它具有充分吸取专家经验和更为直观、更易于获得的优点。而基于概率的方法则更鲁棒,性能更高。我们把规则方法与贝叶斯网络相结合,既保持了概率方法的鲁棒性等优点,又结合了规则方法在吸取专家经验等方面的优点。试验表明该算法具有较高的抽取性能。(4)提出了基于主题词树的贝叶斯文本层次分类算法。对于Web文本分类问题,存在文本的类别数太多、相对获得大量有标注的训练数据成本较高、特征维数太高从而使模型训练非常复杂等难点。本算法通过对同一主题词的子主题词的合并,有效地降低了文本特征词的维数,强化了关键维的作用。此算法不仅降低了训练的复杂度,而且有效提高了样本的质量,降低了噪声数据对分类的影响,从而可以在类别数太多而样本数相对较少的情况下获得较满意的分类精度。