论文部分内容阅读
随着社会信息化步伐日益加快和网络技术的飞速发展,人们的沟通方式也随之发生改变,通过网络与他人进行交流的方式日益取代了书信的方式,网络文本数据的数量日益增加。因此对海量网络文本数据的信息处理和数据挖掘具有非常重要的意义,并引起了国内外研究者的密切关注。其中一个研究方向是对网络对话信息的主题提取,它可应用于问答系统、网络信息安全、情报获取等多个领域。通过研究书面语文本的主题提取方法及了解国内外对对话文本主题提取技术的研究现状,总结了对话与书面语的语言特点差异。书面语具有结构紧凑、用语规范、主题思路清晰的特点,但是对话具有含大量问-答对且问-答对中信息相对重要、多主题且主题之间边界模糊、主题交织且组织结构混乱等特点。从而认识到用于书面文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。基于上述思想,设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成模块等。其中问-答对探测模块主要针对对话里含有大量问-答对且问-答对中信息相对重要的特点,使用了机器学习的方法探测问句和其相对应的答句;主题切分模块针对的是对话中多主题且主题之间边界模糊的特点,通过主题概率模型得到词汇在语句中的分布概率,从而获得相邻语句之间的边界点;主题树生成模块针对对话中主题交织,组织结构混乱的特点,使用融入语言特征的聚类算法将切分后的语块按主题重新归类。最后对问-答对探测模块进行了仿真实验和对主题句抽取模块进行了测试。在对问-答对探测模块的仿真实验中,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过比较分类器对训练集和测试集的问(答)句和非问(答)句的判别性能,以及选择了不同的特征集进行了多次测试和分析,得到了一系列的比对结果。对照比对结果,讨论了在不同情况下两种分类器在判别问(答)句的性能优缺点,从而得到了在不同情况下应该选取何种句子特征集与分类器的结论。在对主题句抽取模块的测试中,通过测试不同数据集得到的结果集,比较了结果之间的差异性并分析了造成差异的原因。