文本挖掘中若干关键问题的研究

来源 :北京邮电大学 | 被引量 : 19次 | 上传用户:ciyoyo23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究:(1)基于鉴别语义分析的文本特征抽取。本文提出一个适用于高维数据的鲁棒线性鉴别模型RDM(Robust linear Discriminant analysisModel)。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在RDM基础之上,本文提出一种鉴别语义特征抽取DSF(Discriminative Semantic Feature extraction)算法,该算法在文本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明DSF算法性能优于常用的线性鉴别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了RDM的鲁棒性。(2)基于局部鉴别索引的文本特征抽取。本文研究面向分类的流形建模方法,提出一个新的文本特征抽取算法——局部鉴别索引LDI(Locality Discriminating Indexing)。该算法用近邻图来描述语义空间中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。LDI算法通过求解广义特征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。LDI算法成功地使用流形学习的思想来提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。(3)基于子类合并的文本聚类。针对传统聚类算法无法发现复杂文本类别结构的不足,本文提出一个新的自适应子类合并ASM(Adaptive Subcluster Merging)算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明ASM算法的聚类有效性明显优于最大方差聚类算法,同时也避免了基于密度聚类算法的复杂的参数选择过程。(4)基于局部一致和全局平滑假设的文本半监督聚类。无监督的聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑LCGS(Local Consistency andGlobal Smoothing)的半监督聚类算法。LCGS算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的2%时,LCGS算法的聚类有效性就可比无监督聚类算法高60%。(5)融合词语相关性与语义相似度的查询扩展。在文本检索系统中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析GA(GlobalAnalysis)的查询扩展算法。GA算法通过统计语料集中词对的互信息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的词。而后,本文将统计分析得出的词语相关性与通过知识库——《知网》得到的语义相似度融合,提出基于相关性和相似度融合RSI(Relevance and Similarity Intergrating)的扩展算法,从而确保扩展词不仅与查询相关并且与查询的主旨相近。实验结果表明GA算法的性能优于局部伪反馈算法,而RSI算法的检索精度又高于GA算法。
其他文献
明末清初.中国的绘画中心逐渐向安徽的南部转移,继而形成不同的绘画流派。其时渐江开创“新安画派”,萧云从开创“始熟画派”.由于两人的绘画风格甚为接近,多有学者根据一些片面的
对低醇解度聚乙烯醇(PVA)制备时混合溶剂的汽液平衡进行了分析,因物系两两共沸,本研究提出采用水萃取其中相变促进剂(PA)的分离方法。实验测定了各组分在水相与混合溶剂中的分配
高中思想政治课生活化教学能够帮助学生掌握课堂知识,同时可以增强知识的实用性。在提高课堂教学效果的同时,提高学生解决生活中遇到实际问题的能力。目前,生活化教学在一些
为了探明烟草镰刀菌根腐病的病原菌分类地位,2015—2017年从福建省三明市主要烟区采集的烟草根腐病病样中分离获得31个镰孢菌属菌株(F1~F31)。对所分离的菌株进行形态学甄别
传输型六端口反射计是一种结构较简单、性能价格比较优良的微波测量装置。本文对传输型六端口反射计理论、结构设计和校准方法进行了分析,实验结果与理论分析基本一致。
以英译中的时态准确性为研究对象,选取2018年《Science》和《Nature》杂志中的50篇英文文章为数据源,首先通过自然语言处理工具包(N LTK)提取英文原文中的动词,对动词的时态