文本分类及其相关技术研究

被引量 : 0次 | 上传用户:wtt014789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。同时,对文本分类技术的一个新的研究方向——文本流派分类,文本分类的一个重要应用领域——文本信息过滤,进行了研究。本文研究内容和创新工作主要包括以下五点。 (1)训练样本的选择 训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。论文针对KNN这种常用的文本分类方法,分析了什么是它的典型样本,提出了一种基于密度的样本选择算法。根据样本ε邻域内的样本数目估计样本周围的密度,根据样本ε邻域内不同类别样本的数目确定类别之间的边界。裁剪高密度区域的样本,减少非典型样本的数量。同时,尽量保留类别边界部分的样本,以保证分类器的准确性。 (2)基于最大熵模型的中文文本分类研究 中文本文分类和英文文本分类有许多不同之处,文本特征的提取方式、稀疏程度都有所不同,所以分类结果亦有所不同。对于最大熵模型来说尤为不同,因为汉语的熵高于英语。论文从中文文本特征的生成方法入手,使用了分词和N-Gram两种文本特征生成方法,使用了绝对折扣技术对特征的概率进行平滑处理,对最大熵模型和Naive Bayes、KNN、SVM三种方法的性能进行了比较分析。在实验中发现最大熵模型的稳定性不够好,所以将Bagging和最大熵模型结合起来,提高了最大熵模型的稳定性。 (3)使用层次分类改善平面分类的性能 不同于以往的层次化分类,论文中使用了一种本质为图的层次结构,利用这种层次结构解决平面分类问题,从而提高平面分类的查准率和查全率。在普通的类别层次结构中,同一父类的兄弟类别之间的混淆关系是对称的,但事实上类别之间的混淆关系不是对称的。论文从分类器的混淆矩阵入手,引入了混淆类别的概念。利用混淆类别构造的类别层次结构,从查准率和查全率的角度来考虑类别之间的关系,表达出了混淆关系的非对称性。
其他文献
面对急剧增加的农田水利建设,如何管理和使用好,最大限度地发挥其经济效益和社会效益,不仅是各级党委和政府关注的重点工作,也是负有经济监督职能的审计部门的工作重点。本文
目的探究肝胆结石术后再次手术的原因分析及防治对策。方法随机选取并回顾分析2004年1月至2007年1月于我院肝胆结石术后再次进行手术患者145例,根据结石首发部位分为3组,其中
本文主要以当前中外文化研究和跨文化交际研究以及语言、文化与翻译的关系研究所取得的成果作为理论基础,把翻译置于文化语境之下进行研究,阐述了归化与异化的本质,以及他们
西方心理学研究中的多元文化论是在美国社会人口构成发生了重大改变,有色人种人口比例增加,白色人种人口比例减少的社会现实下,在后现代文化哲学思潮的影响下,在心理学研究与
本研究针对本病从现代医学和祖国医学两方面对其发病机理及治疗、进展进行了系统的论述。俞募通经针法是孙远征教授多年临床实践总结,用于治疗青春期无排卵性功血。 本文3
无排卵是引起如不孕、闭经、功血等妇科常见病、疑难病的主要病因,因此,促进卵巢功能、诱发排卵是妇科工作者面临的一个重要课题。中医古籍无“无排卵”的称谓记载,但认为其
目的比较分析三种常用方法治疗产后痔疮及护理的临床效果,旨在旨在探寻一种更为有效的方法和护理对策,以此减轻产妇的痛苦,促进其尽快康复。方法随机选择102例发生产后痔疮且
时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列,在经济、金融、科学观测和工程等各个领域都广泛存在。如何有效地管理和利用这些历史时间序列,发现这些数据背
90年代以来,随着市场经济的繁荣,文学也逐渐市场化。 文学市场化使得一直或承担着社会、政治、历史责任,或与人类心灵、精神、思想相关的文学作品变为普通的商品,作家的写
洋务运动是我国近代化进程之起点,建立近代企业是洋务运动的重要内容,其企业体制产生、发展、演变的过程具体地反映着中国近代化发展历程的特殊性。今天,企业的制度改革仍然