基于SVM的文本分类系统中特征选择与权重计算算法的研究

被引量 : 30次 | 上传用户:wjz5201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的飞快发展,人们已经从信息较为缺乏的时代过渡到信息丰富的数字化时代。面对如此庞大的电子信息,如何在较短的时间内获取对用户有用的信息也就成为当前的一个研究热点。文本分类技术是数据挖掘领域中的一项关键技术,它能够帮助用户快速、准确地定位所需要的信息。同时该技术作为信息过滤和搜索引擎的基础,有着广泛的发展前景,能够为社会带来巨大的经济效益。文本分类的任务是将待分类的文本对象根据其具体内容自动划分到事先设置的类别内。它的研究内容主要包括文本预处理、特征选择、特征项权重计算、文本表示、分类器的训练与测试以及分类性能评价六个模块。其中特征选择和权重计算在文本分类技术中有着非常关键的作用。本文的主要研究工作如下:(1)特征选择的目的是从原始的高维特征空间中,选取出对分类贡献程度大的特征来表示文本。经典的特征选择算法在统计特征项和类别之间的关联性信息时,仅仅考虑了特征项对文本分类的能力,却没有考虑特征项之间的相关性信息,因此使得具有同义或近义现象的特征项都被选择出来表示文本,降低了分类的准确度。鉴于此缺点,本文提出了一种新的特征选择算法——组合特征选择算法。该算法首先通过文本证据权重方法选择出一些对文本分类贡献程度大的特征项;其次通过互信息方法删减了一些在文本分类方面有冗余信息的特征项。(2)经典的TF-IDF权重计算方法只考虑了特征词频率TF和反比文档频率IDF,没有考虑特征项的类别分布和位置分布对分类的影响。因此本文在经典权重算法TF-IDF的基础上,结合特征词的类别分布与位置分布信息,提出了改进的TF-IDF算法。(3)和其它的机器学习算法相比,SVM方法具备泛化能力强、收敛性好的优点,因此尤其适合于文本分类领域。本文最后构造并实现了一个基于SVM的中文文本分类系统,为研究文本的自动分类与性能评价打下了良好的基础。在分类系统平台基础上,验证了课题提出的组合特征选择算法和改进的权重计算方法在一定程度上提高了文本分类的性能。
其他文献
旅游公共服务研究成为我国旅游发展新时期的重要课题。旅游公共服务体系应包括政府主导与市场主导两大子系统。政府主导的公共服务体系包括旅游公共信息服务系统、旅游公共基
目的分析我院新生儿科两个时期新生儿血培养中菌株的构成比及耐药情况的变迁.方法患儿标本经Bactec9120血培养仪培养,分离所得菌株用API鉴定系统鉴定,药敏试验采用K-B纸片扩
针对房地产价格和影响因素之间存在复杂且非线性的关系,用传统评估方法预测房地产价格精度不高的缺陷,提出一种基于遗传算法(Genetic Algorithm,GA)和BP神经网络(BP Neural N
目的探讨急性闭角型青光眼的治疗方法及其疗效。方法选取我院2014年8月~2015年12月收治的急性闭角型青光眼患者58例(58眼)作为研究对象,所有患者均采用氩激光周边虹膜成形术进行
军队研究生任职能力不足的本质是“学位标准”与“军官标准”不一致,因此,军队应用型研究生培养的重点是强化研究生的军官职业能力。认为应兼顾国家学位授予标准和部队现实需
语法隐喻是人类认识世界的一种重要手段,它可以把事件、活动、情绪、思想等转化为实体(entity) (Lakoff & Johnson, 1980)。Halliday (1985)指出,语法隐喻不是用一个词去代替
换填垫层法是一种常用的基础处理方法,但在水利工程中的运用受到一定的限制,本文通过理论分析和工程实践介绍该法的可靠性,为其合理的运用提供借鉴。
有效性教学模式指教师在课堂教学中遵循教学活动的客观规律,以尽量少的时间、精力和物力投入,实现教学目标和学生的个性培养与全面发展,取得尽可能多的教学效果的模式。课堂
歌剧是一种综合的艺术形式,它集诗歌、戏剧、声乐、器乐、舞蹈等为一体,通过戏剧性的故事情节,细腻的人物形象塑造,来表达其剧目的深刻内涵。歌剧《野火春风斗古城》可以说是
本文旨在设计和研究两轮自平衡小车系统。两轮自平衡小车是一种非线性、强耦合、多变量、自然不稳定、具体的、实现起来相对便宜的复杂系统,给控制理论提出了很大的挑战,是检