基于意义信息增益的文本特征项权重计算方法

来源 :延边大学 | 被引量 : 0次 | 上传用户:stupid199001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效的管理是摆在人们面前的一个不可回避而又很有意义的课题。对文本资料进行管理,其中一个很常见的方法就是对文本进行系统的分类,这也是对文本进行进一步处理的基础。 过去对文本资料进行人工分类的过程是通读所有文章,然后根据判断对它们进行归类保存。这需要许多具有丰富经验和专门知识的分类人员做大量的工作,排除个人思维的差异,人工分类的优点是分类的准确率高,但是另一方面,其过程具有周期长、费用高、效率低的缺点,很难满足信息化社会的实际需求,因此如何运用计算机进行自动文本分类成为现代信息处理的一个研究热点。 目前文本分类所采用的主要方法是向量空间模型,该方法的思想是把文本分割成由词或字组成的特征项,进而把文本表征成由特征项构成的向量空间中的一个点。通过计算向量之间的夹角,来判定文本之间的相似程度。 向量空间模型是以特征项权重的计算为核心的一种方法,特征项权重的计算会直接影响到分类的效果。其中TFIDF函数是文本分类中得到广泛应用并且取得较好效果的一种特征项权重的计算方法,但是TFIDF函数的缺点是不能很好地把握特征项在文本集合中分布的比例,所以影响了分类的效果。 为了衡量特征项在文本集合中的分布比例,本文采用了意义信息增益的概念,改进了TFIDF方法,提出了一个新的特征项权重计算方法M-TFIDF(Modified TFIDF),兼顾了特征项在文本集合中的分布情况,并且考虑了特征项在文本集合中的分布比例,使得文本通过改进的方法计算所得特征项的权重能够更准确地表现文本的内容。而且其中考虑了意义信息,这样计算出来的结果既可以反映客观统计的特性,又可以反映主观价值和主观意义。对这种改进的方法进行了论证实验,实验证明M-TFIDF好于原来的TFIDF方法,使得分类效果有所提高,证明其有效性和可行性。
其他文献
近年来,中国的数据中心产业规模不断扩大,海量的数据中心正面对着来自电力、冷却以及安防等方面的巨大压力。智能化的数据中心基础设施管理软件(DCIM)即将成为未来数据中心管
监控系统作为保护人们生命财产安全的有效辅助设施,是当前一个新的研发热点。如何利用现有的资源和技术,更好地实现视频图像序列中的运动目标跟踪、定位与识别,通过图像分析实现
互联网已成为学习知识及开阔视野的最佳途径,它正在逐渐发展成为大众伸手可及的媒体传播手段和通讯工具;然而互联网也带来诸如色情小说、色情图像传播的问题。一些预防网络色情
随着计算机网络技术的迅猛发展,以及计算机硬件性能的大幅度提高,新的市场需求应运而生。特别是有关网络方面的需求更是层出不穷,从事宽带接入系统开发的一家公司向我们提出需要
本文作者研究了计算机网络系统集成理论与技术,包括:网络规划与设计、局域网集成、广域网集成、因特网集成、网络安全保密、VLAN技术、VPN技术等。在理论与技术研究的基础上,完