【摘 要】
:
随着因特网的快速发展,人们可以从网络上获取越来越多诸如文本、图片、声音等形式的信息,而半结构化或无结构化的文本信息则是占据了大多数,如何利用文本分类技术对这些信息
论文部分内容阅读
随着因特网的快速发展,人们可以从网络上获取越来越多诸如文本、图片、声音等形式的信息,而半结构化或无结构化的文本信息则是占据了大多数,如何利用文本分类技术对这些信息进行分门别类的管理是非常重要的。文本分类技术在较大程度上解决了信息杂乱的问题,而且它已成为信息过滤、搜索引擎等领域的基础,所以,对文本分类的研究有着重要的意义。本文介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、中文分词、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。通过对TFIDF详细的分析研究,针对它只考虑特征项的词频以及在整个训练文本集上的分布这一不足,提出了在原公式中增加表示特征项在各个类的分布情况,以及在类内各个文本间分布情况的改进方案。在对K近邻分类方法深入分析的基础上,针对该方法在计算文本相似度时存在的不足,提出了改进方案。新的方案引入了中心向量分类法的思想,同时还考虑了待分类文本与训练文本间共同出现的特征项个数对分类的重要性。在理论研究的基础上,构建了一个包括预处理模块、特征选择模块、分类模块以及评价模块四个功能模块的中文文本分类系统,该系统采用SQL Server 2000作为后台数据库,用c#语言实现。最后利用实现的中文文本分类系统作为测试平台,通过实验验证了对TFIDF权重计算方法以及KNN分类方法改进的有效性和可行性。
其他文献
近来,儿童读经风气渐开,参与者中不管老师、家长、学生都信誓旦旦、兴趣浓厚地为其效果庆贺并努力地义务推广。儿童读经之成果,在推展者和参与者来讲,只要见到读经儿童之记忆力改
为了能够更好地满足人们日益增多的电力需求,为人们提供更加优质的电力服务,确保电力系统的安全、稳定运行,那么电力企业就必须要充分重视电力工程线路施工作业的有效性与安
治理国有金融组织由于“所有权虚置”而引发的“所有者代表缺失”,确立国有金融资产的真正掌控人迫在眉睫。汇金摆脱尴尬困境,先“变身”为兼具出资人和管理人职能的国有金融
在对乌尔禾岩沥青和东海基质沥青两种原材料性能研究的基础上,结合国内外岩沥青改性沥青的研究成果,选取5%、10%、15%、20%四种岩沥青掺配比例,进行改性沥青试验研究,通过对
逻辑控制单元(Logic Control Unit-LCU)是电力机车控制系统中重要的组成设备,对电力机车运行安全起着非常重要的作用,随着我国铁路运输事业的不断发展,逐步取代了原来的继电
蕴含于文化中的隐喻不仅是一种修辞手段,而且是人们认知世界的一种方式。与以往的隐喻研究不同,本论文着眼于隐喻发展的本质,运用模因理论探讨隐喻的进化过程。本文旨在通过
全球气候变化深刻影响着人类生存和发展,是各国共同面临的重大挑战。而建筑行业是温室气体排放的主要来源之一,对气候变化有着重要的影响。目前,世界主要发达国家均将建筑行
作为劝说的手段之一,言语修辞一直以来是广告研究的核心内容,而视觉符号却一直不受重视。纵观近几年的汽车平面广告,不难看出其中呈现出视觉冲击的趋势,有关视觉符号使用的问
古典文学作品为人文素养教育提供了非常重要的教材。将中国古典文学作品作为培养大学生社会责任感,促进身心健康和精神境界的提升的重要途径,是古典文学教育的魅力之所在。