【摘 要】
:
本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽
论文部分内容阅读
本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽取训练样本及使用KNN方法进行文本训练和文本分类等。通过对系统功能的分析,本研究把系统分成了文本预处理、中文分词、文本特征向量的提取、文本特征向量的训练和分类等四部分。在文本特征向量的提取、文本特征向量的训练和分类部分中,作者研究了一种基于词的文档频率(DF)和信息增益相融合的的方法,这种方法不仅相对简单,有层次感,而且在保证分类器性能的基础上,可以允许我们适当地选择训练样本,减少支持向量,从而提高KNN的训练和分类速度。接着介绍了KNN的基本理论以及目前KNN方法在文本分类中的应用情况,以及如何使用KNN,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。本课题实现了文本收集、文本预处理和中文分词等文本挖掘的关键技术,并在研究的基础上提出了一套特征抽取及文本挖掘的方案,为后续的研究奠定了基础。
其他文献
高尔基对此给予高度评价,称马卡连柯为新型的教育家,说他的教育经验是具有世界意义的。事实正是如此,马卡连柯的教育理论和教育经验不仅在苏联,而且在其他社会主义国家,尤其
大型丙类物流仓库具有周转快,存量多,体积大,火灾蔓延快,排烟困难,结构易坍塌,灭火难度大等特点,发生火灾后,人员疏散困难,易造成严重的经济损失。因此物流建筑火灾发生前期
描述了JOY 12CM15-10D直流牵引连续采煤机电控系统改造的必要性,在满足连续采煤机防爆性能和功能的基础上,采用了交流变频调速技术、现场总线、故障诊断、计算机应用等技术,
企业引进"空降兵"是希望运用其科学规范的管理经验进行改革,提升企业效益,现实中绝大多数"空降兵"都沙场折戟。本文从自身定位、关系处理、经营人脉、保持优势、适时退出等维
多年来,绥化市政府深入实施“科教兴市”战略,科技在全市的经济社会发展中起到了巨大作用,然而经济社会的快速发展对科技提出了更高的要求,在这里可以了解过去科技在绥化经济社会
“院外会诊”是指医生应邀到其所注册的执业地点以外的医疗机构从事诊疗活动的行为。院外会诊分为合法与非法两种情形,合法情形即所谓“外出会诊”,非法情形即所谓“走穴”。本
本文拟从山水画技法上的创新为突破点进行论文的编写和实践绘制的尝试。近几年,以地域为特色的绘画形式不断呈现。章法上的变革、绘画材料和技法上的创新不断改变着历代冰雪画
文本以美、德、日三个发达国家为参照,采用比较的方法,从纠纷的非诉讼解决制度入手,在借鉴其他国家经验的基础上,剖析了我国医疗纠纷非诉讼解决机制存在的问题,对完善医疗纠