【摘 要】
:
本文首先介绍了自然语言理解的一些基本概念和文本自动分类的背景,系统讨论了文本自动分类与信息检索和信息抽取等领域的紧密联系,深入研究了实现中文文本自动分类系统所涉及
论文部分内容阅读
本文首先介绍了自然语言理解的一些基本概念和文本自动分类的背景,系统讨论了文本自动分类与信息检索和信息抽取等领域的紧密联系,深入研究了实现中文文本自动分类系统所涉及的各个方面的理论和技术。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了详细的理论阐述和算法描述,并借鉴了其他文本自动分类系统的优点,充分考虑了系统的召回率、准确率和系统可实现性。 然后,本文提出了一个文本自动分类系统的实现方案,给出了一个基于向量空间模型的文本自动分类系统的体系结构,借鉴了中科院的汉语词法分析系统ICTCLAS和概率句法分析器PROP对文本进行了分词和句法分析,使从文本抽取出的索引项更大概率的趋向于焦点词,从而提高了系统的准确率和召回率,并利用JAVA技术对中文文本自动分类系统的功能模块进行了实现。在实现过程中,对分类算法—简单向量距离分类法进行了改进,提出了阈值的概念,进一步加强了系统的分类功能。 最后,针对本系统在分类的准确率上不太理想的现状,对本课题下一步要研究的内容进行了系统地总结,并提出了自己的一些看法。
其他文献
针对卫星导航运营产业属于高科技新兴产业,同时也存在多方面不确定性风险的特点,借鉴国外相对成熟的运营经验,综合分析了卫星导航商业回报模式和制约因素,并针对提出一套面向
<正>面对西方各种批评新潮的挑战,一些同志提出“开放的社会历史批评方法”的概念.《湖北社会科学》从1988年第7期起陆续发表文章,就“开放的社会历史批评方法”问题进行理论
在我国社会经济飞速发展的推动下,人们的生活水平不断的提高。在此前提下,汽车行业正在迅猛发展,它成为了大多数百姓生活的必需品。也正如此汽车驾驶技术成为了人们不可缺少
<正> 一、欧美各国中学数学教育的现状 先看美国,全美数学教师委员会于1989年出版了一份数学教育改革的纲领性文本《学校数学课程和评估的标准》,明确提出了关于数学教育的四
发泡法在临床上被广泛用于治疗内、外、妇、儿各科疾病。笔者自1990年2月~1998年6月应用民间发泡法治疗骨伤科各种慢性劳损性疾病及外伤后遗顽固性疼痛,取得了满意的效果,现报告如下。一般
本文在分析目前我国网络购物合同实际情况的基础上,对网络购物格式条款的运用障碍进行探讨。并以此为切入点,提出相应的法律规制方法,目的是克服使用格式条款带来的弊端,维护
本文发展了应用于旋转机械三维跨声速流场的数值求解方法。全文共分五个部分。 第一章综述了求解涡轮机械流场的 CFD 计算领域的进展,分析了计算格式和网格带来的数值粘性对
学习困难鉴定的干预反应模型弥补了能力——成绩差异模型的不足,具有进行早期鉴定、减少错误诊断人数以及为教育干预提供帮助的优点,但存在评估内容过于狭隘、实证研究局限于
加拿大作为一个两种官方语言的国家,在教育上也具有其独特之处。浸入式教学是加拿大的首创,是一种通过用第二语言教授学科知识来学习语言的教学方法。自19世纪60年代以来,浸