基于工程项目文档的文本挖掘系统的研究与实现

来源 :北京化工大学 | 被引量 : 4次 | 上传用户:lzxs123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方法对其进行信息挖掘。在这种情况下,文本挖掘技术成了新的研究热点。文本挖掘过程以特征的提取、表示和选择为基础,将非结构化(半结构化)的文档数据形式转换成结构化的,然后运用文本分类、聚类、关联分析、分布分析和趋势预测等方法提取有用的知识。文本挖掘以最普遍、最自然的信息存储形式——文本为研究对象,具有很广阔的研究前景。目前,文本挖掘主要被应用于互联网领域的网页分类、相关检索、垃圾邮件过滤等方面,但在拥有大量技术文档的企业管理信息系统中,对文本挖掘的应用研究还很少。针对这个问题,本文以中石化项目“工程项目投标报价智能决策支持系统”的“文本管理模块”为对象,根据工程项目文档的特点和应用需求,设计并开发了“基于工程项目文档的文本挖掘系统”。该系统实现了文档的结构化管理,并通过提出的算法对文本信息进行深入的挖掘。首先,本文采用非负矩阵因子分解法(NMF)对工程项目文档进行聚类并提取类名,同时生成了基于概念的文本特征表示空间。在此基础上,本文提出了“基于概念全信息空间的文本知识挖掘算法”,该算法将经典的全信息理的思想应用于概念空间模型中,从应用的角度出发度量特征携带的全信息量,与传统的仅计算特征语义信息量的方法相比,能够为基于信息的决策提供更全面的参考依据。其次,本文按照物元理论提供的方法,对文档进行结构化的组织并提出了“基于简单文本型知识元的数值型结构化信息提取算法”。在此基础上,根据物元的可拓性质,拓展提取的信息空间。最后,以提出的两个算法作为核心算法,按照决策支持系统的三库结构(数据库、模型库、知识库),在Microsoft Visual Studio.Net 2003和SQL Sever环境下开发了界面友好文本知识挖掘系统。
其他文献
随着分布式技术和网络技术的发展,安全互操作已经成为协同工作的一种重要形式,对于提高工作效率、进行资源共享有直接的意义。在互操作中,系统既是服务的提供者,也是服务的享用者
近年来,随着微电子、无线通信和微机电系统等技术的快速发展,出现了集传感、处理和无线通信于一体的微型智能传感器。这些智能传感器通过无线自组织方式构成网络对所部署的目标
学位
随着全球软件开发相关技术日新月异的发展和人们对软件质量与软件功能的需求水平的日益提高,软件开发规模越来越大,复杂程度越来越高,从而使得软件测试中所收集的缺陷度量数
互联网和现代信息技术的飞速发展为现代物流注入了新的活力,使物流业朝着信息化、网络化、智能化方向发展。尽管目前物流企业普遍采用了计算机进行管理,但这种计算机管理仅仅是
小波变换受到数学家和工程师们的极大关注主要归因于它优良的时频特性。多小波研究是小波理论的一个重要分支,多小波能够同时拥有对称性和正交性、紧支性和高消失矩等特性,理
近几年,随着手机的普及和移动网络的发展,手机网络游戏越来越受到欢迎。中国拥有超过3亿的手机用户,手机网络游戏具有巨大的市场潜力。游戏引擎是网络游戏的核心部件,它能很好的
无线传感器网络(WSN)已应用于多种领域,例如:环境检测、对象追踪、精确农业、建筑物监测和军事系统等,已有大量的研究工作集中于开发适用WSN的网络协议,尽管这些协议有效延长了网
软件配置管理作为软件开发过程管理和过程改进的基础,开始于软件开发项目之初结束于软件被淘汰之时,支持和控制着整个软件生命周期。当今,软件开发机构不但面临日新月异的技术更
数字水印技术为互联网上的著作权问题提供了解决方案,版权保护是数字水印技术的重要应用之一。本文主要研究的是小波包和小波变换的图像数字水印技术,并结合了新的混沌加密理论