论文部分内容阅读
随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方法对其进行信息挖掘。在这种情况下,文本挖掘技术成了新的研究热点。文本挖掘过程以特征的提取、表示和选择为基础,将非结构化(半结构化)的文档数据形式转换成结构化的,然后运用文本分类、聚类、关联分析、分布分析和趋势预测等方法提取有用的知识。文本挖掘以最普遍、最自然的信息存储形式——文本为研究对象,具有很广阔的研究前景。目前,文本挖掘主要被应用于互联网领域的网页分类、相关检索、垃圾邮件过滤等方面,但在拥有大量技术文档的企业管理信息系统中,对文本挖掘的应用研究还很少。针对这个问题,本文以中石化项目“工程项目投标报价智能决策支持系统”的“文本管理模块”为对象,根据工程项目文档的特点和应用需求,设计并开发了“基于工程项目文档的文本挖掘系统”。该系统实现了文档的结构化管理,并通过提出的算法对文本信息进行深入的挖掘。首先,本文采用非负矩阵因子分解法(NMF)对工程项目文档进行聚类并提取类名,同时生成了基于概念的文本特征表示空间。在此基础上,本文提出了“基于概念全信息空间的文本知识挖掘算法”,该算法将经典的全信息理的思想应用于概念空间模型中,从应用的角度出发度量特征携带的全信息量,与传统的仅计算特征语义信息量的方法相比,能够为基于信息的决策提供更全面的参考依据。其次,本文按照物元理论提供的方法,对文档进行结构化的组织并提出了“基于简单文本型知识元的数值型结构化信息提取算法”。在此基础上,根据物元的可拓性质,拓展提取的信息空间。最后,以提出的两个算法作为核心算法,按照决策支持系统的三库结构(数据库、模型库、知识库),在Microsoft Visual Studio.Net 2003和SQL Sever环境下开发了界面友好文本知识挖掘系统。