论文部分内容阅读
数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将模糊逻辑理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于模糊逻辑和神经网络的数据挖掘和文本挖掘方法,所做主要工作内容包括:采用自组织特征映射(SOFM)网络来自动确定样本数据隶属函数,并根据相似性的概念,给出了相似度的计算公式,结合Apriori算法,提出了一种挖掘模糊相似关联规则的新算法。针对传统的模糊聚类需要预先确定聚类数的问题,提出一种新的动态模糊聚类的方法。该方法采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF?IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。本算法具有聚类精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性的问题。提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。针对传统模糊自组织神经网络需要预先确定聚类数的问题,DFKCN采用了可自动确定聚类数的动态自组织神经网络(TGSOM)的结构,在DFKCN网络结构中提出新的学习率计算公式,并以模糊聚类中心作为DFKCN网络中对应的神经元的权值,从而提高了聚类的精度,并可提高收敛速度。将DFKCN模型应用到中文文本聚类中,文本的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。提出了一种新的模糊竞争神经网络聚类模型(NFCNNC),并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,获胜神经元通过比较隶属度值得到。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。NFCNNC具有结构简单,运行效率高,聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。提出一种新的模糊文本关联规则挖掘算法(NFAR)和文本关键字的获得方法,当文本集中存在大量文本,传统的模糊关联规则中的支持度的计算公式不再适用,因而提出新的支持度计算公式。通常用的关联规则在涉及语义问题时,会有冗余规则,隶属函数是预先指定的,引入模糊聚类可克服上述问题;根据TF·IDF首先计算文本特征词的权重,然后计算文本的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键字,将关键字的权重划分成三个属性:高、中、低。利用模糊c均值对关键词的权重进行聚类。再由NFAR算法抽取出文本关联规则。NFAR算法具有运算效率高,规则的精度高的优点。