基于模糊逻辑和神经网络的数据及文本挖掘的方法研究

被引量 : 0次 | 上传用户:aaasssddd001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将模糊逻辑理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于模糊逻辑和神经网络的数据挖掘和文本挖掘方法,所做主要工作内容包括:采用自组织特征映射(SOFM)网络来自动确定样本数据隶属函数,并根据相似性的概念,给出了相似度的计算公式,结合Apriori算法,提出了一种挖掘模糊相似关联规则的新算法。针对传统的模糊聚类需要预先确定聚类数的问题,提出一种新的动态模糊聚类的方法。该方法采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF?IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。本算法具有聚类精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性的问题。提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。针对传统模糊自组织神经网络需要预先确定聚类数的问题,DFKCN采用了可自动确定聚类数的动态自组织神经网络(TGSOM)的结构,在DFKCN网络结构中提出新的学习率计算公式,并以模糊聚类中心作为DFKCN网络中对应的神经元的权值,从而提高了聚类的精度,并可提高收敛速度。将DFKCN模型应用到中文文本聚类中,文本的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。提出了一种新的模糊竞争神经网络聚类模型(NFCNNC),并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,获胜神经元通过比较隶属度值得到。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。NFCNNC具有结构简单,运行效率高,聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。提出一种新的模糊文本关联规则挖掘算法(NFAR)和文本关键字的获得方法,当文本集中存在大量文本,传统的模糊关联规则中的支持度的计算公式不再适用,因而提出新的支持度计算公式。通常用的关联规则在涉及语义问题时,会有冗余规则,隶属函数是预先指定的,引入模糊聚类可克服上述问题;根据TF·IDF首先计算文本特征词的权重,然后计算文本的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键字,将关键字的权重划分成三个属性:高、中、低。利用模糊c均值对关键词的权重进行聚类。再由NFAR算法抽取出文本关联规则。NFAR算法具有运算效率高,规则的精度高的优点。
其他文献
<正>华为在美国的竞争对手很多,但在长达58页的美国众议院常设特别情报委员会调查报告中,唯一出现的对手就是思科。此报告提到思科是因为"有证据显示,华为漠视美国公司和实体
孵化器——一种集政府扶持、风险投资、创业培训、综合服务、集团化管理于一体的组织创业模式;一种由政府、企业和其它相关机构帮助个体创业,以降低创业成本、创业风险,提高
本文主要对先秦至魏晋南北朝时期从“气”到“文气”的演变作了一些梳理,通过对“气”的原义的溯源和对不同时期的“气”的使用情况的分析,以“气”向美学涵义的嬗变为主线,
教材是教学大纲的体现,是教学活动的凭借,对实现教学目标有举足轻重的影响。小学语文作为义务教育阶段的基础学科,对培养学生的思想道德素质和科学文化素质,弘扬祖国的优秀文化,提
缺血性中风病是中老年多发病,具有高发病率、高致残率、高死亡率的特点,给家庭和社会带来沉重的经济负担。早期、合理、有效的治疗措施,将影响到患者的预后和生存质量。中医
目的比较简单随机化、中心分层区组随机化和最小化法的均衡性。方法运用MonteCarlo方法分别进行三种随机化方法的模拟分组,然后比较三种随机化方法在有6个非处理因素时,组间
解决加减文字题是数学教学的重要内容之一。解决文字题需要理解问题的语言和情境、制定解题计划、进行计算等多项能力。由于听力障碍,大多数聋生在解决加减文字题时遇到很多困
古往今来,夸张作为一种修辞手法,在文学作品中被广泛应用。尤其在唐朝,诗人李白、杜甫等偏爱用夸张修辞格或描写祖国大好河山,或抒发其忧国忧民之情绪,因此他们的作品能带给
在传统的微带线定向耦合器设计中,奇偶模之间不同的相位速度导致了较低的隔离度.针对此问题提出双枝节功率相消技术,在微带线定向耦合器的匹配端口添加两个枝节引入失配,通过
目的评价醒脑静注射液治疗急性酒精中毒的疗效。方法计算机检索MEDLINE(1989~2008年)、中国期刊全文数据库(1991~2008年)、维普资讯-中文期刊数据库(1991~2008年)、万方数字化期