基于人工智能的知识发现

被引量 : 0次 | 上传用户:wingkong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识发现本质是建立在高维空间中的数学计算问题,人类对于传统空间的研究已经经过数千年,但是对于高维空间的数学研究才刚刚开始。尽管如此,借助于其核心技术人工智能的发展,知识发现已经取得了非常丰硕的成果。传统数学所无法解决的问题,例如图象识别,垃圾邮件拦截,网页相似度匹配等问题都得到了一定程度上的解决。但是,从技术本身来看,这些都是支持向量机(SupportVector Machine,SVM)的一些低级别的应用,对于更广阔的未来而言,技术的发展带来了无限的可能。本文尽可能详尽地回顾了知识与知识发现的理论与沿革,人工智能技术的发展与核心算法:BP网络(Back-propagation Neutral Network)与支持向量机。在此基础上,本文提出了知识发现所面临的三大问题:学科交叉不足,局限于理工科等传统领域,而对文科和商科覆盖不足;对非结构化数据处理能力欠缺,尤其是类似于WORD和WEB的非结构化和半结构化数据;知识表示混乱,至今没有统一的标准。针对以上三个问题,本文设计了三个实验:1本文以WORD文件《说文·玉篇》中的一章作为数据源,采用规则提取的方式,将WORD文件字典中的字进行了量化抽取。以量化后的结果载入Matlab,并使用SVM工具箱进行了异体字分类识别。最后用Z语言对异体字分类的定义进行了阐述。2本文针对上海国拍劲标网(www.alltobid.com)上的上海市车牌历次竞标记录,采用WEB抓取的方式,获得自开始拍卖以来至今的所有数据。将这些数据作为数据源,用BP网络对车牌价格所形成的多元函数进行了拟合,对后期的车牌价格走势进行了预测。与此同时,将本文中获得的结果与传统经济学方法进行了对比,证明了AI算法相对于传统经济学方法的优越性。最后,针对本文的函数用Z语言进行了描述。3作为管理学硕士,本文对管理学中参数化评估以及它的多种进化形态进行了回顾,并将BP网络和SVM分类技术相结合,提出了动态参数化评估的概念。这种新评估方式主要认为:旧有的评估方法存在参数人为任意设定,权值僵化,而容易被有所针对性的回避而不能产生正确的评估效果。为了避免上述现象的发生,本文认为,应该从样本自身出发,由样本自身描述问题的本质。首先使用SVM对样本的特征进行提取,得出参数项;其次根据参数项对样本进行循环计算,得到每个项的权值;最后依据不同的权值,对权值进行函数拟合和预测。这样构成的参数评估系统,每当产生新的样本的时候,则系统重新计算并对权重和参数进行调节。无疑具有更好的自适应能力和更符合现实要求的特点。本文进行了一次针对上海房价指数的动态参数实证研究:针对上海市房产交易中心(Fangdi.com.cn)上的成交数据,以WEB抓取的形式获得;以不同区域对上海房价的影响作为参数,以影响的程度作为权重进行计算;最后以Z语言对整个动态参数化评估系统作出了描述。本文以如上述三个实验的方式对本文提出的问题进行了讨论和解释。针对学科交叉问题,本文结合中文学科,提取WORD文件中的异体字,并使用SVM技术进行了识别;结合笔者本科时代的经济学背景,使用BP网络对来自WEB的上海车牌拍卖数据进行了函数拟合;最后作为一名管理学的硕士,将SVM的分类技术和BP网络的函数拟合技术结合而提出了动态参数化评估,对管理学中参数化评估进行了改进。针对非结构化数据源问题,本文实验中所采用的WORD文件,WEB数据,都是非结构化数据,采用规则抽取方式,将非结构化数据转化为准结构化或者结构化数据进行知识发现;对于知识表示问题,本文使用了Z语言对每次实验所得到的知识进行了结构化描述。虽然本文针对知识发现的问题进行了一番探讨与改进,但是仍然存在诸多不足之处,对于动态参数化评估而言,各参数之间的优先级显然不可能是同级的,对于优先度排序方向的研究还有所欠缺;对于文字识别而言,噪音与误注所造成的偏差较大;对于时间序列的经济函数拟合而言,精度还可以进一步提高。这一切都有待于进一步的完善。
其他文献
《海上花列传》是晚清狭邪小说的压卷之作,作者韩邦庆以现实主义的创作风格着力塑造了一批上海妓院里普普通通的妓女。他以悲天悯人的情怀俯视笔下人物的命运,以感同身受的体
随着国民经济的持续快速发展,中国交通事业尤其是西部交通建设得到前所未有的发展。受到山区特殊地形条件的限制,预应力混凝土连续刚构桥在山区公路中得到广泛运用。由于超高
本文系统地开展了脉冲激光在金属材料中热弹激发声表面波以及用于表面缺陷无损检测的研究,讨论了表面缺陷对远场、近场声表面波的作用机制。首先从脉冲激光激发超声的解析模
世纪之交,中国高等教育的发展经历了一场巨大而深刻的变革。以推进中国高等教育大众化的名义,高等教育的规模急剧扩张,并在短期内促使高等职业教育快速膨胀。高等职业教育作
氨-硫酸铵法烟气脱硫是一种硫资源回收型技术,符合我国的可持续发展经济政策,能够实现经济循环发展。目前该技术还处于发展阶段,是燃煤烟气脱硫技术的研究热点。通过自行设计
颅内蛛网膜囊肿的CT影像与诊断李培永,孔祥华,高艳华,李志远,张强颅内蛛网膜囊肿系颅内少见的良性占位性病变,经CT检查多可确定诊断。现将我们自1988年以来经CT确诊的颅内蛛网膜囊肿48例(共54个囊
在城乡“二元”结构的深刻影响下,城镇、农村间义务教育的发展仍呈非均衡化的态势。在问题归因上,人们的关注点渐渐由学校硬件不同转向了师资差异。农村教师队伍问题突出,成
肝细胞肝癌(hepatocellular carcinoma,HCC)是世界上第五大最常见的恶性肿瘤,每年约有100万以上的人新患此病和超过50万的人死于此病,占全球恶性肿瘤死亡原因的第3位,它也是我
三维目标识别技术是电视跟踪系统中的关键技术之一,也是目前该领域亟待解决的一个难题。本文首先介绍了目标识别的发展历程和现状,之后对现有的几种识别方法进行了分析和比较
建构主义是行为主义发展到认知主义以后学习理论的进一步发展,被喻为是“当代教育心理学中的一场革命”。建构主义学习理论强调知识学习的建构性和认知主体的主动性,因此成为