Web数据的挖掘方法研究

被引量 : 0次 | 上传用户:wyj8332606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘(Data Mining),是指从大型数据库或数据仓库中提取隐含的、未知的及有潜在应用价值的信息或模式。它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。Web挖掘为人工智能领域中数据挖掘技术的一个热点,它实现对Web存取模式、Web结构和规则,以及动态的Web内容的查找功能,是一个更具挑战性的课题。本文研究的主要内容是Web内容(文本)挖掘。 文中首先对数据挖掘及Web挖掘技术进行了概述,对Web数据的特点作了分析和研究,比较了XML与传统数据库的区别,然后选择XML文档来保存数据。其次,根据Web挖掘的任务,给出了本课题的实现方法:神经网络与Boosting算法相结合进行文本分类。本课题的实现方法与单纯基于神经网络的方法相比,在样本的识别率和分类的准确率上都有所提高。 目前,该系统已经能试验性运行,效果良好,达到了预期的学习和实践的目的,为进一步研究Web挖掘奠定了基础。
其他文献
麻醉机作为手术过程中重要的医疗设备,不仅为患者提供手术麻醉,还为患者输送氧气。若麻醉机出现故障,将对患者病情造成威胁。因此,麻醉机的检修及保养尤其重要,做好麻醉机检
本文用平行研究的方法,通过对厄普代克的兔子四部曲和刘震云的《一地鸡毛》、《单位》、《一句顶万句》和《我不是潘金莲》进行分析、比较,探讨主题上的共通性,即后现代社会中小人物的生存困境。本文将分析作品中中美两国小人物如何在生活重压下产生了集体性的精神空虚,以及他们如何试图超越生存困境寻找出路,从而引发读者对当今时代人类普遍生存困境的反思。通过对厄普代克和刘震云作品的深入分析,揭示当代社会小人物孤独痛苦
工程建筑的使用寿命是关系到经济效益和社会效益的重大问题,提高混凝土耐久性是不必另行投资就能节省能源和资源的最有效途径。本文分析了目前对混凝土耐久性重视不够的原因,
市场营销的定位对于一个公司和企业来说是十分重要的,如果在市场营销的定位中由于一些因素没有考虑其中而发生了失误,没有处理好营销的定位,那么企业很可能就因此而毙命。本
<正>风险管理作为一个重要理念已融入到涉密资质单位保密管理过程中。涉密信息系统集成资质保密标准要求资质单位应定期对系统集成业务、人员、资产、场所等主要管理活动进行
近年,苯环中的一个CH瓣被过渡金属取代得到“金属苯”甚至“金属苯炔”类化合物的研究,受到越来越多合成者们的关注。在前人已报道的“金属苯”中,利用过渡金属与炔的环化作用合
格式条款有多种称谓,我国《合同法》采用格式条款而不是格式合同的概念,在理论上和实践中都具有极为重要的意义。从效率的角度考察,效率是格式条款的生命力之所在,是格式条款被普
基础教育课程改革的迅速发展,高中课程计划的重新修订及实施,对高中教师提出了新的更高的要求,要求教师能尽快适应这一改革,对新课程计划能够准确地理解,诚心地接受,热情的投入,有效
氯化聚乙烯(CPE)是一种新型的高分子弹性体材料,具备许多优异的性能。因为CPE是聚乙烯氯化制得的,分子中含有未氯化的聚乙烯段,整个材料呈现出介于橡胶和塑料之间的性能,CPE中的氯
当今世界,随着全球经济一体化和网络技术的广泛应用,企业之间的竞争日趋加剧。很多企业为了增强战略竞争优势,回避业务萎缩以及获得超额利润,选择了多元化战略。然而企业多元化