Web数据挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:haha300n
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文本语义的文本挖掘系统的研究已经取得一定的成绩。但除了文本之外,Web中还存在其他的海量媒体如图像、音频、视频等,这对数据挖掘提出了新的机遇和挑战。本文主要针对的是图像的高层语义特征进行研究。图像是我们能够获捕的最有效的外界多媒体信息之一,并且在图像的各层特征中,顶层语义特征(又称上层特征)是最重要的并且是最容易得到的特征。作为多媒体信息的数据挖掘研究的初探,我们选择图片高层语义与文本语义作为多媒体信息挖掘的研究对象。首先,本文研究了网页主题提取和文本语义与图像语义,以及各种表示模型。在此基础上提出了一种基于启发式规则的多媒体信息挖掘框架。整个系统包括6个模块:页面分析器、主题内容提取,文本/图片信息抽取、特征提取器、融合模型(数据挖掘器)、判别器、语义浓缩器。系统最重要的模块是融合模型和语义浓缩器,这两个模块运用了很多自然语言处理(比如分词,特征项的提取,NE命名实体等)和数据挖掘的理论。其次,本文采用关联矩阵在语义层次融合了文本语义和图像语义;进一步把网页中的文本信息进行语义浓缩,研究了句子相似度计算算法并对目前算法的不足做出改进,从而较为精确地说明网页中的图片,及其更加丰富地说明图片的语义最后对基于启发式规则的多媒体信息数据挖掘系统进行了封闭性的测试,实验表明该方法具有较高的精确率和较满意的效果。在window2000下用JAVA语言实现了各模块功能,实验表明我们提出的模型是可行的。
其他文献
近年来随着海洋开发和水下探测需求的日益增加,高分辨率剖面声呐的研究越来越受到重视。剖面声呐可以广泛用于海洋地质测量、考古学研究、管道定位、浅海海底沉积层分类、探矿
随着多媒体技术的迅速发展,多媒体通信已成为人们交流和传递信息的重要方式,并逐渐成为人们生活中的一部分。特别是视频通信,在生活中的应用越来越广泛,人们对于视频图像质量的要
在SIP网络出现之前,以IP网络为传输系统的H.323网络已经得到广泛应用,因此,SIP网络必须考虑和H.323网络的互联互通问题。我国目前组建的VoIP系统的主流技术标准是ITU-T的H.323协
近年来,集群技术成为国际上并行及分布式计算领域非常活跃的研究课题。其中,很多并行技术都在集群系统上得到了实现。 MPI(Message Passing Interface)是一种消息传递编程模
随着无线通信系统中用户数量的快速增加,各种新应用的快速发展,无线频谱资源变得越来越稀缺。为了克服传统频谱分配的静态方式对无线网络性能的制约,满足未来无线通信的宽带化需
嵌入式系统是当今最热门的概念之一,是当前电子技术发展的又一新热点。它有体积小、性能强、功耗低、可靠性高以及面向行业应用等突出特征,目前己经广泛应用于军事、消费电子、
在雷达技术领域,各种体制雷达的研制越来越离不开实验室内半实物仿真技术的支持。在实验室环境下雷达信号模拟器能够利用仿真技术,通过建立雷达信号模型灵活地产生雷达目标回
超宽带技术是一种新型的无线通信技术。它通过对具有很陡上升沿和下降沿的脉冲进行直接调制,使信号具有GHz量级的带宽,它具有对信道衰落不敏感、发射信号功率谱密度低、低截
前景检测已被广泛应用于许多计算机视觉应用中,包括:视频监控、辅助驾驶、人机交互、人脸检测、行人碰撞预测、遥测影像处理、食物中的异物检测、行人行为识别等,是计算机视觉