基于粗糙集理论的知识发现在web文本挖掘上的应用研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:yjfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种基于粗糙集理论的web文本分类模型,该文提出了基于信息熵的文本关键词测度函数,通过对关键词函数值进行比较,获取对文本分类最具影响性的关键词序列;同时,针对Web上异质、非结构化信息的特点,该分类算法还考虑了超文本标记对关键词权值的影响.为获取本文项目实验材料,以配合IR(Informationretrieval)和IF(information filter)做仿真实验,我们编制了Web文本收集模型WebCrawler,该模型利用目前较流行的Hits算法解析网络链接结构,从Internet上收集相关的web文本.基于对所获实验材料的web文本分类实验,该文实现了相关的web文本挖掘算法,对提出的算法进了实验分析.
其他文献
据不完全统计,在物流运输过程中,国内每年由于货物损坏造成的经济损失超过百亿元,而且随着近两年“网购潮”的迅速发展,物流行业也在飞速发展,货物破损的现象也在与日俱增,急需采取相应措施来改善这种局面,减少经济损失。要想减少货物破损的数量,必须明确导致其破损的因素,从货物的破损机理入手,检测与破损相关的数据信息,实时监测物流中货物的破损状态并制定相应的措施来减少由于货物破损造成的经济损失。本课题详细分析
移动机器人在智能监控,无人汽车,灾后搜索与救援,环境监测,军事侦察以及星际探测等关系国计民生的生产、生活与国防领域展现出了潜在的实用价值和广泛的应用前景。伴随着科学
近年来机器人智能化技术迅猛发展,服务机器人代替人类从事着大量生活劳动,为了能对实际服务环境的实时状况做出正确对策,机器人需要能获取环境中的信息进行实时处理,目标定位
运动控制是自动控制的重要分支,由于它能够实现对运动轨迹与运行速度的精确控制要求,因此运动控制系统在各类控制工程中有着广泛应用前景。远程控制是本地计算机通过网络系统实
运动功能受损患者在进行相关康复训练活动时,需要能够定量地评估患者身体机能的提升状况,因此有必要将康复训练系统与专业康复评定方法进行结合。本文从这点出发,选取Kinect
本课题来源于上海市科委重点科技攻关项目"支持工业以太网与多协议转换技术的新型测控平台研究".随着各领域科学技术的发展和融合,人机界面技术越来越为用户所重视,"人机和谐
随着计算机控制技术的发展,电子提花机广泛应用于领带、商标、织带和大提花等各种纺织织造中,并分为两个大类:电子笼头和电子纹版。 电子提花控制系统又称为电控箱,是一个面向
Linux是已被广泛应用的操作系统之一,将Linux应用在嵌入式系统中,为Linux的应用开辟了一个新的领域.本文主要研究了基于uClinux的远程视频检测系统中的网络平台;总结了网络平
电液伺服负载模拟器是半实物仿真试验室中模拟飞行器在飞行中舵面所受空气动力载荷的重要设备,它的试验能力高低对飞行器设计起着重要作用。随着新型试验系统研制的需要,对其功