【摘 要】
:
Web页面上用户的商品评论信息已成为影响电子商务消费者进行购买决策时的关键因素之一。近年来随着电子商务的发展,关于商品的评论信息呈指数级增长,从而导致潜在用户难以在
论文部分内容阅读
Web页面上用户的商品评论信息已成为影响电子商务消费者进行购买决策时的关键因素之一。近年来随着电子商务的发展,关于商品的评论信息呈指数级增长,从而导致潜在用户难以在这些大量信息中寻找到有参考的评论信息,大大减低了评论信息的应用范围。论文将通过对web页面评论信息现有系统结构和抽取算法的分析,结合信息抽取课题,研究如何在大规模web页面评论信息下确保抽取的高准确性和高效性。论文在分析典型web页面信息抽取系统和算法的基础上,根据现有系统的优缺点和抽取算法的不足,提出了基于树权值的信息抽取算法,该算法通过对抓取到的web页面转化为标签树结构,将标签树进行噪音去除等预处理后,自底而上的为每个树节点赋上权值,使得不同层次不同标签的节点具有不同的权值,然后根据相似树和位置连续性来识别出数据记录区域,包含数据记录的标签树集进行树对准操作后生成基准树作为抽取模板,最后根据抽取模板对数据记录进行对准和抽取。该算法具有很强的自适应性,能根据不同评论信息的结构产生不同的抽取模板,同时不需要过多的人为干预,抽取结果显示该算法在抽取上有较好的效果。基于这个算法,论文设计了一个将单个web页面转化为标签树,从标签树中识别出数据记录区域,然后将数据记录对准后产生模板,最后将属性标注过的模板从一系列web页面中抽取信息的系统。对实现这个算法的系统与其他算法的系统进行了实验对比,结果表明该系统在无需人为过多的干预,具有高度自动化的同时,也具有较高的准确性,同时在运行时间上远远优于其他系统。
其他文献
随着社会的发展和科技的进步,近十几年来,视频监控领域有了快速的发展,其应用范围越来越广,形式也越来越多样化,特别是3G无线宽带网络的应用,使得视频传输技术迈入了又一个新
本文研究生命探测雷达的信号处理问题。生命探测雷达依据多普勒原理工作,可在一定距离范围内、隔一定介质、不接触目标的情况下探测生命目标。该技术在军事、医学、城市反恐
随着WWW技术的高速发展,基于网络数据库(Web DataBase, WDB)Web的应用程序数量呈指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传统的基于搜
当今,随着计算机图形学利计算机硬件的快速发展,3D图形引擎作为计算机图形学应用的一个分支,已经在当今的计算机应用方面,特别是计算机的3D显示方面起着举足轻重的作用,例如
在实际应用中,人们总是希望获得高质量的图像,但在图像成像过程中,很多因素会导致图像的退化、细节丢失。为了改善图像的质量,提高图像的分辨率,可以利用基于多幅低分辨率图
移动数据库中数据广播技术及移动通信带宽的有限性引起较大的数据访问延迟,移动客户机与固定网络频繁(主动或被动)断接使得用户事务得不到所需要的数据,移动设备的电能限制及
近年来,随着计算机技术、传感器技术、无线通讯技术的迅猛发展与广泛应用,农业大棚技术也在向自动化、信息化方向发展。山东寿光作为中国的农圣之乡,冬暖式大棚的规模和数量
数字水印是信息隐藏技术的一个分支,是随着互联网以及多媒体技术的不断发展而产生的一种对数字作品进行版权保护的热点研究领域。数字水印的鲁棒性与不可见性一直以来是难以
高等学校智能排课系统具有其固有的复杂性,其本质是一个多资源约束分配问题,需要周密的思考和研究以及不断的实践过程。高校排课是教学运行管理中非常重要的环节之一,排课系
以“面向以太网的物理帧时槽交换技术(Ethernet-oriented Physical Frame Timeslot Switching, EPFTS)"为核心的“单物理层用户数据交换平台的体系结构(Single-layer User-da