论文部分内容阅读
随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,ReviewCrawler根据网页的DOM树,利用对比学习思想挖掘包含用户评论的节点,并在获取评论中学习新特征词;3)利用真实商品评论验证了ReviewCrawler准确性、有效性.实验表明ReviewCrawler的查全率及查准率大于98%.同时ReviewCrawler具有良好的伸缩性,能够满足获取海量用户评论的要求.