论文部分内容阅读
近年来互联网技术发展迅猛,从互联网上获取信息已经成为人们查找有用信息的重要方式。信息种类繁多、传播迅速、含量庞大是互联网的特点。如何针对这些特点及时准确的抓取有关信息,为教育云中个性推荐系统建设学科资源库服务,成为个性推荐系统学科资源库建立过程中需要解决重要问题。针对这一问题,本文结合互联网的特点,运用信息抽取和网页处理技术,设计和实现了个性推荐系统中的网络爬虫部分,以提供分类更细致精确、数据更全面深入、更新更及时的信息抓取服务。具体工作如下:1.本文介绍了网络爬虫的发展现状,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征。2.搜索策略。本文利用URL (Uniform Resource Locator)字符串特征、锚文本、父页面以及兄弟URL等影响因素,计算并预测‘URL的主题相关度。对URL依据预测的主题相关度大小依次爬行,尽可能下载与主题相关度高的网页。3.网页解析过程。包括编码转换、HTML (Hyper Text Markup Language)解析、URL提取、网页消噪和正文提取。本文通过读取HTML文件的头部信息中meta标签http-equiv属性中获得网页的编码方式,从互联网下载数据时指定编码方式读取,然后采用链接分析和统计相结合的方法提取网页正文,进一步有效的剔除噪声,提高网页正文提取的完整性,对于大部分内容型的网页都能正确的提取出正文部分。4.最后,本文在以上设计的基础上实现了一个网络爬虫系统,并分析了爬虫的运行结果。本文给出的网络爬虫可用于教育云的个性化推荐系统中,通过学科领域文章的获得、存储、分析和推荐,为用户快速推荐感兴趣的文献和相关资料,从而提高了研究效率。