用于个性推荐系统的文本爬虫设计与实现

被引量 : 1次 | 上传用户:ty5004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术发展迅猛,从互联网上获取信息已经成为人们查找有用信息的重要方式。信息种类繁多、传播迅速、含量庞大是互联网的特点。如何针对这些特点及时准确的抓取有关信息,为教育云中个性推荐系统建设学科资源库服务,成为个性推荐系统学科资源库建立过程中需要解决重要问题。针对这一问题,本文结合互联网的特点,运用信息抽取和网页处理技术,设计和实现了个性推荐系统中的网络爬虫部分,以提供分类更细致精确、数据更全面深入、更新更及时的信息抓取服务。具体工作如下:1.本文介绍了网络爬虫的发展现状,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征。2.搜索策略。本文利用URL (Uniform Resource Locator)字符串特征、锚文本、父页面以及兄弟URL等影响因素,计算并预测‘URL的主题相关度。对URL依据预测的主题相关度大小依次爬行,尽可能下载与主题相关度高的网页。3.网页解析过程。包括编码转换、HTML (Hyper Text Markup Language)解析、URL提取、网页消噪和正文提取。本文通过读取HTML文件的头部信息中meta标签http-equiv属性中获得网页的编码方式,从互联网下载数据时指定编码方式读取,然后采用链接分析和统计相结合的方法提取网页正文,进一步有效的剔除噪声,提高网页正文提取的完整性,对于大部分内容型的网页都能正确的提取出正文部分。4.最后,本文在以上设计的基础上实现了一个网络爬虫系统,并分析了爬虫的运行结果。本文给出的网络爬虫可用于教育云的个性化推荐系统中,通过学科领域文章的获得、存储、分析和推荐,为用户快速推荐感兴趣的文献和相关资料,从而提高了研究效率。
其他文献
本文通过对史料的梳理和分析比照 ,发现西南夷之“夷”这一概念在《史记》中的含义与语境同《后汉书》、《华阳国志》两书存在明显差异。在《史记》的语境中 ,“夷”是对西南
少数民族地区的英/外语教学问题严重影响民族生的升学,就业,甚至影响西部大开发和西部地区高科技人才的培养。本文对当前存在的主要问题及其成因加以分析,并提出一些相应的对
得体性原则被确定为修辞的最高原则,“三一”语言理论的科学内涵、得体与得体性的不同、修辞批评中对得体性原则的把握以及得体性原则的正负偏离等相关问题有必要进行更为深
本文主要对河南南阳市的农村留守儿童状况进行调查,通过对部分农村留守儿童进行问卷调查和对部分家长、监护人、学校老师进行访谈,认识和了解留守儿童的现状,发现其中存在的
公路运输是国民经济发展的主要通道,高速公路则是交通运输体系的重要组成部分。高速公路的发展水平是一个国家经济实力、经济发展活力以及现代化水平的重要标志之一。改革开
随着经济全球化,越来越多的人认识到,当今世界的竞争归根结底是科学技术和人力资本的竞争。利用修订后的柯布-道格拉斯生产函数,对安徽省1978~2008年经济增长的各要素进行计量
根据朝阳气象站的实测气象数据(降水量、温度、湿度、风速、蒸发量、日照时数),提出基于加速遗传算法的投影寻踪回归模型用于预测朝阳地区参考作物滕发量。用自相关分析技术
高光谱遥感数据的特征提取和分类工作是高光谱遥感应用领域的研究重点和热点。滨海湿地区域面积广阔、地物分布复杂多样,且高光谱遥感数据本身维度高、数据量大,导致传统的特
有房可住是人类最低层次的需要,世界各国均将为其公民提供住房保障作为社会福利的重要部分。我国的保障性住房历经近二十年的发展已经初具规模。但是在发展过程中仍然存在很多
随着科技水平的不断提升和生活质量的日益改善,人们开始对生活舒适度和家居系统智能化有了更高的需求。近年来,物联网技术迅猛发展,智能化的家居系统随之应运而生。而当前智