用于个性推荐系统的文本爬虫设计与实现

被引量 : 1次 | 上传用户：ty5004

【摘要】

：

近年来互联网技术发展迅猛,从互联网上获取信息已经成为人们查找有用信息的重要方式。信息种类繁多、传播迅速、含量庞大是互联网的特点。如何针对这些特点及时准确的抓取有

【作者】

：

杨利辉

【发表日期】

：

2014年01期

【关键词】

：

网络爬虫搜索策略正文提取编码转换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来互联网技术发展迅猛,从互联网上获取信息已经成为人们查找有用信息的重要方式。信息种类繁多、传播迅速、含量庞大是互联网的特点。如何针对这些特点及时准确的抓取有关信息,为教育云中个性推荐系统建设学科资源库服务,成为个性推荐系统学科资源库建立过程中需要解决重要问题。针对这一问题,本文结合互联网的特点,运用信息抽取和网页处理技术,设计和实现了个性推荐系统中的网络爬虫部分,以提供分类更细致精确、数据更全面深入、更新更及时的信息抓取服务。具体工作如下：1.本文介绍了网络爬虫的发展现状,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征。2.搜索策略。本文利用URL (Uniform Resource Locator)字符串特征、锚文本、父页面以及兄弟URL等影响因素,计算并预测‘URL的主题相关度。对URL依据预测的主题相关度大小依次爬行,尽可能下载与主题相关度高的网页。3.网页解析过程。包括编码转换、HTML (Hyper Text Markup Language)解析、URL提取、网页消噪和正文提取。本文通过读取HTML文件的头部信息中meta标签http-equiv属性中获得网页的编码方式,从互联网下载数据时指定编码方式读取,然后采用链接分析和统计相结合的方法提取网页正文,进一步有效的剔除噪声,提高网页正文提取的完整性,对于大部分内容型的网页都能正确的提取出正文部分。4.最后,本文在以上设计的基础上实现了一个网络爬虫系统,并分析了爬虫的运行结果。本文给出的网络爬虫可用于教育云的个性化推荐系统中,通过学科领域文章的获得、存储、分析和推荐,为用户快速推荐感兴趣的文献和相关资料,从而提高了研究效率。

其他文献

汉代西南夷之“夷”的语境及变化

本文通过对史料的梳理和分析比照 ,发现西南夷之“夷”这一概念在《史记》中的含义与语境同《后汉书》、《华阳国志》两书存在明显差异。在《史记》的语境中 ,“夷”是对西南

期刊

西南夷夷羌越

少数民族英语教育的问题与对策

少数民族地区的英/外语教学问题严重影响民族生的升学,就业,甚至影响西部大开发和西部地区高科技人才的培养。本文对当前存在的主要问题及其成因加以分析,并提出一些相应的对

期刊

少数民族英语教育问题成因对策

关于得体性原则相关问题的讨论

得体性原则被确定为修辞的最高原则,“三一”语言理论的科学内涵、得体与得体性的不同、修辞批评中对得体性原则的把握以及得体性原则的正负偏离等相关问题有必要进行更为深

期刊

得体得体性原则“三一”语言理论学术对话

农村留守儿童问题研究——基于河南南阳市实证调研

本文主要对河南南阳市的农村留守儿童状况进行调查,通过对部分农村留守儿童进行问卷调查和对部分家长、监护人、学校老师进行访谈,认识和了解留守儿童的现状,发现其中存在的

期刊

农村留守儿童家庭教育对策

沈康高速公路工程项目管理研究

公路运输是国民经济发展的主要通道,高速公路则是交通运输体系的重要组成部分。高速公路的发展水平是一个国家经济实力、经济发展活力以及现代化水平的重要标志之一。改革开

学位

沈康高速公路建设工程项目管理

安徽省人力资本投资对经济增长影响实证分析——以教育形成的人力资本为例

随着经济全球化,越来越多的人认识到,当今世界的竞争归根结底是科学技术和人力资本的竞争。利用修订后的柯布-道格拉斯生产函数,对安徽省1978～2008年经济增长的各要素进行计量

期刊

人力资本经济增长柯布-道格拉斯生产函数

基于遗传算法的投影寻踪回归模型在参考作物滕发量预测中的应用

根据朝阳气象站的实测气象数据(降水量、温度、湿度、风速、蒸发量、日照时数),提出基于加速遗传算法的投影寻踪回归模型用于预测朝阳地区参考作物滕发量。用自相关分析技术

期刊

遗传算法投影寻踪回归模型参考作物腾发量预测

黄河三角洲湿地典型植被高光谱遥感研究

高光谱遥感数据的特征提取和分类工作是高光谱遥感应用领域的研究重点和热点。滨海湿地区域面积广阔、地物分布复杂多样,且高光谱遥感数据本身维度高、数据量大,导致传统的特

学位

高光谱遥感数据挖掘特征提取植被分类黄河三角洲

保障性住房存在的问题及对策

有房可住是人类最低层次的需要，世界各国均将为其公民提供住房保障作为社会福利的重要部分。我国的保障性住房历经近二十年的发展已经初具规模。但是在发展过程中仍然存在很多

期刊

保障性住房问题对策

基于Cortex-A8智能家居控制系统的设计

随着科技水平的不断提升和生活质量的日益改善,人们开始对生活舒适度和家居系统智能化有了更高的需求。近年来,物联网技术迅猛发展,智能化的家居系统随之应运而生。而当前智

学位

智能家居控制终端数据采集模块Android系统S5PC100处理器Zigbee模块

用于个性推荐系统的文本爬虫设计与实现

其他学术论文