多源异构专家资源网络爬虫系统的设计和实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tingtngliok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于“互联网+”和“大众创业、万众创新”思维的兴起,基于互联网的技术众包平台成为各中小企业进行产品创新设计的重要途径,在此过程中各企业却还是面临着有需求找不到合适专家解决的难题。这个问题的根源在于专家资源大量分散于互联网,企业难以通过传统搜索引擎找到合适的专家,必须对专家资源进行有效整合。网络爬虫可以实现对信息的有效整合,而专家资源具有多源异构(来源于多个站点,不同站点的专家资源的组织方式不同)的特点,现有的网络爬虫很难快速准确地获取专家资源。本文针对上述问题,研究和设计针对专家资源的网络爬虫系统用以服务于中小企业的产品创新设计。本文的研究重点如下:  第一,针对专家资源多源的特点,本文分析了专家主页的来源特点,研究了专家主页识别和网页分块技术,实现了一种基于链接分块的专家主页识别方法。专家资源虽然具有多源的特点,但是专家主页集中在列表页中。本文首先根据列表页对应的链接文本包含特定词的特点使用正则表达式获取列表页,然后根据专家主页对应的链接具有相似性以及集中出现在列表页中某一块区域的特点通过计算链接相似度对列表页中的链接进行分块,最后根据专家主页包含姓名实体的特点获取专家主页链接块(专家主页对应链接的一个集合),从而实现专家主页的识别。  第二,针对专家资源异构的特点,本文分析了专家主页的内容和结构特点,研究了个人信息获取技术和DSE算法,实现了一种基于规则的专家主页解析方法。专家资源虽然具有异构的特点,但是每个列表页中的专家资源的组织形式基本相同。本文首先使用改进的DSE算法获取专家主页的正文内容,然后定义了专家个人信息的8个属性并根据专家属性具有引导词的特点通过正则表达式获取专家个人信息。  第三,专家的研究信息可以反映一个专家的研究状况,为企业找到合适的专家提供依据。本文分析了研究信息的来源和特点,研究了重名消歧技术,在充分利用学术搜索引擎对研究信息自动聚合的功能上使用编写规则的方式获取研究信息。  第四,本文在分析现有网络爬虫的基础上设计和实现了基于专家资源的网络爬虫系统。到目前为止,该系统已经获取13多万条专家信息。同时该系统遵循Robots协议(爬虫协议)并采用定时任务的方式降低对爬取站点的影响,是有“道德”的爬虫。
其他文献
褐煤蜡具有优良的物理化学性质,被广泛用于电气、建筑、精密铸造、橡胶、日用化妆品等多个领域。我国褐煤蜡资源并不丰富,充分开发利用褐煤蜡资源具有重要意义。在对原煤煤质
粗糙表面接触过程的研究对进一步研究摩擦机理、确定摩擦过程中各种因素的相互作用关系以及表面形貌变化的微观过程具有重要的意义。   在摩擦过程中,对于单个表面来讲,表面
众所周知,汽车电器性能的好坏对于整车的安全性和可靠性非常重要。然而,在汽车行驶过程中某些电器件会出现因长期振动而被损坏的现象,为了避免这种情况的发生,需要对汽车电器
结合山西阳煤集团晋南公司新星煤矿村庄下充填开采为研究对象,以811村庄压煤工作面的地质及开采条件为研究基础,采用概率积分法和开采沉陷可视化系统对直接垮落法开采对地表
颅颌面外科疾病严重影响患者的生活质量,因此研究有效的手术疗法是临床迫切需要解决的问题。人工针穿刺是目前该领域比较常见的诊疗手段,但该方法存在一些固有的缺点。首先,
激烈的市场竞争以及多品种、小批量和快速交货的生产要求给制造企业带来了巨大的压力,企业纷纷开始寻求先进的生产方式以提高自身的竞争能力。单元化制造作为一种先进的生产组织方式逐渐被越来越多的制造企业所接受。制造执行系统作为一种连接上层生产计划与底层工业控制之间的信息系统,能够有效地改善制造过程的管理,降低生产成本,提高生产效率,也得到了越来越多制造企业的关注。目前,国内外在制造执行系统共性技术方面已经开
随着吊装等行业的不断发展,履带起重机向大型化、复杂化发展,起升高度、作业幅度和起重量越来越大,对设计方法和手段提出了更高要求。尤其是针对长臂架系统,目前臂架长度可达到100m以上,可以想象在臂头吊有重物的情况下其变形量之大,在变幅、回转等动作过程中其动特性表现尤为明显。因此研究履带起重臂架的动特性乃至整机系统的动特性是十分必要的。 本文是以大连理工大学工程机械研究所开发QUY350履带起重机