论文部分内容阅读
由于“互联网+”和“大众创业、万众创新”思维的兴起,基于互联网的技术众包平台成为各中小企业进行产品创新设计的重要途径,在此过程中各企业却还是面临着有需求找不到合适专家解决的难题。这个问题的根源在于专家资源大量分散于互联网,企业难以通过传统搜索引擎找到合适的专家,必须对专家资源进行有效整合。网络爬虫可以实现对信息的有效整合,而专家资源具有多源异构(来源于多个站点,不同站点的专家资源的组织方式不同)的特点,现有的网络爬虫很难快速准确地获取专家资源。本文针对上述问题,研究和设计针对专家资源的网络爬虫系统用以服务于中小企业的产品创新设计。本文的研究重点如下: 第一,针对专家资源多源的特点,本文分析了专家主页的来源特点,研究了专家主页识别和网页分块技术,实现了一种基于链接分块的专家主页识别方法。专家资源虽然具有多源的特点,但是专家主页集中在列表页中。本文首先根据列表页对应的链接文本包含特定词的特点使用正则表达式获取列表页,然后根据专家主页对应的链接具有相似性以及集中出现在列表页中某一块区域的特点通过计算链接相似度对列表页中的链接进行分块,最后根据专家主页包含姓名实体的特点获取专家主页链接块(专家主页对应链接的一个集合),从而实现专家主页的识别。 第二,针对专家资源异构的特点,本文分析了专家主页的内容和结构特点,研究了个人信息获取技术和DSE算法,实现了一种基于规则的专家主页解析方法。专家资源虽然具有异构的特点,但是每个列表页中的专家资源的组织形式基本相同。本文首先使用改进的DSE算法获取专家主页的正文内容,然后定义了专家个人信息的8个属性并根据专家属性具有引导词的特点通过正则表达式获取专家个人信息。 第三,专家的研究信息可以反映一个专家的研究状况,为企业找到合适的专家提供依据。本文分析了研究信息的来源和特点,研究了重名消歧技术,在充分利用学术搜索引擎对研究信息自动聚合的功能上使用编写规则的方式获取研究信息。 第四,本文在分析现有网络爬虫的基础上设计和实现了基于专家资源的网络爬虫系统。到目前为止,该系统已经获取13多万条专家信息。同时该系统遵循Robots协议(爬虫协议)并采用定时任务的方式降低对爬取站点的影响,是有“道德”的爬虫。