基于网页结构的信息抽取关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:oncecao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经成为人们生活中重要的信息来源,在网络信息快速增长的情况下,如何从海量的信息中找到用户所要的信息是一个很大的挑战。搜索引擎的出现使得这个问题得到了比较好的解决,但是由于网络中大量的信息都是用HTML语言来发布的,而HTML本身是一种半结构化的语言,这种语言用定义好的标签来组织信息,只有少量的标签本身能提供的信息。互联网上的HTML网页虽然千差万别,但是有两类网页的特点是非常明显的:主题型网页和非主题型网页。非主题型网页的特点是整个网页的链接非常多,并且整个网页没有统一的主题,互联网上的门户网站及其次级站点是这类型网页的典型。主题型网页的特点网页有中心主题而且按照其页面的布局可以分为导航、主题、版权信息、广告等部分,新闻网页是这种网页的典型例子。本文针对主题型网页设计了新的网页分块方法,该方法采用网页的组织标签作为分割依据,设定了若干分块规则。与木棉原有分块分块方法相比,新方法引入了临时分块池,以便于将分块之间的小块合并成为一个大块,使分块粒度不至于过细。另外新方法还引入了分块类型的判断规则用于判断分块的属性,分块共分为链接块,页脚块,噪音块,主题块四种类型,新分块方法只保留了主题块,其他类型的块作为因为含有信息量少而被丢弃。在分块的基础之上,本文针对华南理工校园网网页设计并实现了新的信息抽取方法,这些方法用于抽取校内网页中的如下信息:网页标题,网页发布时间,网页描述图片,网页正文文本。原有系统已经对前三项信息进行抽取,但是没有利用到网页的主题信息,因此抽取的信息不够全面或者有些信息抽取不够准确,新的方法充分利用了网页的主题信息,有效地改善了信息抽取的准确性,新方法增加了网页正文文本这一项的抽取,可用于网页文本摘要。本文最后对网页的基本性质,网页分块以及信息抽取方法进行评测,评测将在以下三个方面展开:网页性质测试,分块方法性能对比,信息抽取应用结果。其中信息抽取应用于木棉检索系统中,比较原有方法和新抽取方法的抽取信息的效果。测试的数据集由华工校内网页和互联网9个门户网站的主题型网页和非主题型网页组成。
其他文献
目的研究氯诺昔康超前镇痛用于腹腔镜胆囊切除的临床疗效,提高腹腔镜胆囊切除术的成功率。方法选择2010年12月~2012年12月在我院接受腹腔镜胆囊切除术的80例患者作为研究对象
目的 探讨计算机网络排班系统在护理管理中的应用效果。方法通过对全院护士长的教育、培训,充分开发、合理利用网络排班系统。结果提高工作效率,确保数据准确,表格规范有序,使用
本文通过几个例子和通俗的语言简要介绍蒙特卡罗(MC)方法的应用.文中例子显示,即使是一些尚无其它办法计算的复杂问题,应用MC方法也可以获得可用的结果,并且使用中档的个人电
阐述了高新技术企业孵化器在我国的发展历史,指出树立正确的孵化理念是企业孵化器文化建设的第一步,打造和谐的孵化器团队是企业孵化器文化建设的关键,选择好孵化器领头羊是
目的:探讨无痛人流采用丙泊酚与氯诺昔康复合麻醉的临床效果。方法:本次共选择100例无痛人流患者作研究对象,均为我院产科2013年6月-2014年2月收治,随机分组,就单用丙泊酚(对
介绍了离心模型实验机在国内外的发展状况,以及离心模型实验技术在岩土工程中的应用情况。
德宏边疆民族地区文化建设既要立足于尊重差异、包容多样,使民族传统文化得到了继承和弘扬,又要发挥社会主义核心价值体系的引领作用,使民族文化的内含得到提质和升华,体现来
目的:分析氯诺昔康在无痛人流麻醉中的镇痛效果。方法:选取需要行无痛人流的患者120例,随机分成两组(n=60)。对照组术前仅使用丙泊酚麻醉,实验组使用丙泊酚前静脉注射氯诺昔
<正> 八纲辨证研究对八纲辨证的研究主要是从阴阳、寒热二个方面着手。阴阳方面叶增茂等探讨了高血压、冠心病、脑血栓形成等患者血清脂蛋白——胆固醇(LDL—Ch、HDL—Ch)变
机电工程设计施工维护总承包模式是江西省高速公路机电工程建设的一次改革、探索和实践。2016年2月,江西省高速集团在宁都至定南高速公路和都昌至九江高速公路(二期)进行机电工