基于搜索引擎查询日志的领域术语识别方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:QQ343282482
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域术语识别是自然语言处理领域中的一个基本任务,在诸如本体构建、垂直搜索、文本分类、自动问答等现实任务中发挥着基础性的作用。传统领域术语识别方法主要以领域语料为基础来识别术语,但由于领域语料通常难以获取和更新,从而降低了领域术语的识别效果。  近年来,随着搜索引擎技术的快速发展和应用,搜索引擎查询日志逐渐成为一种重要的数据资源。查询日志作为一种具有“群体智慧”的数据,包含各种丰富信息,研究人员展开了大量的基于搜索引擎查询日志的工作。本文以领域术语识别为目的开展领域术语识别研究,提出了一种从搜索引擎查询日志这类非领域语料识别领域术语的方法。具体而言,本文方法包含两个阶段:首先利用查询日志中内在的流形结构从海量查询词中识别出领域相关的查询词,之后利用识别到的领域查询词自动构建领域Web语料集,并设计了候选领域术语生成和领域术语识别算法,从中识别得到相关的领域术语。  与传统方法相比,本文方法无需事先准备大规模领域语料集,而且在本质上是一种半监督领域术语识别方法,能够有效减少人工标注工作量,同时保证识别质量。在真实搜索引擎查询日志上的实验结果表明,本文方法比基准方法取得了更好的识别效果。
其他文献
近年来,P2P网络受到广泛的关注并发展迅速,而资源搜索是P2P网络的关键技术之一,如何高效地搜索网络资源是P2P网络的研究重点。本文主要从资源特征分类、资源密度、资源热度等方
无线传感器网络集传感、数据处理和无线通信于一身,通常被部署在各种恶劣环境中进行信息获取和收集任务。在军事国防、环境监控、工业管理等各方面都具有十分广阔的应用前景。
随着计算机软硬水平的不断提高,嵌入式领域的发展也取得了长足的进步。目前,嵌入式与Linux技术的结合正在推动着嵌入式技术的飞速发展,嵌入式系统的研究和应用产生了显著的变
随着电子政务应用的不断深入,使得政府部门的工作方式发生了巨大的变化。电子政务给政府工作带来方便和高效率的同时,也带来许多安全问题。如何保障在信息安全的前提下提高政
随着Internet的发展,国际互联网(Web)已经成为人们信息共享与信息传播的主要媒介。对Web网络结构特征和演化规律的探讨成为Web网络研究的重点,建模则成为主要的研究方式。本文
网络的快速发展导致网络攻击行为日益增多,网络安全问题愈发严峻。网络流量异常检测作为一种重要的网络监管手段,是解决网络安全问题的有力措施。在实际工作中,我们观察到异
在水泵计算机选型软件或水泵专家系统开发中,需要使用到水泵性能曲线图来确定所需泵的型号或研究水泵的工作状况。水泵性能曲线,是根据该水泵在实验室中通过实验测试出的一组
随着经济全球化进程的推进,越来越多的用户或者业务需求超越了传统的组织界限,要求多个组织协同完成,跨组织业务流程管理应运而生。由于跨组织业务流程的业务结构复杂且涉及到多
人脸检测由于它的学术价值和应用范围,越来越受到人们的关注。其中自适应自举学习算法(AdaBoost)将人脸检测带入了实用领域。人脸检测的任务是从静态图像或视频中定位人脸的
面对网络上海量的信息,搜索引擎已经成为我们获取网络信息的主要入口。目前的搜索引擎主要采用基于关键词的匹配来获取Web上的相关信息。但是,一方面Web上信息的巨大数量及其丰