论文部分内容阅读
领域术语识别是自然语言处理领域中的一个基本任务,在诸如本体构建、垂直搜索、文本分类、自动问答等现实任务中发挥着基础性的作用。传统领域术语识别方法主要以领域语料为基础来识别术语,但由于领域语料通常难以获取和更新,从而降低了领域术语的识别效果。 近年来,随着搜索引擎技术的快速发展和应用,搜索引擎查询日志逐渐成为一种重要的数据资源。查询日志作为一种具有“群体智慧”的数据,包含各种丰富信息,研究人员展开了大量的基于搜索引擎查询日志的工作。本文以领域术语识别为目的开展领域术语识别研究,提出了一种从搜索引擎查询日志这类非领域语料识别领域术语的方法。具体而言,本文方法包含两个阶段:首先利用查询日志中内在的流形结构从海量查询词中识别出领域相关的查询词,之后利用识别到的领域查询词自动构建领域Web语料集,并设计了候选领域术语生成和领域术语识别算法,从中识别得到相关的领域术语。 与传统方法相比,本文方法无需事先准备大规模领域语料集,而且在本质上是一种半监督领域术语识别方法,能够有效减少人工标注工作量,同时保证识别质量。在真实搜索引擎查询日志上的实验结果表明,本文方法比基准方法取得了更好的识别效果。