论文部分内容阅读
厦门作为全国著名的旅游城市,每年都会迎接大量的游客。庞大的旅游群体如何便捷、高效的获取厦门旅游信息也成为一个亟待解决的问题。人们通常利用传统搜索引擎来检索信息,但是传统搜索引擎存在一些不足,例如,只能够返回和关键词相关的文档。与此相比,自动问答系统能够针对问题能给出简短、明确的答案。同时随着人们获取信息方式的多样化,微信公众号文章也越来越受欢迎。并且针对不同的地域,会产生具有地域性的公众号,这些公众号会产生大量的具有实时性和地域性的信息。为了更好的满足厦门游客的信息需求,本文通过对微信公众号文章数据进行挖掘,并结合问答系统的三个方面:问题分析,信息检索和答案抽取,实现了面向厦门旅游领域的自动问答系统。具体开展了如下工作:一、厦门旅游相关数据采集。首先通过人工采集获取和厦门旅游相关的105个微信公众号,其次利用微信文章采集器获取采集到的公众号文章链接,并通过爬虫技术获取文章链接的网页内容,最后构建数据库对爬取的内容进行存储作为问答系统的数据源;另外通过爬虫技术获取网络上和厦门旅游相关的问题数据集。二、厦门旅游问句分析:首先分析现有的问句分类体系,根据分类体系对采集到的问题数据集进行类别标注,并利用支持向量机对其进行分类;其次对用户输入的问题进行预处理之后,对其进行关键词提取,并利用《同义词词林(扩展版)》对其进行关键字扩展,最后将扩展后的词集作为信息检索的输入。三、微信文章的检索:首先为了根据扩展后的词集从构建的数据库中获取相关的微信文章,本文采用全文检索引擎工具包Lucene对文章数据进行检索。其次为了获取更好的中文文本检索效果,用中文分词系统NLPIR对Lucene中自带的分词工具进行替换,最终利用Lucene获得相关度最高的前五篇微信文章。四、答案抽取:首先将得到的微信文章切分为句子,作为候选答案集。其次通过问句的类别制定答案抽取的规则,并对答案集进行过滤。最后利用句子相似度算法计算问句和答案句的相关度,将和问句最相关的前五个答案句返回作为最后的答案。