论文部分内容阅读
随着人类社会的不断发展和科技的持续进步,在大数据的背景下,人们对自然语言智能识别的技术需求变得愈加迫切。大数据和人工智能已经渗透到了日常生活的方方面面,客服行业也因为互联网的发展和大数据时代的来临而迎来了新的挑战和变革,使得人们对于客服行业也有了新的期望。自然语言处理研究应运而生,它是属于人工智能解决大数据问题的重要分支。问答系统英文叫做 QA(Question Answering),是 NLP(Natural Language Processing)的一个重要应用领域。近些年来,自然语言处理领域已经取得了众多丰硕的研究成果,这是个很有实用价值的方向。搜索引擎的未来,很可能就是QA+阅读理解,机器学会阅读理解,理解了每篇文章,然后对于用户的问题,直接返回答案。智齿科技有限公司决定推出一款针对客服领域的智能问答系统,实现从输入业务领域语料到输出问答系统的自动化系统。而问答系统构建一定程度上依赖文本解意和用户意图识别,对语料数据进行QA对抽取,在实际应用中难免会出现机器不能理解文本意思,无法正确识别Q(Question)和A(Answer),而导致问答系统不能准确的抽取所有QA对;另外,中文问句表达一个意思有无数种话术问法,作为可通用智能问答系统,当用户的提问不存在于“问答—答案”对时,需要在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户。为了解决上述两个问题和实现问答系统QA对的匹配和识别,问句识别和文本相似度识别显得非常必要。北京智齿博创科技有限公司决定推出一款针对客服领域的智能问答系统,实现从业务方对话语料的输入到问答库输出的自动化构建并采用智能方法实现对客服问答平台使用者的问题智能返回最相关的回答。本文提出基于上述思路实现问答系统过程中的两个关键技术步骤:问句识别和文本相似度识别,并搭建独立的问句识别和文本相似度识别子系统。目的有以下几点:一是在问答系统是中首先能把问题和非问题做出正确的识别,才可能针对问题给出相应的回答;二是针对问答系统使用者提出的新问题,能够在已有问题中找到最相似的问题答案作为问答系统的答案返回给使用者,这也代表问答系统中同样语意的问题应该用同样的回答来做出回应;三是由于问句识别和文本相似度识别是问答系统实现的重要步骤,很大程度影响着问答系统的质量和使用效果,并且也可以作为独立自然语言处理任务而存在,所以搭建问句识别和文本相似度识别子系统可以对问句识别和文本相似度识别这两个独立任务进行分析和使用。本文成功完成了问句识别和文本相似度识别子系统的全部构建工作。作为问答系统子系统,通过中文问句识别和中文文本相似度识别,对最终实现问答系统完成了必不可少的重要一步。