基于互联网的自动问答答案抽取的研究

来源 :天津大学 | 被引量 : 2次 | 上传用户:ArchrSaber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于互联网的自动问答基于搜索引擎返回的结果回答自然语言问题,可充分利用搜索引擎高质量的结果,省去存储大量文档的必要。答案抽取是从检索得到的文本中生成答案,包含候选生成和候选排序。由于搜索片段具有噪音多、句子结构不完整等特点,使得基于搜索结果的答案抽取和正规文本上的答案抽取有很大不同,传统方法在该任务上受到影响,性能下降。本博士论文讨论如何针对搜索结果的问题优化答案抽取,包括以下课题:针对一些搜索结果中正确答案出现的特征不明显的问题,本文提出了基于段落图模型的候选生成方法,某个段落中的候选生成可以接收到来自其他段落中的信息、并帮助提高当前段落中生成候选的结果。实验证明,该模型可有效提高候选生成的准确率和召回率。对搜索结果中噪音多、句法结构不完整的问题,本文提出了剪枝排序融合整合不同候选生成方法,并基于排序学习进行候选重排序。该框架可以有效减轻搜索结果中的噪音的影响。实验证明,本文中的排序方法在基于搜索结果中的候选排序任务上超过了目前最好的算法。针对搜索结果表达和原问题之间有较大差异、在计算相似度时可扩展性差的问题,本文提出了两种基于词表示的问题和候选答案相似度的计算方法,包括搜索结果和问题之间的文本相似度和候选答案和答案类型之间的语义相似度。实验证明,使用本文提出的两种基于词表示计算的相似度可以有效提高候选排序的结果。针对搜索结果和问题间存在表述差异这一问题,本文探讨复述生成的应用。本文提出了基于联合学习的对偶机器翻译系统生成复述的方法以及复述生成的评价指标。使用该方法生成问题的复述表示,可增加复述表示的差异性,减轻计算相似度时不同表示之间差异带来的影响。实验证明,使用本文提出的复述生成方法可提高候选排序结果。其中,本文使用基于段落图模型方法进行候选生成,然后结合其他候选生成方法、基于排序学习进行候选排序。在此基础上,使用基于词向量、复述计算的相似度特征提高排序结果。通过本文的研究,减轻了基于搜索结果生成答案时,搜索片段的噪音等问题对问答结果的影响,使得基于互联网的自动问答的答案抽取在不依赖句法、语义相似度的情况下,获得超过目前最好答案抽取方法的结果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
从20世纪90年代开始,Eckhorn等对猫、猴等生物视觉皮层神经元脉冲串同步震荡现象开展研究,进一步演化得到了哺乳动物的近似神经元模型,随着不断的深入研究建立了脉冲耦合神经
文中针对数字图书馆的发展为目的探讨了数字图书馆储存和媒体多样化,对不同的媒体采用不同的存储与压缩方式,根据不同的读者拥有多种语言检索,主动地为读者提供所需的信息资源,提
通过梳理京族相关文献,分析京族文献的发展情况,提出了京族文献整体规划有待提高、缺乏持续有效的文献收集整理机制、缺乏精通中越两国语言的研究型人才等困境,并进一步提出
目的 探讨测定妊娠期糖尿病(GDM)患者糖化血红蛋白(HbA1c)的临床意义。方法 对正常妊娠组(对照组)220例及妊娠期糖尿病患者(GDM组)136例分别进行空腹血糖(FPG)、餐后2h血糖(2h PBG)和糖化
在初中美术教学中,教师可以采用书画结合的方式,提高学生的美术技能和审美能力,让学生感受传统文化的魅力。教师可以借鉴书法的点线技法让学生意识到如何在绘制中国画时增添
煤粉输送系统对气流床气化炉的稳定运行至关重要,从载气流量、给料容器的流化气量、系统压差以及煤粉的性质等角度分析了影响煤粉输送系统稳定性的因素,同时对煤粉输送系统的
由于噪声和硬件的限制,低端图像设备采集到的图像和视频并不理想。因此,许多文献中都对这个问题提出了解决方法。超分辨率技术就是其中一种将图像或视频由低质量重构成高质量