基于语义的杂合句子相似度研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:adunisrunning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科技的发展,人们对智能化的需求越来越高,从而也促进了人工智能的发展。以前,人工智能的发展主要是让计算机去做一些逻辑相对固定的、计算量相对较大的事情,将人们从简单的劳动中解脱出来。现在,人们不再满足于这些简单的智能操作,而进一步要求计算机能够像人类一样进行思考并能通过自然语言与人类对话,这就需要计算机能够理解人类的语言。而人类语言的文本常常以句子的形式存储在计算机上,因此首先要求计算机能够理解单个的句子。其中,句子之间相似度的计算就是自然语言处理的一个重要方面。本文根据汉语句子的结构复杂、词语一词多义和多词一义的特点,提出了基于语义的杂合句子相似度计算方法。此方法从句子结构、句法特征和修饰词三个方面对句子进行分析计算:1)句子结构:句子包含有句子长度、句子中相同词的个数、词语在句子中的排列次序和两个句子相互转化的编辑次数等结构特征。在计算句子结构特征相似度时,综合考虑句子表层结构特征,根据每种结构的变化对语义的影响程度的不同,为每一种特征赋一个权值,然后根据每种特征计算的相似度进行加权求和,最终得到句子结构相似度。2)句法特征:首先对句子进行分词,将句子分解为词语组成的集合,这样使原来具有结构化的句子变为无结构化的独立的词语集。然后通过句法分析和词语依存关系将这些无结构化的词语转换为一个或多个具有“主语+谓语+宾语+介词短语”结构的简单句子,通过计算简单句子间的相似度来最终确定句子相似度。同时,在计算每一对具有“主语+谓语+宾语+介词短语”结构的简单句子的相似度时,考虑每种句法成分之间的不可置换性,本文进一步融合了成分信息,最终通过主语和主语、谓语和谓语、宾语和宾语以及介词短语和介词短语之间的对比进行相似度计算。3)修饰词:本文把修饰词分为三类:正面情感词语、负面情感词语和程度级别词语。在这三类修饰词中,优先考虑程度副词对句子语义的影响,融入程度副词后的句子相似度仍然大于某一阈值,再考虑正面情感词语、负面情感词语对句子相似度的影响。本文在计算句子相似度时,首先计算基于结构的句子相似度,然后通过词语之间的相似度计算基于句法特征的句子相似度,在基于句法特征相似度的基础上融入修饰词,得到基于修饰词的句子相似度,最后将基于结构的句子相似度和基于修饰词的句子相似度加权求和,最终得到句子相似度。本文通过皮尔森相关系数以及正确率、召回率和F值来评判相似度计算方法的优劣,通过实验计算得到基于结构、句法特征、修饰词和杂合的相似度计算结果分别与人工判定值进行比较,得到的Pearson相关系数分别为:0.42、0.54、0.83和0.89。基于语义的杂合句子相似度计算结果的正确率、召回率和F值分别为:84.85%、93.33%和88.89%。
其他文献
草酸氧钛盐[Ti2O3(H2O)2(C2O4)·H2O]作为合成TiO2的中间体材料,通过改变反应条件,研究人员目前已成功制备出TiO2单相或混晶材料,但关于Ti2O3(H2O)2(C2O4)·H2O原位形成TiO2多相混晶
聚甲基丙烯酸甲酯(Polymethyl methacrylate,PMMA)和丙烯腈-丁二烯-苯乙烯共聚物(Acrylonitrile butadiene Styrene copolymers,ABS)作为重要的工业原料,在工业生产过程中与可燃
光肩星天牛(Anoplophora glabripennis)是一种重要的杂食性蛀干害虫。该虫主要分布在我国的东北、华北和中部地区,危害杨属(Popu1us)、榆属(Ulmus)和柳属(Salix)等多种阔叶树
针对低品质粘结性煤不易处理,综合利用率低等问题,外热式内构件固定床装置被用于热解获得较高品质的焦油和半焦,本研究首先采用黄金炉对煤样进行大剂量热解,探究粘结性煤样热
为了探索新的火工品电-热转换介质,本文开展了以碳纤维为载体对纳米Al/Bi_2O_3进行自组装以及使用该材料作为点火件的性能的研究。本研究同时解决了纳米Al/Bi_2O_3静电感度过高和易于团聚的问题。本文以纳米Al/Bi_2O_3铝热剂为研究主体,将氧化碳纤维(CFO)/Al/Bi_2O_3和氧化石墨烯(GO)/Al/Bi_2O_3两个复合体系作为研究对象,主要的研究内容如下:(1)以改进的Hu
如今,纳米科技是关注度较高的前沿技术之一,纳米技术也飞速发展,纳米材料因其具有独特的性质和性能成为了高性能材料的研究热门方向;纳米纤维因其高比表面积,孔隙率,柔性等特
为了降低环境温度对钨系延期药燃速的影响程度,提高钨系延期药的延期精度,本文通过添加一系列导热填料及负热膨胀材料,探究不同材料对钨系延期药导热系数及温度系数的影响。为了便于对比,采用高低温延期时间总精度来表示温度系数的大小。(1)设计了一种利用p-t曲线测试延期时间的装置。分别用p-t曲线法和光电法测试了秒级延期体及毫秒级延期体的延期时间,并对所得结果进行了对比。其中秒级延期体光电法测试后计算得到的
王蕴章是我国晚清民国时期重要的文学家、书法家、戏曲家。王蕴章的戏曲创作自宣统三年闰六月二十五日(1911年8月19日)发表《碧血花传奇》开始,创作的高峰期在民国三年(1914年)、民国四年(1915年)间,此间陆续发表《霜华影传奇》、《香桃骨传奇》、《绿绮台传奇》、《铁云山传奇》、《可中亭传奇》、《锦树林传奇》六种。后期创作了四部作品《青年镜传奇》、《玉鱼缘传奇》、《剪淞快语》、《鸳鸯被传奇》。王
随着人类对化石能源的大量开采和使用,过量的CO2正不断地排放到大气当中,由此引发了全球性的气候变暖、海水酸化等严重问题,CO2减排已成为各国的共识。对燃煤电厂烟道气进行C
本文对中华蜜蜂工蜂1、2、3、4日龄封盖子40℃培育不同时间,研究温度对蜜蜂发育的影响。通过对封盖子死亡率、发育历期、蜜蜂初生重、翅脉发育、32个形态指标、发育波动不对