基于AMR的社交短文本质量评估研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:lingdujimo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展及其应用的快速普及,微博、微信朋友圈、QQ动态等社交平台由其内容简洁通俗、发布便捷及时、方便用户交流等特点吸引了越来越多网民的关注,成为抒发情感与表达观点的重要平台。但发布门槛的降低也导致了信息泛滥,很多网民随意创作,无论是词语选取、句法结构还是内容的表达都参差不齐,给信息的获取带来极大困扰,人工筛选与标注是不现实的,因此需要一种自动化社交短文本质量评估与筛选方法。社交短文本的流行使得网络中充斥着大量文法混乱语义不清的句子,为此,本文提出一种将句法结构和修饰语义相结合的社交短文本质量评估算法。为了方便该方法的分析,利用抽象语义表示(Abstract Meaning Representation,AMR)的PENMAN树形式充分研究文本内容的句法结构完整性与修饰语义紧密程度。现有的中文AMR解析算法准确率较低,且未考虑概念节点的连接对其解析结果的影响,若详细分析所有节点关系,会存在一个节点被多次访问的情况,使其无法确定最终解析操作。本文根据汉语句法中谓词的重要性,提出通过分析谓词间关系改进基于转换的中文AMR解析器PR-CAMR(Predicate Relation-transition based Chinese AMR parser,PR-CAMR),将谓词连接分为双连续谓词与三连续谓词形式进行研究,之后,利用汉语依存树特征寻找更准确的操作行为。本文提出的质量评估方法将社交短文本分为单句和多句两种模式:单句模式首先将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度,然后根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值;多句模式首先选取每句中的关键词,然后循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。将中文AMR的语料库记为数据集A,人工选取微博文本构建的语料库标记为数据集B。先通过数据集A验证改进中文AMR解析器效果,通过5组对比实验发现谓词间关系能够有效提升AMR的准确性。之后,在数据集A与B中验证社交短文本质量评估的有效性。实验结果显示,句法结构和修饰语义相结合的短文本质量评估算法能够准确分析社交短文本的质量;与其他质量评估方法相比,AMR图结构能够准确且有效地表达出文本内容的句法与传播的信息量,更合理的对社交短文本质量进行研究。
其他文献
本文合成了3,4-二氨基-呋咱(DAF)的4种含能化合物:1-(2,4-二硝基苯基)-(3,4)-二氨基呋咱(DPAF)、1-(2,4,6-三硝基苯基)-(3,4)-二氨基呋咱(TNAF)、1,1-二-(2,4,6-三硝基苯基)-
移动通信已经进入5G(Fifth Generation,5G)时代,而3D大规模MIMO(3D Massive Multiple-input Multiple-output)技术是5G移动通信的关键技术。3D大规模MIMO技术不仅包含传统MIM
目前,国内外对镁合金的表面处理已做了大量研究并取得了很大进展,但是仍存在结合力差、有污染、成本高等不足,离实际应用还有一段距离。因此,一种具有高性能、节能、环保、低
核方法因其良好的泛化性能在分类、回归、聚类等机器学习领域得到了广泛的应用。在回归问题中,引入核函数的支持向量回归是解决非线性回归问题的一种有效方法。受限于传统的
图像的精准分割对于图像分析具有重要意义。基于划分的模糊聚类算法具有简单、灵活、快速高效的特点,在图像分割任务中得到广泛的应用。然而,现存的模糊聚类算法难以得到理想
在现有检测尿液白细胞的产品中,通常使用吡咯酯或吲哚酯作为化学反应底物。目前国内吡咯酯的供应商很少,而且价格非常昂贵,而吲哚酯没有供应商可以提供。因此这两种酯的合成,
管道机器人因其能够直接进入管道内部,高效准确地完成管道故障诊断、检测及维护等作业,目前已在管路工程领域得到了广泛的应用。然而,能源供给及驱动控制问题始终制约着管道
镁合金具有密度低、比强度和比刚度高、电磁屏蔽性良好和无磁性等优点,并且其阻尼减振性能明显优于其它金属结构材料,是制备高性能轻质减振结构件的关键材料之.一。然而,现有
飞行器以超高速进入大气层时与周围空气摩擦产生高温等离子体鞘套,等离子体鞘套的存在会对电磁波的传播产生严重的影响,甚至会造成通讯信号的中断,这就是通信“黑障”现象。
因为过渡金属化合物存在着独特的理化性能,和丰富的自然储备,从而一直活跃在日常应用和科学研究之中,尤其体现在催化、储能、电磁、传感等领域。越来越多的科研机构及高校致