论文部分内容阅读
随着互联网的迅速发展及其应用的快速普及,微博、微信朋友圈、QQ动态等社交平台由其内容简洁通俗、发布便捷及时、方便用户交流等特点吸引了越来越多网民的关注,成为抒发情感与表达观点的重要平台。但发布门槛的降低也导致了信息泛滥,很多网民随意创作,无论是词语选取、句法结构还是内容的表达都参差不齐,给信息的获取带来极大困扰,人工筛选与标注是不现实的,因此需要一种自动化社交短文本质量评估与筛选方法。社交短文本的流行使得网络中充斥着大量文法混乱语义不清的句子,为此,本文提出一种将句法结构和修饰语义相结合的社交短文本质量评估算法。为了方便该方法的分析,利用抽象语义表示(Abstract Meaning Representation,AMR)的PENMAN树形式充分研究文本内容的句法结构完整性与修饰语义紧密程度。现有的中文AMR解析算法准确率较低,且未考虑概念节点的连接对其解析结果的影响,若详细分析所有节点关系,会存在一个节点被多次访问的情况,使其无法确定最终解析操作。本文根据汉语句法中谓词的重要性,提出通过分析谓词间关系改进基于转换的中文AMR解析器PR-CAMR(Predicate Relation-transition based Chinese AMR parser,PR-CAMR),将谓词连接分为双连续谓词与三连续谓词形式进行研究,之后,利用汉语依存树特征寻找更准确的操作行为。本文提出的质量评估方法将社交短文本分为单句和多句两种模式:单句模式首先将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度,然后根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值;多句模式首先选取每句中的关键词,然后循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。将中文AMR的语料库记为数据集A,人工选取微博文本构建的语料库标记为数据集B。先通过数据集A验证改进中文AMR解析器效果,通过5组对比实验发现谓词间关系能够有效提升AMR的准确性。之后,在数据集A与B中验证社交短文本质量评估的有效性。实验结果显示,句法结构和修饰语义相结合的短文本质量评估算法能够准确分析社交短文本的质量;与其他质量评估方法相比,AMR图结构能够准确且有效地表达出文本内容的句法与传播的信息量,更合理的对社交短文本质量进行研究。