论文部分内容阅读
随着互联网的快速发展和数字设备的广泛使用,人们对信息的获取和接收都提出了更高的要求。虽然搜索引擎的出现大大加速了人们查找信息的速度,但是搜索引擎返回的是和查询内容相关的多个链接,其中内容大多是重复或者相似的,因此还得通过人工识别的方法去筛选所需内容,费时费力。为了快速而准确地获取主要信息,同时适应移动终端和数字多媒体技术对于信息显示的要求,许多互联网产品应运而生:内容聚合(RSS),电子邮件提醒,电影字幕生成等,这些无一不用到文本重写技术。近几年来,此项技术在多文档摘要,问答系统,机器翻译等自然语言处理领域也都得到了广泛的应用。而语句压缩则在其中占有重要的位置,它致力于在保留原语句关键信息的前提下生成一个更为简短,合乎语法规范的新句子。本文首次研究和实现了一种基于概率统计和句法分析的中文语句压缩系统,在总结前人研究成果的基础上,结合中文语句压缩的实际情况,一方面引入了有监督的机器学习方法来提取压缩规则,通过统计原句和压缩句在压缩前后句法成分的变化规律来计算各个句法成分的删除概率;另一方面采用命名实体识别技术和正则表达式匹配技术来进行扩展知识库的构建和缩略语的替换。因此本系统的压缩实际上实现了词语删除,词语替换,等文本重写操作。另外,由于国内外关于中文语句压缩的研究较少,相应资源不容易获取,因此作者构建了自己的中文训练语料库和扩展知识库,用于实验的训练和对压缩结果的测试。本文最后介绍了本系统在测试集上的实验结果,实验结果表明本系统具有良好的中文语句压缩效果和友好的操作体验。