基于概率统计和句法分析的中文语句压缩系统的研究与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:shenkan8009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和数字设备的广泛使用,人们对信息的获取和接收都提出了更高的要求。虽然搜索引擎的出现大大加速了人们查找信息的速度,但是搜索引擎返回的是和查询内容相关的多个链接,其中内容大多是重复或者相似的,因此还得通过人工识别的方法去筛选所需内容,费时费力。为了快速而准确地获取主要信息,同时适应移动终端和数字多媒体技术对于信息显示的要求,许多互联网产品应运而生:内容聚合(RSS),电子邮件提醒,电影字幕生成等,这些无一不用到文本重写技术。近几年来,此项技术在多文档摘要,问答系统,机器翻译等自然语言处理领域也都得到了广泛的应用。而语句压缩则在其中占有重要的位置,它致力于在保留原语句关键信息的前提下生成一个更为简短,合乎语法规范的新句子。本文首次研究和实现了一种基于概率统计和句法分析的中文语句压缩系统,在总结前人研究成果的基础上,结合中文语句压缩的实际情况,一方面引入了有监督的机器学习方法来提取压缩规则,通过统计原句和压缩句在压缩前后句法成分的变化规律来计算各个句法成分的删除概率;另一方面采用命名实体识别技术和正则表达式匹配技术来进行扩展知识库的构建和缩略语的替换。因此本系统的压缩实际上实现了词语删除,词语替换,等文本重写操作。另外,由于国内外关于中文语句压缩的研究较少,相应资源不容易获取,因此作者构建了自己的中文训练语料库和扩展知识库,用于实验的训练和对压缩结果的测试。本文最后介绍了本系统在测试集上的实验结果,实验结果表明本系统具有良好的中文语句压缩效果和友好的操作体验。
其他文献
小水电代燃料(Small Hydropower Substituting Fuel, SHSF)生态保护工程是巩固退耕还林、天然林保护建设成果和保障偏远山区农民生活问题的重要举措。本文以贵州黔东南富江小
如今,对在线医疗信息咨询服务需求量越来越大。随着互联网技术的发展每天有上百万的人通过网络查询相关的医疗信息。也有很多网站将医疗咨询作为服务提供给患者查询搜索,患者
现代城市的快速发展,要求城市管理从传统的粗放化向精细化转变,城市部件作为城市管理的重要对象,对城市的精细化管理起着非常重要的作用。传统的部件管理方式是城市监督员发