论文部分内容阅读
随着市场竞争的日益加剧,企业如果想在激烈的产品市场竞争中站得住脚绝非易事,但也并不是没有可能。企业需要做的就是牢牢把握质量,通过不断地提高产品的质量来满足消费者的期望,让消费者信赖。加入 WTO后现代烟草企业的发展势头越来越猛,但是我国的烟草行业也面临着产品激烈的市场竞争和更加严峻的挑战,卷烟产品的质量已成为一个衡量烟草企业竞争力的重要因素。卷烟产品质量的好坏直接影响烟草企业的经济效益,更长远的来看它也决定了该企业未来发展的高度。正是因为如此,各大烟草企业将质量置于高度重视的地位。卷烟质量的优劣迄今仍是靠卷烟评吸专家的感官进行评估。因此,烟草企业在开发出一个新产品或者改进一个卷烟产品后会组织评吸人员对卷烟产品进行评吸测试,然后卷烟评吸人员会对卷烟产品进行质量评价以及描述反馈意见。而大量的质量评价文本需要人为的分析与整理,耗时比较长,而且容易出现差错,本文设计的面向卷烟质量评价的自动文摘系统正是解决这一难题的非常有效的工具。 现代社会是一个信息爆炸的时代,信息过载问题已经成为一个显著的问题。传统的信息检索方法已经不能满足人们对获取巨大的信息的要求,摘要作为对原始文本信息的压缩可以减少信息量。人们可以利用计算机对这大量文本信息进行预处理,生成能够基本反映文章主要内容的摘要信息,然后只要阅读少量的摘要信息就可以做出大致的判断。读者如果对该文章有兴趣可以进一步阅览全文,如果想汇总某一文档的基本信息,就可以得到大致的摘要内容,这将大大地提高人们获取电子文本信息的效率。通过阅读较为准确的摘要信息,就可以轻松、快速地了解原文,而无须去通读全部文档,从而可以节省宝贵的时间和精力。自动文摘是情报科学和计算机语言学共同关注的课题,其本质是信息的浓缩和信息的挖掘。从理论上来讲,对自动文摘的研究将有助于探讨人们从中获取知识的认识模型,并且概括、理解自然语言文本,自动文摘也被认为是计算机实现自然语言理解的重要标志之一。从应用角度来讲,在因特网和文献电子化迅速发展的今天,自动文摘系统的使用将大幅度降低人为的编制摘要成本,缩短文摘的出版周期,为人们迅速、准确和廉价地获得所需要的信息提供方便。 本文设计的面向卷烟质量评价的自动文摘系统采用自动摘录原文中句子生成摘录性摘要的方法。系统基于.NET框架开发实现,使用了 SQL Server2005数据库。该系统直接利用计算机进行烟草领域文本信息摘要的自动生成,要实现的功能就是卷烟产品的质量描述评价文档经过统计分析、情感分析等给出文本信息的摘要句并按照一定的规范输出。本文对系统的各功能模块的具体实现做了详细介绍,主要包括五个模块。文本预处理模块对文本信息进行预处理,使文本按一定的规则规范化;分词模块,对文本信息进行中文分词,中文自动分词技术是自然语言处理领域一项很重要的基础工作;加载词库模块,使系统的分词词库越来越丰富,增加分词的准确度;词频统计分析模块,通过统计名词指标词与形容词性情感词,找到关键词,为提取摘要做准备;情感极性判断模块,通过对文本信息中关键词所属句子集合中的形容词的极性进行加权求和计算,得到各个关键指标词所拥有的情感极性;输出摘要模块,根据以上模块的分析,按照一定的规则得到摘要信息,从而实现对用户需求的功能。 本文设计实现的面向卷烟质量评价的自动文摘系统,解决了用户的需求,可以极大的提高了烟厂测试分析人员的工作质量和效益,减少差错,减轻劳动强度,从而快速提高烟草企业的卷烟产品质量和整体管理水平,具备一定的实用性和推广价值。