【摘 要】
:
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果
论文部分内容阅读
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果仍然采用传统的手工方式就很难跟上时代的步伐,因此利用试卷辅助生成系统辅助试卷生成己成为计算机辅助教学中的一个重要研究课题。论文着重探索了将Word格式的试卷中的试题文本块进行识别的方法。在教学过程中,大量的试卷都是采用Word形式的文件存储,在试题库系统出现后,将原有的Word试卷中的试题分类抽取、然后导入到试题库中成为试题库系统所面临的一个问题。论文首先简要介绍了Word文件的存储结构,对象模型,以及程序访问方式。从经典的文本字符匹配的方法出发,基于自动机理论对试卷的试题抽取进行建模,该模型的优点是采用正则式的原理,在编程上实现较为容易;缺点是需要对待识别的试卷字符的文本边界进行标注,需要引入额外的边界字符。边界字符在原有的试卷中是不存在的,因此需要对这些边界字符进行人工插入,这增加了试题抽取过程中的工作量。本文在自动机识别试卷的理论基础上,考虑到试卷本身也是图像这一特点,基于支持向量机理论,提出对试卷的试题文本进行向量化,然后求解试卷特征字符的向量划分,并依据此划分对试卷文本块进行识别。基于支持向量机的试卷文本识别,通过对试题文本的边界字符向量化来识别试题的块,无需再次对试题文本的边界进行标注,减少了试题识别时人工输入的劳动量。最后,在Office软件自带的VBA环境下,对算法进行了实现,并得出实验数据,同时对该算法进行了总结,并展望后续工作。
其他文献
随着“互联网+”时代的来临,互联网规模日益壮大,相应底层网络结构也日趋复杂。用户网络的安全性以及稳定性成为当今社会关注的热门话题,而如何解决互联网的持续可靠运行业已
随着计算机无线网络技术的迅速发展,无线局域网(WLAN)不断提高的传输能力和高效的移动能力已成为通信领域的一个重要发展产业之一,被人们越来越关注,并广泛应用于各个领域。
P2P (Peer-to-Peer)对等网络已经成为Internet中最重要的应用系统之一。然而,P2P具有的开放、匿名以及松耦合等特性,使得网络系统的安全面临着巨大的挑战,由此导致不可靠的服
无线局域网(WLAN)因其移动性、灵活性和经济性的特点,目前已得到广泛的发展。随着无线局域网的用户越来越广泛,其安全性的不足也渐渐凸显出来,成为制约其发展的一大要素。目前的
计算机断层扫描成像技术是医学成像领域的常用方法,心脏断层图像可视化是医学图像分析中的热点研究问题,旨在提供更加直观的人体心脏的三维信息。论文针对左心室形态和断层数
进化算法是一类通过模拟自然界中物种进化过程与机制来求解优化与搜索问题的一类自适应、自组织、自学习的人工智能技术。该算法基于这样的基本认识:“从简单到复杂、从低级到
近年来Web Services作为一种新技术广受关注。Web Services中的接口定义语言WSDL和内容传输格式SOAP已经成为W3C的草案和建议标准。然而,在实际应用中,单个Web服务通常无法满
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限