【摘 要】
:
本文介绍了文本分割的历史发展和现状,对当前文本分割领域的主流方法进行了讨论,并结合文本分类任务对文本分割任务中所存在的问题及典型的解决方案进行了介绍。因为统计模式
论文部分内容阅读
本文介绍了文本分割的历史发展和现状,对当前文本分割领域的主流方法进行了讨论,并结合文本分类任务对文本分割任务中所存在的问题及典型的解决方案进行了介绍。因为统计模式识别已是当前文本处理领域的主要手段之一,所以本文对统计模式识别中的一个重要概念Fisher线性分析做了较详细的研究,并采用其中的一种形式即基于欧式空间的类内类间距离方法作为评价函数,结合使用聚类的思想设计了一套算法,应用于文本分割任务。 因为本文的方法是由文本分类中的方法改进而成,所以在用于文本分割的任务时做了一定的修改。尤其针对对分割间距严重偏斜的情况的处理方面,本文尝试了熵函数惩罚方法,并最终提出了连乘概率方法对原类内类间距离进行修正。 本文的改进方法意义在于使用了含有全局信息的评价方法。虽然本文所采用的方法仅仅是各种含有全局信息的一种,但本文认为在文本分割中加入全局信息将有助于改善文本的分割效果。无论是分割方式还是语义段落数目的确定都需要有全局信息的参与。所以本文认为在文本分割任务中有必要使用含有全局信息的方法。 对于试验结果,本文重复了TextTiling算法在确定分割方式和语义段落数目的试验,并在试验的改进部分里阐述了其方法的一些不足之处,对比这些不足本文所提出的方法有了较明显的性能改善,较之TextTiling的方法高出近10个百分点。同时对于语义段落数目的确定本文的方法也较之TextTiling方法有极大的改善。 最后本文对所涉及的工作进行了总结,并对文本分割的一些环节中的方法提出了改进的试验方案。相信这些改进方案将有助于本文的文本分割方法进一步提高性能。
其他文献
本文系统地论述了极小trellis和tail-bitingtrellis理论,并将线性码的trellis在有限域上的一些性质推广到了有限交换群。 Trellis图是一种可以提高通信系统解码效率的重要
近年来,嵌入式技术发展迅速,在工业控制、银行、医疗等许多领域大显其能。同时,嵌入式设备也逐渐走入普通家庭,掌上电脑、PDA、多功能手机等越来越普及。随着网络技术的不断
本文使用的基于GM(1,1)模型的灰色预测控制器的主要特点是仅需要少量的被控对象模型结构的信息。 本文结合液位对象纯滞后的控制特点,分析了用灰色预测控制算法解决这类
数据仓库和OLAP(Online Analytical Processing)系统允许快速访问和整合海量数据进行分析。从这个意义上讲,数据仓库是BI(Business Intelligence)必不可少的工具。尤其是Hadoo
随着科学技术的不断发展,机械设备变的越来越复杂,自动化水平越来越高,设备在现代工业生产中的作用和影响也越来越大,并且与设备有关的费用越来越高。机器在运行中发生的任何
在现有的CAD 系统中,由于上个世纪下半叶在计算机图形学领域取得的巨大进展,在图形设计和实体造型方面已经基本能够满足设计的需要。但新技术的发展突飞猛进,随着网络技术特
神经网络在数据挖掘的应用中主要存在两个问题,一是训练时间过长;二是获得的知识难以理解和表示。神经网络中的规则提取方法是解决“黑箱问题” 的有效手段,论文分析了基于结构
网格是一个稳定的环境,它将分散在一个较大范围内的由不同组织管理的各种仪器设备、计算资源和信息资源集中在一起,允许应用软件方便地进行访问.计算机网络的迅速发展和网络
随着工业技术的发展,在人-机-环境这个系统中,人的因素越来越引起大家的重视。人的因素已经成为工业产品设计的主要因素甚至决定因素,在设计及产品的测试过程中需要“以人为
随着计算机技术的飞速发展,计算机已经逐渐成为人们生活不可或缺的一部分,与此同时,恶意软件的数量在迅速增长,其反分析、反检测技术也不断增强,这给安全软件的设计和实现提出了更