基于句子级的最大频繁序列的文本分类

来源 :计算机科学 | 被引量 : 0次 | 上传用户:yuxuan_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。
其他文献
近些年来,糖尿病的发病率逐渐上升,各种慢性并发症相应增加,而糖尿病足是糖尿病严重的血管并发症之一,也是糖尿病病人致残致死的重要原因。事实上,糖尿病患者进行截肢手术的例数远
审计系统作为安全信息系统的一个重要组成部分,对于监督系统的正常运行、保障安全策略的正确实施、构造计算机入侵检测系统等都具有十分重要的意义。审计缓冲区的管理是审计系
移动Adhoe网络没有固定的网络基础设施、网络拓扑结构频繁动态变化、无线信道完全开放、网络缺乏自稳定性。在这样的网络中,节点之间的相互信任对网络的安全保障与可靠运行均