【摘 要】
:
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成
【机 构】
:
华中师范大学信息管理系,华中师范大学信息管理系 武汉430079,武汉430079
论文部分内容阅读
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。
其他文献
16世纪罗马天主教耶稣会士的来华以及随之而来的西学在中国的出现和传播,标志着从佛教传来以后第二次外来文化的输入。传教士们携来大量西书、西器、西图,通过撰译著作和与士
【正】 到了三十年代,丁玲的创作有了明显转变。开初,她的小说也曾“陷入恋爱与革命冲突的光赤式的阱里去了”。但不久则超越了这一台阶,呈现出崭新面貌。作为转变的起步,即
分析了网络广告信息源与竞争情报工作的关系,确定了从网络广告中获取竞争情报的可行性,并阐述了利用网络广告开展竞争情报工作的策略及流程。
目的 探讨脾虚与脾虚痰湿证等不同证候状态下血浆、胃粘膜胃泌素 (Gas)、降钙素基因相关肽 (CGRP)、表皮生长因子 (EGF)含量的变化及相互调节关系。方法 用放射免疫方法检
介绍信息查寻行为及自我效能感的相关概念,通过分析在信息查寻行为中自我效能感的具体表现形式,说明在信息查寻行为中自我效能感会对用户产生影响。从目标确定、信息源及查寻
通过抗裂度对预制板的开裂性能进行评价,并用Ansys有限元分析软件对竹筋多孔混凝土预制板进行应力和挠度有限元分析,对预制竹筋多孔混凝土板的开裂弯矩和受力变形发展情况做
介绍网络舆情监测的概念及研究现状,从信息提取、文本挖掘处理、舆情分类、文本表示与主题发现、舆情意见挖掘和观点分析5个方面,介绍网络舆情监测的有关技术,并将网络舆情监
<正> 关于中药樗鸡和红娘子的混淆,近代已有一些作者先后对其进行了生物学和本草沿革的考证。根据这些考证可以确认,现在临床上使用的红娘子系蝉科(Cicadidae)的红娘子(Huech
随着金融系统规范性建设持续推进,强化不良贷款处置能力不仅是现代化商业银行建构健康金融体系的内在要求,更是银行业进入改革转型期,应对市场去产能、去库存,大力推动供给侧