【摘 要】
:
文本作为数据信息的载体,已经成为一种普遍的形式。人类可以获得的信息大部分都是以文本形式存在的。聚类分析可以帮助标示文本潜在的类别,分析文档之间内在的联系,在很多的
论文部分内容阅读
文本作为数据信息的载体,已经成为一种普遍的形式。人类可以获得的信息大部分都是以文本形式存在的。聚类分析可以帮助标示文本潜在的类别,分析文档之间内在的联系,在很多的领域有着广泛的应用。本篇论文首先对聚类分析技术进行了回顾,介绍了基本的文本聚类算法,并且讨论了基于模型聚类方法中所使用到的关键技术和理论,分析了基于模型技术与以往技术的不同以及优点。作为本文的主要工作,在接下来的篇幅中提出了一种基于概率模型的文本聚类算法——mvMF-Clustering 算法。该算法以vMF(von Mises-Fisher)分布为基础,建立描述文本数据集合的混合vMF 模型,并且使用EM 方法对模型中参数进行估计,最终得出一组表示文本簇的概率模型以及对文本集合的簇划分。mvMF-Clustering 算法的核心部分是vMF 分布的引入和EM 方法的使用,所以文中对这两点做了详细的介绍。论文的最后,通过实验对mvMF-Clustering 算法的性能进行了验证。与其他常用的文本聚类方法相比较,mvMF-Clustering 算法能够取得较好的聚类效果。
其他文献
目的:观察柴胡疏肝散合并文拉法辛治疗抑郁症肝郁气滞型患者的疗效。方法:63例抑郁症患者随机分为研究组31例,对照组32例,研究组给予柴胡疏肝散治疗,同时给予文拉法辛150mg/
<正>妊娠期肝内胆汁淤积症(intrahepatic cholestasis of pregnancy,ICP)往往发生于妊娠中、晚期,常伴有皮肤瘙痒、黄疸和肝功能损害,是导致胎儿宫内窘迫、甚至胎死宫内的重要
继Grice提出合作原则之后,Leech提出了礼貌原则,该理论是对Leech的理论扩展和补充,即人们的会话行为有时属故意违反合作原则,其中具体包括六条准则:慷慨、同情、赞誉、得体、
翻译适应选择论是由我国学者胡庚申提出的全新理论,主张译者在翻译时应努力完成在语言维、文化维和交际维之间的"三维"转换。多维转换程度高的译文才是好的译文。该文选取林
<正>企业价值评估已日益成为企业管理人员、经济师、投资者和证券分析师决策的利器,被广泛应用于企业自身的绩效评估、价值管理和投资分析中。本文针对人们经常使用的各种评
目的: 研究气虚血瘀证冠心病血液血栓素 B2(TXB2)、6-酮-前列腺素 F1a(6-Keto-PGF1a)、一氧化氮(NO)、活性氧(ROS)的变化及中药复原胶囊对气虚血瘀证冠心病 TXB2、6-Keto-PGF
高频疲劳试验机是一种典型的非线性时变系统,采用传统的常规控制方法对试验过程进行控制,其控制精度不高,误差大。本文对解决上述问题作了一些探索性的研究工作。在分析了试
今年6月,我曾有幸采访原中共中央政治局委员、中央军委副主席迟浩田将军.迟主席是我几年记者经历中采访的级别最高的人物.事情已经过去几个月了,事过境迁头脑静,得失愈加看分
活水源流随处满,东风花柳逐时新。2012年春天,北京市教育学院小学室主任、特级教师吴正宪应邀作示范课。在读懂儿童、读懂教材和读懂课堂的前提下,吴正宪老师带着四年级的学
在中国古代传统的政治制度中,皇帝制度居于首要的和核心的地位。宗室是依附于皇权而存在的特殊家族,对当时政治影响很大,对其管理得当与否,不仅影响王朝政局的稳定,甚至关乎