一种基于内容特性的文本聚类方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zhou0168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于概率模型的聚类中,簇模型对数据分布的拟合性直接影响着聚类质量。基于内容的文本数据分布的复杂性导致单一因素的簇模型无法准确拟合文本数据的分布特征。该文认为文本基于内容的分布特性主要受主题内容和通用写作方式影响,给出了一种基于主题模型和通用模型的混合簇模型和基于该簇模型的文本聚类方法。实验表明该聚类方法较单一因素的簇模型具有更好的拟合性,聚类质量更好。
其他文献
发表时滞(delay for publication of articles, DPA )亦称出版时滞,是指出版单位收到稿件至稿件发表的时间。随着医学科学技术迅猛发展,学术交流日趋频繁,知识更新加快,医学论文的
与传统的安全授权机制相比,信任管理是一种更具表达力,更直接、高效、完善的分布式授权方式,可以适应网格及其应用发展的安全需要。该文研究了信任管理系统中的关键部分——信任
目的 探讨原发性胼胝体变性的临床特点、诊疗方法及误诊原因、防范措施。方法 对曾误诊的2例原发性胼胝体变性的临床资料进行回顾性分析,并复习相关文献。结果 2例均为中年男
目的分析浮肋综合征临床特点及误诊原因,总结经验教训,提高临床对浮肋综合征的认识。方法对我院近期收治的1例长期误诊的于自然分娩后诱发的浮肋综合征的临床资料进行回顾性
缓冲区分析是二维GIS空间分析的基本功能,但目前对三维GIS中的缓冲体分析研究较少。该文对三维缓冲体分析的意义进行了分析,并针对地质应用,根据生长元是否向周围均匀扩散及扩散周围是否存在障碍物,对三维缓冲体的种类进行了划分。提出了有约束缓冲体的生成算法,讨论了非均质的缓冲体的生成算法。
大连市商业银行是一家由城市信用社起家的地方性股份制商业银行。经过几年的艰难探索与开拓,在政府的扶持下慢慢发展壮大,在同业中占有了一席之地。然而因为管理落后、技术落后
全科医学属于临床医学的二级学科,是代表了医学发展的一个前沿学科,是一个新兴的交叉学科,更是科学和艺术的有机融合[1].加强全科医学,既顺应了全球医学教育发展的潮流,又与
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的评价肠道微生态制剂(microbio ecological preparation,MBP)在胆肠吻合术围术期的应用效果及安全性。方法选择2011年3月—2014年3月解放军180医院普通外科收治的拟行胆肠吻
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield