基于多语言话题发现的聚类算法改进

来源 :兰州大学 | 被引量 : 1次 | 上传用户:weijie1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动设备的快速发展,已经以超出人们想象的速度占领了用户终端市场,尤其是以手机终端设备为代表,互联网已成为公众传播和获取信息的重要平台,微博在互联网生活中有着深刻的影响力,民众得到信息的最广泛直接的渠道成为了互联网。网络时代的到来,不仅使信息来源变得日益广泛,用户对信息的准确度、广泛度、实时性和公正性也提出了越来越高的要求,我国民众已经不仅仅满足于获得国内的相关资讯,更期待同步了解国际大众对于同一信息的反馈,根据相关权威发布,目前世界上使用范围最广的语言是英语、法语,而英语、汉语、法语是网络新闻中的使用频度最高的几门语言[1]。同一事件,在不同的国度,不同的文化背景下,观点和看法不一致,用户更希望通过多语言、不同视角的报道中获取更全面、更完整的信息,为了从海量信息中及时快速广泛地得到用户需要的信息,研究者一直没有放弃对CLTDT(Cross Language Topic Detection and Tracking,多语言话题检测与跟踪)的研究。本文中,多语言话题发现系统模型共分五层:信息采集层、预处理和净化层、多语言转化层、文本聚类层和信息展示层,在每一层使用的算法中,都结合新闻媒体特点的进行了算法的改进和优化,形成了新闻话题发现系统的模型。首先,在多语言转化层中,鉴于目前机器翻译的水平已非常精确,本文将多语言通过Babylon翻译软件全部翻译为公共语言的汉语文档。其次,LDA(Latent Dirichlet Al ocation,隐含狄利克雷分布)算法能快速找到核心词汇,不过身处大数据时代,在精准度方面还有欠缺,而TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率)算法可以将出现频次很高但并非实用的常用词汇进行剔除,本文中将二者结合使用在核心词汇获取中。同时,考虑到筛选出的核心词汇对文档来说都有其重要程度,因此,我们引进了核心词汇的权值计算,在这个算法设计里,本文应用了文献23提出的特征项权值计算方法,也就是TF-IDF中IDF部分的解决思路。通过相似度矩阵计算、核心词汇聚类发现话题和建立文本与话题关联完成了核心词汇的聚类。同时,在本文话题发现系统中,由于单通道聚类算法耗时少,符合新闻报道自身特点,但又存在聚类误差的缺陷,而层次聚类算法却可以随时定义簇的起始位置,将两种算法应用在文本聚类的不同阶段,有效结合使用,实现了话题聚类的在线更新。最后,在多语言话题发现系统中,由于本文的研究对象是网络新闻媒体,而新闻媒体的时间特性尤为重要,研究中借鉴了文献49中的思想,提出了利用逻辑函数Logistic(回归)函数加入时间因子权重的概念,对改善新闻媒体报道最终结果非常有效。本文基于上述工作实现了新闻话题发现系统模型,并在一定范围内进行了数据评测和实验分析,用部分新闻论坛数据验证了系统的有效性和可行性。
其他文献
数据仓库和数据挖掘技术是信息技术研究的热点问题之一。数据仓库是一个支持管理决策过程的、面向主题的、随时间而变的数据集合,它是集成的,也是稳定的。数据挖掘是采用人工智
目前电子商务网站数量众多,信息资源总量庞杂、增长速度飞快,导致用户在整个商品空间上出现信息迷航和信息过载问题,信息使用效率降低。现有的电子商务网站搜索系统和搜索引
国际电信联盟(ITU)表示,2009年底,全球手机用户数量已经达到46亿,而到今年年底,全球手机用户数量将达到50亿。虽然全球经济经历了低迷阶段,但是用户对通信服务的需求仍在提升
随着信息技术的快速发展,软件的应用变得越来越广泛。软件规模越来越大、功能的增强和复杂度的增加使得软件的成本、进度和质量变得难以控制,这些问题己经日益成为人们关注的焦
伴随着Web Services技术在信息技术各个领域内的广泛应用,基于Web Services技术的Web服务的可用性、可靠性和稳定性成为了服务提供商和服务使用者普遍关注的焦点,服务提供商
现实世界的数据往往具有较高维度,直接应用传统数据挖掘技术将面临“维灾”问题。因此,研究有效的降维算法,寻求在低维上进行数据分析,成为数据挖掘研究热点。但是,许多传统
目标跟踪技术经过不断的发展,已经出现卡尔曼滤波、均值漂移和粒子滤波等算法,算法的性能高低决定着跟踪效果的好坏。目前的主流跟踪算法都能适应比较简单的环境,但对于稍微
随着web和数字技术的发展,数据呈现出了海量、异构、高速增长等特点。由于传统的DBMS已经不能满足现代数据管理的需要,人们提出一种新的面向主体的数据管理技术——数据空间
学位
随着计算机、多媒体设备和Intemet的普及和发展,视频资源正以指数形式日益增长,人们对视频的查询、检索和浏览等需求也越来越多,使得基于内容的视频检索(CBVR)成为多媒体技术领