论文部分内容阅读
移动设备的快速发展,已经以超出人们想象的速度占领了用户终端市场,尤其是以手机终端设备为代表,互联网已成为公众传播和获取信息的重要平台,微博在互联网生活中有着深刻的影响力,民众得到信息的最广泛直接的渠道成为了互联网。网络时代的到来,不仅使信息来源变得日益广泛,用户对信息的准确度、广泛度、实时性和公正性也提出了越来越高的要求,我国民众已经不仅仅满足于获得国内的相关资讯,更期待同步了解国际大众对于同一信息的反馈,根据相关权威发布,目前世界上使用范围最广的语言是英语、法语,而英语、汉语、法语是网络新闻中的使用频度最高的几门语言[1]。同一事件,在不同的国度,不同的文化背景下,观点和看法不一致,用户更希望通过多语言、不同视角的报道中获取更全面、更完整的信息,为了从海量信息中及时快速广泛地得到用户需要的信息,研究者一直没有放弃对CLTDT(Cross Language Topic Detection and Tracking,多语言话题检测与跟踪)的研究。本文中,多语言话题发现系统模型共分五层:信息采集层、预处理和净化层、多语言转化层、文本聚类层和信息展示层,在每一层使用的算法中,都结合新闻媒体特点的进行了算法的改进和优化,形成了新闻话题发现系统的模型。首先,在多语言转化层中,鉴于目前机器翻译的水平已非常精确,本文将多语言通过Babylon翻译软件全部翻译为公共语言的汉语文档。其次,LDA(Latent Dirichlet Al ocation,隐含狄利克雷分布)算法能快速找到核心词汇,不过身处大数据时代,在精准度方面还有欠缺,而TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率)算法可以将出现频次很高但并非实用的常用词汇进行剔除,本文中将二者结合使用在核心词汇获取中。同时,考虑到筛选出的核心词汇对文档来说都有其重要程度,因此,我们引进了核心词汇的权值计算,在这个算法设计里,本文应用了文献23提出的特征项权值计算方法,也就是TF-IDF中IDF部分的解决思路。通过相似度矩阵计算、核心词汇聚类发现话题和建立文本与话题关联完成了核心词汇的聚类。同时,在本文话题发现系统中,由于单通道聚类算法耗时少,符合新闻报道自身特点,但又存在聚类误差的缺陷,而层次聚类算法却可以随时定义簇的起始位置,将两种算法应用在文本聚类的不同阶段,有效结合使用,实现了话题聚类的在线更新。最后,在多语言话题发现系统中,由于本文的研究对象是网络新闻媒体,而新闻媒体的时间特性尤为重要,研究中借鉴了文献49中的思想,提出了利用逻辑函数Logistic(回归)函数加入时间因子权重的概念,对改善新闻媒体报道最终结果非常有效。本文基于上述工作实现了新闻话题发现系统模型,并在一定范围内进行了数据评测和实验分析,用部分新闻论坛数据验证了系统的有效性和可行性。