【摘 要】
:
随着互联网发展和普及,“检索”已经成为人们生活中的一部分。互联网已经把全世界连在了一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案就是“检索”。在众多检索系
论文部分内容阅读
随着互联网发展和普及,“检索”已经成为人们生活中的一部分。互联网已经把全世界连在了一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案就是“检索”。在众多检索系统中,对于学术研究最有用的当属文献检索了,但是当前的文献检索系统大都只能进行关键字匹配的检索,抓不住用户的兴趣,如果检索系统能够获取用户的兴趣,就可以使用户在一次又一次的检索中会发现自己想要的文献总是能出现在排序的最前面,肯定大大方便了用户,使其对所使用的检索系统大家赞赏并决定长期使用,这无论对用户还是检索平台都是大有益处的。本着以上的思想,本小组开始制作这样一个检索系统,它能通过用户的检索行为来获取用户的兴趣,并将兴趣相似的用户组成用户组,以方便用户的交流,共享资源。本文讨论的是我们小组所做的检索系统中的基础部分,包括文本预处理,对文本向量进行聚类构建系统底层部分。本人的工作具体是完成了文本处理程序可以对文献进行预处理,它可以将分词后的文本转化为向量;可以对题目,关键词,摘要加权,并调整其权重;可以按词性提取特征;完成对其停用词表的控制;程序可以生成文档频数,tfidf的特征向量,支持向量机的特征向量等多种特征向量。并且在随后聚类试验中,改进AP[1](Affinity propagation clustering)聚类,使其获得更好的聚类结果。AP聚类有一个优点,就是如果使用者不知道数据的类数,不用指定类数也可以很好的进行分类,但是有时侯我们知道类数,那么我们怎么能提高分类的效果呢?本篇论文提出了一种改进的AP聚类算法来处理这种情况。当你知道数据类数的时候,可以指定AP最终聚成的类数。实验也表明了,它不低于原AP聚类算法的效果
其他文献
随着保护公共安全的视频监控系统与个人终端视频采集设备的普及,视频侵犯个人隐私的事件越来越多,互联网视频安全问题也愈加的严重。视频信息安全成为目前研究的热点和急需解决
Web服务作为一种新兴的Web应用模式,是Web上数据和信息集成的有效机制。它被定义为使用标准的技术与其他服务进行交互的软件模块和自描述的应用,并且是一种自适应、面向互操作
随着网络技术的发展,企业系统管理环境发生了很大变化。系统管理的概念已经不局限于过去简单的网络设备管理,还包括对服务器、中间件甚至计算机上运行的应用软件的管理。被管
随着网络技术的不断发展,越来越多的企业使用工作流技术来提高企业的运行效率,目前工作流技术已经成为流程定义和管理的核心技术,具有广阔的发展空间。工作流管理系统是完成
邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越
一个可训练的语音合成系统(TTS,TextToSpeech)可以合成高质量的语音,来满足一些一般的应用需求。然而,在一些变化比较多的应用中,我们希望能够定制更多个性化的声音。所以如
近年来,我国食品安全领域多次出现问题,严重危害社会的发展和广大人民群众的利益。随着人们对食品安全问题越来越关注,消费者迫切需要有一个食品安全保障体系,能使食品生产和
建立高效完备的智能交通系统,以及运营商和交通监管部门的有效配合和良性互动,才有可能疏缓日益严重的城市交通流量。随着城市汽车数量的快速增加,交通堵塞已经成了城市交通
Ad Hoc网络是一种不依赖于固定设施的、自组织的无线网络,其具有的组网灵活,易于移动和部署,抗毁能力强等特点使之日益成为无线通信研究的热点。分簇是提高网络可扩展性的重要手
VPN是一种利用开放的公共网络建立私有专用网络的技术,它利用加密和认证/鉴别技术使VPN用户像使用专线一样在公共网络中安全地传输私有信息,目前已经广泛应用到各个领域。VPN