【摘 要】
:
本文对个性化信息检索的关键技术和用户兴趣模型进行了研究,并针对勘探与生产分公司对门户个性化信息检索的需求,在分析勘探生产门户体系结构、组成及信息组织方式的基础上,
论文部分内容阅读
本文对个性化信息检索的关键技术和用户兴趣模型进行了研究,并针对勘探与生产分公司对门户个性化信息检索的需求,在分析勘探生产门户体系结构、组成及信息组织方式的基础上,提出了勘探门户个性化信息检索系统的总体设计方案,并实现了个性化信息检索系统的部分功能。整个系统由爬虫模块、预处理模块、索引模块、用户接口模块、个性化信息服务模块、检索模块所组成。在爬虫模块中,采用了多线程编程技术,并使用了优先搜集重要网页的信息采集策略;预处理模块包括网页解析模块和中文分词模块两部分,采用正向减字最大匹配算法实现了中文分词功能;在索引模块中,采用倒排索引技术对索引文件进行了组织;采用.NET实现了用户查询接口功能;在个性化信息服务模块中利用知识库、用户兴趣模型和混合信息过滤技术对按相似度大小排序检索结果进行推荐,实现了信息主动找人的个性化服务功能。系统在勘探门户中的实际应用表明,无论是响应速度,还是查全率和查准率都达到了良好的效果,满足了用户的个性化服务需求,获得了用户的好评。
其他文献
随着互联网的迅速发展与普及,网络已经成为信息传播的主要渠道,人们可以方便地从网络上获取各种信息,但是,现有的信息检索系统基本都没有考虑用户的兴趣偏好,只是被动的、僵
进化算法是一类模拟自然界“优胜劣汰,适者生存”的全局寻优技术,它的特点是针对一组随机的候选个体进行复制、交换和变异等遗传操作,逐步迭代逼近最优解。20世纪60年代,一些
无线通信技术和计算机网络的迅猛发展,为无线Ad Hoc网络的产生奠定了基础。它是一个多跳的、临时的、对等的自治系统,它由一组带有无线收发信装置的移动节点组成。该网络具有
随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到
随着图像编辑软件的广泛使用,对数字图像的修改变得越来越容易,其真实性受到威胁,如果在一些对图像的原始性要求比较高的领域内出现伪造的数字图像,将会对社会产生十分恶劣的影响
随着互联网的高速发展,多媒体数据指数级增长的时代已经到来。面对具有海量、高维等新特点的互联网数据,传统的索引和检索方式已经难以满足用户快速而准确的要求。因此,新的、快
可视化是油藏数值模拟结果数据与工程师之间的媒介,而等值线是可视化的重要表示形式,它同时在气象、医学、地球科学等许多领域也有着重要的作用。本文主要研究了在复杂情况下
随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的
图像分割是一种重要的图像分析技术。在图像处理过程中,图像分割是从图像预处理到图像识别和图像分析理解的关键步骤,在图像处理中占据重要的位置。图像分割并无统一的分割标
天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。观测仪器设备及数据收集能力的大幅度提高,使得我们迈入了天文观测数据的“雪崩”时代。天体在光学波段