基于P2P的中文搜索引擎的研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wangpeng532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P搜索引擎是一种基于P2P网络结构的全文检索引擎,它是网络技术研究中的一个新兴领域,现有的P2P搜索技术在如何面对大规模的网络节点保持系统的稳定性、可靠性,减少对超级节点的依赖及对网络节点共享资源的发现、索引、复杂搜索、深度搜索等方面还存在一些不足,本文在如何实现网络稳定可靠、对超级节点依赖少及高效的对资源进行发现索引、支持复杂搜索、中文处理和深度搜索等方面进行了深入的研究。   针对传统中文分词算法的缺陷,本文提出了一种基于X-树结构的中文分词算法(CSECHSplitor),CSECHSplitor算法首先在X-树结构初始节点查找首字哈希值,再根据首字孩子节点指针在基于有序表的孩子节点上查找后继元素,通过对比基于哈希表的新词词库,动态移动首字指针,解析出数据中有效的分词单位。在CSECHSplitor基础上本文设计并实现了配套的全文检索系统;针对传统P2P搜索技术所采用的网络结构不足,提出了一种改进的三层半分布混合式P2P网络结构,该网络结构将系统网络节点按功能划分为引导节点、超级节点、普通节点,并扩展引导节点与超级节点定义——采用纯P2P模式连接的子网络,尽最大可能的避免传统模式下由于超级节点失效而导致局部网络失效的问题,结合三层混合式半分布P2P网络结构与全文检索系统的基础上实现了一种基于P2P的中文搜索引擎P2P Chinese Search Engine(P2PCSE)。   通过构建了一个基于局域网的实验环境,对P2PCSE系统中文分词算法的效率、准确度,P2PCSE系统网络的可靠性、可扩展性及P2PCSE系统资源搜索的覆盖深度、准确度、满意度进行了详细的测试。实验结果表明P2PCSE系统具有网络稳定可靠、资源覆盖广,支持复杂搜索的优点。
其他文献
数字减影血管造影(DSA)是一种在医学诊断以及介入治疗中起重要作用的技术,是无法替代的有效的血管可视化工具。由于病人的不自主运动常会造成减影图像上出现运动伪影。运动伪
近年来,移动Ad Hoc网络(MANETs)中的路由技术已成为研究的热点。目前大部分路由协议的研究着眼于找到一条连接源节点和目的节点的路由,并不考虑当前的网络流量和数据流的传输要
随着无线通信技术与计算机技术的高速发展,先进的无线移动网络有望得到普遍应用。由于移动Ad hoc网络具有不需要基础设施与集中式的网络管理等显著特点,近年来受到越来越多的
粗糙集理论由Z.Pawlak于1982年提出,是继概率论、模糊集理论、证据理论之后的又一个处理不确定性的数学工具。该理论不需要任何附加的信息或先验知识,就能有效地分析和处理不
本文根据“散裂中子源(CSNS)快周期同步加速器(RCS)磁铁电源”的实际应用需求,为其设计电源监测系统方案。该方案包括系统整体设计、硬件设计、软件设计和系统测试。传统电能
企业输电线路监测对及时准确地发现企业线路故障和保障企业正常生产有着十分重要的意义。大中型企业都有采用购适合本企业变电所具体情况的输电线路监测系统的愿望,但是各个
随着无线通信技术的快速发展,人们对网络应用需求不断提高,无线网状网Wireless Mesh network (WMN)得到了广泛的部署,由此可以得到更大范围的网络服务。无线Mesh网络中数据通
虚拟人足球比赛系统涉及计算机图形学、虚拟现实、运动学与动力学、多功能感知、认知心理学等多个学科,是一个非常典型的复杂系统,目前国内外在此方面的研究尚处于初探阶段。
当今越来越多的信息、服务都被发布在互联网上,信息搜索、服务集成技术已经成为IT行业关注的焦点。电信服务作为一种传统的通信服务,也顺应这种趋势,越来越多地被运营商以Web服
商品过度包装屡禁不止,而目前质量监督部门采用手工测量+经验评估+计算推理的传统手段已不能满足日常检验的需要。另一方面,计算机视觉经过多年蓬勃发展,在立体测量、逆向工程及