论文部分内容阅读
P2P搜索引擎是一种基于P2P网络结构的全文检索引擎,它是网络技术研究中的一个新兴领域,现有的P2P搜索技术在如何面对大规模的网络节点保持系统的稳定性、可靠性,减少对超级节点的依赖及对网络节点共享资源的发现、索引、复杂搜索、深度搜索等方面还存在一些不足,本文在如何实现网络稳定可靠、对超级节点依赖少及高效的对资源进行发现索引、支持复杂搜索、中文处理和深度搜索等方面进行了深入的研究。
针对传统中文分词算法的缺陷,本文提出了一种基于X-树结构的中文分词算法(CSECHSplitor),CSECHSplitor算法首先在X-树结构初始节点查找首字哈希值,再根据首字孩子节点指针在基于有序表的孩子节点上查找后继元素,通过对比基于哈希表的新词词库,动态移动首字指针,解析出数据中有效的分词单位。在CSECHSplitor基础上本文设计并实现了配套的全文检索系统;针对传统P2P搜索技术所采用的网络结构不足,提出了一种改进的三层半分布混合式P2P网络结构,该网络结构将系统网络节点按功能划分为引导节点、超级节点、普通节点,并扩展引导节点与超级节点定义——采用纯P2P模式连接的子网络,尽最大可能的避免传统模式下由于超级节点失效而导致局部网络失效的问题,结合三层混合式半分布P2P网络结构与全文检索系统的基础上实现了一种基于P2P的中文搜索引擎P2P Chinese Search Engine(P2PCSE)。
通过构建了一个基于局域网的实验环境,对P2PCSE系统中文分词算法的效率、准确度,P2PCSE系统网络的可靠性、可扩展性及P2PCSE系统资源搜索的覆盖深度、准确度、满意度进行了详细的测试。实验结果表明P2PCSE系统具有网络稳定可靠、资源覆盖广,支持复杂搜索的优点。