【摘 要】
:
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加
【机 构】
:
吉林大学计算机科学与技术学院,北京慧创新盈科技有限公司
论文部分内容阅读
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.
其他文献
为了实现中文电子文本的版权保护及防止未经授权的文本信息的扩散,构造了一种基于矢量图形的中文文本零水印方案,并对该方案进行了算法的设计实现.算法以文本主题特征为前提,
脂蛋白相关磷脂酶A2(lipoprotein-associated phospholipase A2,Lp-PLA2)可快速水解氧化低密度脂蛋白和脂蛋白(a)中的氧化磷脂分子,生成可溶性促炎和促凋亡介质-溶血卵磷脂和
指纹图像的质量测量与评价,在指纹图像分割、增强及指纹匹配等环节都有重要应用.同时,指纹图像的质量分类,对指纹识别算法的适用性研究也有重要意义.本文提出一种基于支持向量机的指纹图像质量分类方法.该方法选择梯度、Gabor特征、方向对比度等指标,利用支持向量机有效实现指纹图像质量分类.并采用少类样本合成过采样技术(SMOTE)降低指纹图像质量好坏的类别不平衡问题对分类的影响.理论分析和实验结果都表明该
基于最低最小公共祖先(SLCA)的XML关键字搜索语义,提出一种使用XML结构摘要(summary)对关键字进行索引的方法XKSS.XKSS索引方法通过避免重复存储大量XML树上的含义相同的节点
目的 观察醛固酮(ALD)及其受体拮抗剂螺内酯(SPI)对足细胞活性氧(ROS)产生及凋亡的影响,并探讨其可能机制.方法 体外培养条件的永生化小鼠足细胞系,分为空白对照组、ALD组、S
提出一种使用Harris兴趣点的拷贝检测方案.首先通过Harris检测器提取图像的局部特征点,然后构建以Harris兴趣点为中心的多重圆环区域,并计算圆环区域的信息熵,作为特征向量,通过
目的 分析企业员工职业应激对健康生产力的影响.方法 通过横断面调查的方法获取基本数据,采用多因素logistic逐步回归方法分析职业应激与健康生产力的关系.结果 员工的性别、
目的 探讨二维应变成像结合腺苷负荷超声心动图评价存活心肌的新方法.方法 15只健康杂种犬,结扎其冠状动脉前降支90 min后,恢复血流灌注120 min,建立急性心肌梗死再灌注模型.
目的 总结胃癌合并肝硬化门静脉高压症患者手术及围手术期的处理经验.方法 对2000年1月至2009年6月收治的35例胃癌合并肝硬化门静脉高压症患者行手术治疗的资料进行回顾性分
目的 研究老年高血压患者左室舒张功能不全对房、室性心律失常发生及其严重程度的影响.方法 入选老年原发性高血压患者210例,均经24 h动态心电图检查判定心律失常情况,和多普