一种自适应信息集成方法

来源 :计算机应用 | 被引量 : 2次 | 上传用户:caoyouwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心。在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相似度。为了避免由于表达方式的差异而造成的字符串之间的不匹配,字符串被分割成独立的单词后按单词的第一个字符进行排序。在单词的匹配中,对拼写错误和缩写有一定的容错功能。实验结果表明,自适应信息集成方法比用Smith Waterman和Jaro距离有更高的正确率。
其他文献
在WRR(WeightedRoundRobin,带权重的循环)算法的基础上,提出了一种适应无线局 域网特点的实时业务的调度算法。该算法工作在数据链路层,和无线局域网的介质访问控制(MAC) 层协议DCF(DistributedCoordinateFunction)紧密结合,有效避免了对列头部阻塞问题,提高了信道利 用率。通过采用补偿机制,近似达到了长期公平性。使用NS(NetworkS
基于网络治理理论,结合开发现状,重点分析了我国西南地区国际河流水能开发跨境合作的网络治理结构,并以此为基础提出了互动与整合两大机制及具体执行体系,以期为西南国际河流
提出一种基于分阶段优化的排料算法。在算法的第一阶段,在排料前先估算本阶段用到的原板材尺寸和数量,将权重因子超过阈值的待排件均匀分布在其上。在排料过程中再根据待排件权重因子和组合因子动态调整空闲区域的排料布局,从而可大幅度降低排料算法复杂度,提高板材利用率。在第二阶段,将剩余待排件合理排放在原板材上,在排料即将结束时,可根据相邻因子确定排料布局以减少废料碎片。生产实践表明,这样研制出的排料系统利用率
以某工程填方区地基强夯处理为例,结合工程概况,介绍了其设计方案,并通过采用室内土工试验和室外原位测试相结合的方法对强夯效果进行了检测分析,指出应根据工程使用要求和现
首先介绍了在无线自组网中引入节能MAC协议的背景,讨论了进行节能MAC协议设计的相关问题,包括无线网络接口设备的功耗特点、影响能耗效率的表现形式、设计协议时所需遵循的原则以及可采用的节能手段。对当前典型的节能MAC协议和有助于提高能耗效率的MAC层措施进行了举例介绍和分析。最后,对节能MAC协议研究的发展趋势和面临的挑战作了展望和论述。
近日,以“大力推进信息化与工业化融合,坚持走中国特色新型工业化道路”为主题的“信息化与工业化融合成果展览会”在北京国家会议中心开幕。此次展会由工业和信息化部主办,是两