集成多种特征匹配中文实体名称

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:qwertyuiopgfdsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确匹配实体名称在信息系统集成中有广泛的应用,而在中文环境中,实体名称的变化和笔误使得中文实体名称难以准确匹配,所以需要开发出适应这些变化和笔误的匹配方法。中文实体名称的相似度从字、词、语义三个层次计算出来,将这些相似度线性合并起来,集成各自的优势。为了利用更多的匹配特征,引入了两种机器学习的方法:第一种方法通过训练获得一个优化排序和最佳切分点;第二种方法利用支持向量机来判断两个名称是否指向同一实体。在中文实体名称的数据集上的实验表明,这些方法和特征有效提高了匹配的效果。
其他文献
相对于人脸和指纹等广泛使用的生物特征识别手段而言,步态识别是一种相对新的非接触式的身份识别方法。提出了一种基于改进的局部敏感判别分析的步态识别方法。在真实的步态数据库上的实验结果表明,提出的步态识别方法是有效可行的。
假设法,就是当某种可变化的因素只有有限种可能时,假设这种因素处于某种特殊情况,并以此为条件进行推理.假设法在各个阶段的教学中都是非常重要的探究方法,常见的几种假设法
主要给出了凝聚式Quantale的具体构造,讨论了它们之间的关系;证明了凝聚式Quantale范畴是m-半格范畴的反射子范畴。
提出云计算环境中基于改进混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)的保证QoS(Quality of Service)资源调度方案。根据任务和资源的特点提出SFLA两种编码结构及其对
提出了一种基于贝叶斯网络的健壮社团挖掘算法,通过对每个普通社团分别构建贝叶斯网络,并根据条件概率表和证据信息进行推理,得到贝叶斯网络中每个节点隶属于健壮社团的后验概率