【摘 要】
:
我国人口众多,人名歧义成为常见现象。该现象给搜索引擎、知识库、机器学习、自然语言处理等方面的研究带来了困扰。如何从海量信息准确提取用户关注的特定人物信息成为当下
论文部分内容阅读
我国人口众多,人名歧义成为常见现象。该现象给搜索引擎、知识库、机器学习、自然语言处理等方面的研究带来了困扰。如何从海量信息准确提取用户关注的特定人物信息成为当下热议话题。中文图书作者存在大量的同名现象,此现象严重影响以作者姓名作为关键字查找图书的检索质量,耗费图书查询者大量筛选时间。本文以图书作者信息和图书基本数据作为支撑,围绕作者身份辨识问题展开,旨在提高搜索同名和名称变体作者结果的准确性,快速定位用户查找的作者信息与图书作品信息,便于科研人员跟踪锁定作者的相关研究成果。本文着重研究和分析图书作者简介信息。发现作者简介信息中存在叙述差异和属性描述不全的现象,这将导致由提取出的作者属性生成的特征矩阵具有较高空缺率。针对上述特点,本文在计算属性权重和特征矩阵权重时做了改进。在计算属性权重时,提出了属性互斥放大方法,来提高在属性互斥情况下作者身份辨识准确率;针对特征矩阵空缺现象,提出了特征矩阵空缺缩小方法,从而提高在特征矩阵较高空缺率情况下作者身份辨识准确率。经实验验证,当互斥属性占整体属性比重在0.16-0.77范围时,应用属性互斥放大方法较有优势。当特征矩阵空缺率为0.35时,相比于未应用特征矩阵空缺缩小方法,作者身份辨识率达到最优,提高了近五个百分点。由此得出属性互斥放大和特征矩阵空缺缩小对提升图书作者身份辨识准确率有效的结论。最后本文用B_Cubed通用指标作为相似度阈值判定的评价标准,当相似度阈值为0.47时,作者身份辨识的召回率、准确率及F值总体效果最佳。
其他文献
研究背景:宫颈癌居全球女性恶性肿瘤第二位,是发展中国家癌症相关死因的主要原因之一,90年代后,随着社会生活环境的变化,人乳头状瘤病毒(HPV)感染率不断上升,性生活年龄过早
目的:本文综合分析并探讨进展期胃癌的临床生物学特点及在外科诊治中的意义,为规范进展期胃癌治疗、提高临床疗效及患者生存期提供客观依据。方法:收集1996年1月至2006年12月
以加州扁鸟蛤( Clinocardium californiense )为实验对象,研究了底质厚度和含沙量对其潜沙行为以及碱性磷酸酶(AKP)、琥珀酸脱氢酶(SDH)和乳酸脱氢酶(LDH)活性的影响。底质厚
针对当前模拟电路早期故障诊断中特征提取方法的不足,提出了应用深度置信网络(DBN)进行特征提取的方法。利用混沌粒子群优化算法,对DBN中受限玻尔兹曼机的学习率开展优化,进一步提
目的:利用生物素亲和素系统,将阳离子纳米脂质体连接在脂质微泡表面,制备一种新型基因微泡载体。方法:1、将一定摩尔比的二棕榈酰磷脂酰胆碱(DPPC)与生物素化聚乙二醇二硬脂
<正>1试题呈现(眉山中考第26题)如图1,已知抛物线y=ax~2+bx+c的图像经过点A(0,3),B(1,0),其对称轴为直线l:x=2,过点A作AC//x轴交抛物线于点C,∠AOB的平分线交线段AC于点E,点P
承压热水器已经成为人们生活的必需品,构成承压热水器的关键部件搪瓷内胆,也成为各个生产厂家关注的焦点。搪瓷工艺较为复杂,产品质量管控难度大,在产品设计、设备选择和工艺
计算机类专业为社会培养了大批人才,毕业生受到社会广泛追捧,为国民经济发展做出了重大贡献。随着教育发展的变革,地方高校在应用转型中也存在着不少问题,分析了当前地方高校
中国汽车行业已进入微增长阶段,企业间的竞争趋于白热化,价格虽不是竞争中取胜的唯一因素,但采购成本优势则是企业盈利的有效有段,采购成本优势让企业在局部价格战中拥有主动
秦朝的李斯,临终时,在刑场上对其同时受刑的儿子说,“牵犬东门,岂可得乎!”言下之意,不胜其悔。距李斯死后511年,晋朝的陆机,被押上刑场砍头前,也说过一句类似的名言:“华亭