【摘 要】
:
在中文地址信息处理过程中重要的两个步骤是中文地址的分词和中文地址要素的识别,这是中文地址信息处理最基础也是最核心的两个部分。而地址要素是指在某一限定区域内,可以指定某一具体范围的地址。每个地址要素都是地址串中的一个相对独立的部分。地址要素识别是将地址语义化的关键是地址匹配的前提。地址要素识别的准确度将直接影响地址信息处理技术的可靠性和使用性。目前,地址要素识别的方法主要是基于地址本身存在的规则进行
论文部分内容阅读
在中文地址信息处理过程中重要的两个步骤是中文地址的分词和中文地址要素的识别,这是中文地址信息处理最基础也是最核心的两个部分。而地址要素是指在某一限定区域内,可以指定某一具体范围的地址。每个地址要素都是地址串中的一个相对独立的部分。地址要素识别是将地址语义化的关键是地址匹配的前提。地址要素识别的准确度将直接影响地址信息处理技术的可靠性和使用性。目前,地址要素识别的方法主要是基于地址本身存在的规则进行识别和基于统计的方法进行地址要素识别。在已有的识别方法中已有成效的识别方法就是条件随机场(CRFs)模型。由于条件随机场模型综合了隐马尔可夫模型和最大熵模型的优势,能够很好的利用上下文特征,并对所有的特征进行全局归一化处理,解决了标注偏置问题,可求得全局最优解。所以本文采用条件随机场模型作为本文的基础训练模型。另一方面在序列标注集的选取上,本文分析了现在用的比较多的北大《人民日报》语料库词性标记集和教育部语用所词性标记集,但是由于地址信息使用的词性标注符号种类不多,如果在地址要素识别过程中使用词性标注集,那么标注状态之间的转换概率以及发射会出现偏差,所以本文经过对地址信息组成成分分析研究后建立了一套符合地址信息处理的地址标注集。即可利用单层条件随机场模型和地址标注集对地址进行序列标注并进行粗切分,可以将地址中明显的地址信息特征切分标注出来,为后面的地址要素的左右界限问题做铺垫。但是存在着大量的复杂的地址包含较多的地址要素,其中各个地址要素可能还存在相互影响的状态,以及单层条件随机场模型对地址切分的不合理性和不准确性。这就对使用条件随机场模型对地址要素识别产生一定的干扰。从而提出一种基于层叠条件随机场(CCRFs)模型的地址要素识别方法。本文的主要研究是使用层叠条件随机场(CCRFs)模型对地址要素进行识别。首先使用地址标注集训练出的单层CRFs地址分词模型对地址进行切分标注。再以此地址切分标注结果作为高层CRFs模型的输入并同时结合地址要素的左右边界词典对地址要素进行循环识别。最后以青岛市的10万条的地址数据作为初始语料,以德州市的1万条数据作为测试语料,分别利用HanLP系统以及利用词性标注得到的CRFs模型和本文建立的地址标注集得到的CRFs模型进行试验分析。最后实验结果表明,利用地址标注集的层叠条件随机场模型对路名和机构名的地址要素识别的准确率是要高于单层CRFs模型和HanLP系统使用的层叠隐马尔可夫模型,也是高于利用词性标注得到的CCRFs模型,并且准确率达到88.7%和86.1%。所以采用地址标注集的层叠条件随机场模型的地址要素识别方法是可行的。
其他文献
通过过渡金属催化的硼腈化和硼氢化反应,可以有效合成各种烯丙基硼酸酯,近年来受到有机化学家的广泛关注,是非常重要且极具挑战性的科学研究领域之一。在本文中,我们借助理论计算化学的优势,选用密度泛函理论M06/B3LYP的计算方法,分别对过渡金属Cu和Fe催化1,3-丁二烯的硼腈化和硼氢化反应进行了详细的机理研究与计算。第三章主要进行了铜催化1,3-丁二烯硼腈化的区域选择性的计算研究。在该体系中,我们阐
随着技术的不断进步、人们需求的不断提升,手机作为人们生活必需品和快消品,其更新换代速度不断加快,弃用手机数量快速增长。由于弃用手机具有体积小、隐私强、残值高的特性,其正规高效回收已成为具有时代特征的现实难题。紧跟时代潮流,“互联网+”赋能手机回收产业,形成了“互联网+”手机回收的新模式,成为了破解回收难题的新希望和新途径。令人遗憾地是该模式实施以来运营绩效却表示不佳。因此,为促进回收模式高效运作,
图像是机载红外成像系统中最常用的信息载体,高质量的图像可以更好地传达地面、海面等目标背景信息。但是复杂气象环境在目标成像过程中造成极大干扰,导致机载红外成像系统采集的图像出现模糊、噪声、相位畸变、内容丢失等现象。气象环境中的大气湍流和气溶胶对红外辐射的影响最为明显,其中大气湍流用大气折射率结构常数来表示,气溶胶用能见度表示。通过对不同折射率结构常数、不同气溶胶的分析对提高图像质量和机载红外成像系统
随着国家“互联网+”政策的落地推行以及信息技术的不断发展,各地集团单位和高校园区都纷纷建立智慧后勤应用服务平台,规范后勤保障流程,用以提升后勤服务效率。近年来,越来越多的新兴物联网技术逐渐落地,与传统行业相结合产生出独具特色的智慧应用,物联网与垂直行业结合的应用理念也在推动着社会管理与服务模式的变革创新。经过多年的发展和改革,后勤工作在具备自身特色和优势的同时,也存在着诸多问题,例如落后的管理方式
随着我国进入到建立“现代企业制度”阶段,企业面临着委托代理问题的困扰,如何形成对企业管理层的长期有效激励机制,降低委托代理成本,是当前实业界与学术界需要共同思考和研究的。与此同时我国进入全媒体时代,社会信息的记录和传播方式正发生着翻天覆地的变化,许多主流媒体也赋予了高管更多的关注,这些“明星高管”成为了其所在企业的门面,并能通过公司决策影响公司治理的情况。企业高管的声誉激励在这个背景下应运而生,成
本文通过杭州银行上海分行开展选择权业务服务科技型中小企业的实际案例,结合相关数据,利用案例分析和比较分析的方法,对商业银行开展选择权业务能够实现多方共赢展开论述。从银行层面而言,选择权业务可以提升其中间业务收入、优化非利息收入内部结构、以及开发和培养潜在高质量客户;从私募和风投机构层面而言,选择权业务可以增加其较高质量的项目来源以及提升日后投资成功的可能性;从科技型中小企业层面而言,选择权业务可以
建设工程质量保险(又称工程潜在内部缺陷保险)是指对由内在质量缺陷造成的工程使用期间的直接和间接损失进行赔偿的保险。由开发商对开发的建筑物进行投保,在经过保险公司指定的建筑工程质量检查机构按照规定程序验收一年以后,建筑在正常使用情况下出现在验收过程中没有发现的内在潜在性缺陷,保险公司负责赔偿业主的一种保险。国内在推行工程质量保险的实际实施中,因为多种原因导致只有少数单位有主动了解该保险意向,更少的开
在对船舶的研究中,航向控制、航速控制与减摇控制都是船舶控制领域中非常重要的部分。船舶航行在海洋中时,必须要求它能够按照预设的航向与航速航行,船舶的航向控制与航速控制关系到航行时的安全性与经济性。除此之外,海上发生的事故与灾难很多都与船舶的横摇有关,这不仅造成了严重的人员伤亡,同时也会造成巨大的经济损失。本文研究的船舶中安装了螺旋桨、舵和减摇鳍三种控制装置。螺旋桨是船舶运动的动力,主要为船舶提供一个
化工企业在国民经济中占有重要地位,但由于企业用能结构不合理、生产工艺相对落后等原因,化工行业能耗量大,能源利用率低。为深度挖潜企业节能减排效果,降低能源消耗量以及降低污染物排放,提高能源消费效率,有必要对化工领域高耗能企业进行能源消耗及污染物减排效果进行评价,为企业实行节能改造及行业管理提供必要的依据,促进化工领域高耗能企业推进节能减排工作。通过对化工领域高耗能企业生产工艺、主要设备、能耗种类及消
为了帮扶农村独生子女家庭养老,乐清市政府出台了一系列的帮扶政策,然而在政策实施过程中发现政策本身及政策执行存在着不少的问题。文章以乐清市农村独生子女家庭养老帮扶政策为研究对象,通过查阅文献、问卷调查等方式来收集获取数据和资料,对乐清市农村独生子女家庭养老帮扶政策及政策实施过程进行评估分析,最后以马斯洛需求层次理论、福利多元主义理论、新公共管理理论为支撑,提出进一步优化政策的建议。通过问卷调查和评估