论文部分内容阅读
地址是一个连接广大的人、物、事的关键桥梁,在商业竞争、舆情管理、智慧城市建设过程中发挥了不可或缺的作用。地址标准化能够将非结构化和非空间化的地址转化为标准结构的中文地址结构,使计算机能够理解并处理字符串的地址信息。传统的中文地址标准化主要从字典、统计、语义三个方面进行。本文依据大量的实例地址率先提出了一个12级的可配置地址层次模型,在该地址模型的基础上提出了一种结合字典和概率统计的地址标准化算法。本文算法建立在一个五级轻量地址基础库上。首先利用AC自动机算法快速的标注出中文地址中的行政地址、地址关键词和辅助词,得出一个中文地址元素集合并建立地址向量模型(AVSM)。建立模型后,将AVSM中地址元素包含的前五级行政区划地址要素进行条件组合,得出可能的行政区划候选值集合。然后利用余弦相似度和地址树来确定最佳的前五级行政区划地址元素。随后,依据关键词和概率地址模型确定后续非行政区划地址元素。最后,通过有限状态自动机将得到的单条标准化后的地址进行地址等级规则校验,对所有通过校验后的地址利用补全字典进行缺失地址等级元素的补全。本文算法有效的融合了基于字典匹配切分速度快的特点和概率统计能有效的解决地址歧义的优势。本文算法具有较高的切词速度和准确度,在保持较高的切词速度下,能够对地址数据进行位置调整,去重,补全,并且剔除垃圾数据。行政基础库和补全字典能够最大限度地提升地址的补全效果,而关键词和概率模型可以有效地识别出为登录词。本文算法兼顾分词性能和可维护性。