论文部分内容阅读
中国银联(China UnionPay)通过为商家客户提供刷卡支付服务,可以直接获得大量商户的基本信息,这些信息包括商户名称,商户类型,地理位置,交易额等,称之为“内部商户数据”;同时商户在互联网上也会有一些诸如商圈,评分,人气等信息,这些信息被称之为“外部商户数据”。如果将某个商户的基本信息与该商户在互联网上的社会信息进行关联,就可以实现对这个商户信息的补全,这个关联的过程称为商户信息的聚合。由于商户的名称是内外部商户进行关联的主要依据,但待聚合的内外部商户名称都是中文短文本,而且多数都存在一定的差异,因此,需要通过文本挖掘技术将内外部商户进行关联和匹配,将名称不完全相同但属于同一家商户的内外部商户信息准确地聚合在一起;同时,也要避免将那些看起来相似但其实并不属于同一商户的数据对进行关联配对。这种通过商户名称进行实体关联的过程也称为实体命名归一化。综上所述,如何通过计算机的自动文本关联实现有效的内外部商户数据聚合成为了一项具有挑战性的研究课题。课题的主要研究内容分为理论研究和应用研究两部分:(1)在相似度匹配算法上展开基础创新工作,通过研究大量的经典相似度算法,提出了新的相似度匹配算法——“广义Jaro-Winkler算法”。该算法结合了Jaro-Winkler算法、短语相似度算法、Levenshtein算法的优势,考虑了前缀、位序、间隔、长度等因素,针对短文本的匹配效果比其他经典相似度匹配算法更有优势。(2)开展了大量“短文本数据聚合模型的理论与应用”的研究工作,并提出了一套完整的短文本数据聚合模型。在研究中,针对数据量大可能导致的聚合效率低的情形,我们提出了“以倒排索引为基础的快速匹配”的过滤框架,通过快速匹配过程可以在尽可能短的时间内得到可能的候选对象,以此来提高聚合效率;同时,针对中文短文本匹配精度低的情形,我们对数据集进行了大量的样本分析,并发现了商户匹配可能存在的典型匹配情形,并用新提出的“广义Jaro-Winkler算法为基础的精细匹配”的验证框架,以此来提高聚合准确率。我们选择了6个相似度匹配算法在真实的商户数据集上进行了实验。实验结果表明我们提出的短文本数据聚合模型切实可行,新算法的泛化能力和稳定性相比其他算法都要好。综上所述,本文不仅在相似度聚合算法上进行了理论上的创新工作,提出了广义Jaro-Winkler算法,还结合了中国银联在内外部商户信息聚合的具体场景提出了“短文本数据聚合模型”,并且通过大量的实验验证了文中所提出的算法和模型的有效性和稳定性。本文的研究丰富了文本挖掘领域,并在实体命名归一化方向上提供了有意义的参考。