近邻排序算法研究及在中文数据清洗中的应用

来源 :江苏科技大学 | 被引量 : 3次 | 上传用户:mem12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的发展,数据分析在各行各业中起到了举足轻重的作用。在数据分析过程中,如何获得一个完善、稳定的数据源已逐渐成为人们关注的焦点。真实数据源存在的数据冗余、缺失、不确定和不一致等诸多“脏数据”情况,直接影响后续数据挖掘结果的准确性和决策的正确性。数据清洗的重要性不言而喻,与此同时,中文作为全球范围内的第二大语言,对中文数据清洗问题的研究已得到广大学者的广泛关注。本文重点研究基于近邻排序的中文数据清洗课题。数据清洗的种类有多种,重复值清洗是一项重要且具有挑战性的研究课题。最初中文重复值清洗的研究是将英文中清洗效果较好的方法直接应用于中文,但是由于中英文在语义、使用习惯等方面存在差异,研究结果显示主要有以下两个难点:传统清洗算法无法适应中文语义环境且无法有效处理中文常见的同音词、同义词等情况,导致最终清洗结果和原始数据的实际情况大相径庭。针对传统算法的不足,本文提出了基于近邻排序的中文数据清洗算法。论文将传统近邻排序算法直接应用于中文数据清洗,结果显示准确率远低于该算法应用于英文重复值清洗时的结果。经过研究发现,中文语义是基于词语的,而传统近邻排序算法无法以词语为单位计算相似度;同时,该算法无法对同义词之间是否相似做有效判定。针对以上不足之处,本文给出了改进思路:在引入编辑距离计算相似度的过程中,采用中文分词的手段使每个参与相似度计算的单元由单个汉字变成词语来适应中文语义环境。在此基础上,引入同义词词库参与相似度计算,以词库为标准,判定两词语之间是否为同义词。实验结果表明,改进后的近邻排序算法能够以词语为单位计算相似度,体现出中文语义是基于词语的这一客观事实的同时,不仅减少了计算过程中的对比次数,节约算法运行时间,而且为同义词对比做好铺垫。改进后算法的准确度高于传统近邻排序算法,并达到预期效果。
其他文献
如果学生是一个国家蓬勃发展的年轻力量,老师是辛勤育人的园丁,那么课堂就是老师教授学业和学生掌握知识的重要场所,通过数字化技术检测与分析课堂上学生的不同行为,不仅可以提醒学生规范自身行为,还能反映课堂活跃程度,帮助老师改善教学方式。同时,为了满足各区域对优秀教育资源快速共享的要求,视频录播技术得以发展。目前市面上主流的视频录播系统仍是人工导向,需要专业人员操作摄像机进行拍摄,从而导致拍摄质量的不稳定
二氯烯丙醚类含氮杂环化合物具有很好的杀虫生物活性,是农药创制的一个热点。本文综述了二氯烯丙醚类化合物的研究进展,具体介绍了此类农药的创制过程、结构与活性,合成了二
近一个世纪以来,全球变暖持续驱动着不同区域的水文气象要素变化,极端降水和干旱事件较以往发生地更为频繁。在此背景下,降水时空分布格局亦在发生演变。在我国西北干旱区,降水是地表水和地下水的重要补给源,降水的变化对径流甚至区域水资源量都具有重要影响。因此,揭示区域降水的结构化变化特征及环境响应,对厘清气候变化影响机制,开展应对气候变化的水资源配置与管理具有重要意义,其结果也可为全球降水演变提供区域经验性
智能制造是指将人工智能运用于制造行业,由智能系统在制造过程中进行推理、分析、判断、决策等活动,实现生产制造的智能化。注射成型是塑料加工制造的主要方法之一,由于注塑成型是一个复杂的生产过程,在各个注塑阶段受不同的参数调控和复杂的外界因素影响,注塑过程塑料制品往往会产生各种类型的注塑制品缺陷,直接影响制品质量。将机器视觉技术运用于注塑制品缺陷检测能够提高检测精度、提升效率,是实现注塑智能化的重要部分。
局部放电缺陷是引发电缆故障的重要诱因,及时发现电缆中的局部放电对保证电缆正常运行具有重要意义。光纤传感技术作为检测局部放电的非电测法之一,具有防腐蚀、抗电磁干扰能力强等显著优点,能够克服电测法现场应用存在的一些问题。针对10kV交联聚乙烯(XLPE)电缆的局部放电检测,本文对基于光纤光栅(Fiber Bragg Grating,FBG)和萨格纳克(Sagnac)干涉两种光纤传感技术进行了研究。由于
十八大以后,进入改革深水区的中国,社区存在着诸多问题,而社区治理仍处于探索阶段。改革开放实现商品经济以后我国出现了以营利为目的的物业公司,他们负责管理包括小区建筑修
微泵是一种微驱动器,多应用于微流控领域。热泡式微泵的工作原理是基于气泡爆破理论来实现液体的泵送。热泡式微泵多采用无阀结构,因此具有较高的可靠性,可用于实现粒子分选、传感检测、驱动混合等功能。针对压电微泵、静电微泵驱动电压高且制造工艺复杂,以及热泡式微泵产生的高温会损害溶液中的部分生物或化学物质等缺陷,本文基于感应加热技术、气泡核化理论及无阀微泵驱动原理,研究一种气泡定点生长微泵,该微泵上的微型加热
近年来,DNA计算的迅速发展,引起了研究者的广泛关注。相比于电子计算机,DNA计算拥有不可比拟的优势。通过生物系统工程和分子信息处理,DNA计算可以也实现作为数字计算机的计算活动。实际上,电子计算机中逻辑门作为基本的运算单元,构成了复杂的运算过程。本研究初步开发了多种基于DNAzyme的新型链置换模型分子逻辑门,用以进行基本的逻辑运算和一系列的分子电路。在这里,主要的操作是重复DNA酶消化和熵驱动
弗兰纳里·奥康纳一直被认为是美国继福克纳之后最杰出的南方作家之一。作为美国文坛上一位重要的作家,奥康纳的一生尽管短暂却为后世留下了宝贵的精神财富。她的作品通常带
近年来,随着我国国民经济和消费水平的持续提高,味道鲜美、风味独特、营养丰富的小龙虾制品越来越受到消费者的欢迎。目前小龙虾制品的主要营销方式为现做现卖,这种营销方式易受小龙虾养殖周期的影响,同时也无法满足现代消费者对小龙虾制品便捷性和耐贮藏性的需求。本研究以小龙虾为原料,首先利用现代食品加工技术,优化小龙虾的卤制工艺参数,开发出一种风味独特、营养丰富、便捷携带的卤制小龙虾;接着研究对比了卤制小龙虾的