数据清洗中文本相似度算法的比较与优化

来源 :通信管理与技术 | 被引量 : 0次 | 上传用户:ck198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.
其他文献
轻骨料混凝土具有轻质高强、保温隔热性好等优点,但与普通混凝土相比脆性显著,掺入纤维和配置箍筋是改善其脆性特征的有效途径。目前,在轻骨料混凝土中使用较多的单掺纤维和混杂纤维分别为钢纤维和钢-聚丙烯纤维,轻骨料混凝土最显著的优势是“轻”,但钢纤维会增加自重,采用轻质高弹模的碳纤维与聚丙烯纤维混掺至轻骨料混凝土中,是一种保持其优点、改善其性能的方法,且其在箍筋约束下的应力-应变关系模型有待研究。因此,本
电动汽车具有绿色环保、节约能源的特点,近年来在世界范围内得到认可,并在各个国家得到大力推广。随着电动汽车行业在我国蓬勃发展,电动汽车的“充电难”问题逐渐显现,已经逐步成为限制电动汽车行业发展的瓶颈。电动汽车充电时间长,城市充电桩数量不足且分布不均衡是造成“充电难”问题的主要原因。如何解决电动汽车的充电问题,对于电动汽车行业的发展有着重要的意义。针对电动汽车的充电难题,本文提出一种电动汽车充电调度算
随着新一代信息技术的应用,制造业正逐渐向网络化和智能化生产发展,加工模式也由大规模集中控制向着分布式自主协作逐步转变,同时车间生产物流过程日益复杂化,服务型制造理念以及云制造、工业产品服务系统、社群化制造等为主要内容的新型制造模式,均深刻影响着制造业的转型升级。为了适应这种变化,本文以智能车间的生产物流服务过程为研究对象,对自组织运行原理与运行状态评价等问题进行了研究。首先,分析了生产过程的物流服