论文部分内容阅读
随着互联网和通信技术的发展,Instant Messaging、Internet Relay Chat等即时通信工具得到广泛普及和应用。这些即时通信工具往往产生大量的、用于人们交流和通信的交互性短文本,简称为短语消息。短语消息在传递公开信息的同时携带了丰富的用户信息,从而成为一种新的具有极大价值的信息资源。对短语消息进行分析和挖掘,对于信息的管理和优化、关键信息的提取、以及信息的理解等具有重要意义。短语消息是一种即时交互性短文本,与常规文本相比,具有不完整性、交错性、不规范性和混淆性的特点。此外,高速的短语消息流造成了大规模的短语消息归档数据库。这些特征给短语消息挖掘研究提出了挑战。本文以短语消息挖掘为背景,以短语消息聚类相关技术为研究内容,以构建准确、高可伸缩的短语消息聚类系统为目标,展开了从短文本相似性度量到短语消息预处理,再到并行的短语消息聚类算法的系列研究。主要研究成果包括:(1)针对短语消息的特点,提出了一个短语消息聚类系统模型MeCSyM,该模型兼顾了短语消息流和归档的短语消息数据库场景,包括短语消息会话抽取、短文本表示与相似性度量、并行短语消息聚类算法三个主要部分,为短语消息聚类提供了一个可选的总体研究方针和路线,是本文开展短语消息聚类研究、设计和实现的基础。(2)详细分析了短语消息的内容特征、语法特征和时间特征,提出了短语消息流上的会话抽取算法DWExter。利用短语消息间时间分布特征,设计了双时间窗口机制及其数据结构RMR,以支持DWExter算法较高的执行效率,实现动态短语消息流上高效的会话抽取功能。在真实数据集上的实验表明,与两个基准测试算法相比,DWExter的准确性分别提高了约85%和18%。(3)针对短文本关键词稀疏而导致常规度量方法下文本相似度漂移的问题,提出了基于HowNet和语料集的词间关系量化算法CrtNRG。在该算法的基础上,针对高速文本消息流分析和大规模短文本数据挖掘,提出了短文本的动态向量表示和相似性度量算法SiM。在短文本聚类实验中,分别采用TF-IDF方法、基于语料集的方法和SiM算法作为文本相似性度量算法,实验结果表明,与TF-IDF方法相比,SiM算法使聚类质量提高了一倍以上,而与基于语料集的方法相比,采用SiM算法的聚类质量也得到了约36%的提升。(4)在分析k-means算法和基于频繁词集聚类算法特点的基础上,提出了一个短文本混合聚类算法SHDC。该算法利用上述的SiM算法,可以为短语消息会话生成高质量的聚类结果,并且为聚簇提供了描述信息。另外,以降低数据子集间耦合度为目标,设计了一个纵向的数据划分策略VDiV。以此为基础,提出了并行k-means的改进算法OK-means,并提出了粗聚类的概念和并行粗聚类算法parROC。基于以上两个并行算法,设计了一个并行的短文本混合聚类算法parSHDC。实验结果表明,相对PDDP K-mean和并行k-means算法,parSHDC在聚类质量上分别提高了约12%和18%,而加速比分别提高了约38%和50%。(5)基于上述研究成果和研究组已有的系统平台StarTPMonitor,设计并实现了一个短语消息聚类原型系统StarSTMiner+,通过对StarSTMiner+系统结构的介绍,讨论了主要模块的实现方法和可进一步完善的方面。