论文部分内容阅读
本论文在研究了经典的社团发现算法基础之上,提出了以用户相似度为核心的社团发现方法。该方法根据微博的实际情况,综合了用户的点赞、评论、转发等用户交互信息和标签、达人、微博内容等用户文本信息,从四个维度统一建立用户的相似度模型。并且结合汉语自然语言理解相关理论和技术,对微博内容进行了切实可行的分词和LDA主题提取,极大地丰富了用户的文本信息内容,对用户的爱好兴趣和真实需求进行了较为生动的刻画。根据每一个用户的实际情况分别确定其点赞、评论、转发和用户文本信息的权重,用户较多时,用户文本信息权重较大,用户较少时用户交互信息权重较大。最后根据建立的用户相似度矩阵,首先运用SSE指标进行合理确认最佳的聚类数,选择使用K-means聚类这一具有较低时间复杂度的经典聚类算法聚类,从而得到能够较好反映用户群体的兴趣爱好和真实需求的社团结构划分;在K-means聚类的基础上,进一步使用层次聚类进行了更加小粒度的社团划分,可以根据实际情况任意对聚类树进行裁枝。实验结果表明:该方法可以较好的处理普通用户网络之间交互较为稀疏的问题,并能够根据用户规模调整用户文本信息和用户交互信息的权重,并可以较好的进行用户的兴趣爱好和属性信息挖掘以及小粒度的社团划分。