论文部分内容阅读
随着社交网络的发展,基于社交网络的服务和应用越来越丰富。在为用户提供便利的服务和应用的同时,服务和应用的提供方也积累了大量的用户信息,这些信息具备了大数据特征。服务方如何利用这些信息为用户提供精准、高质量的服务是提升自身竞争力面临的问题。用户群体划分是解决该问题的重要手段,用户偏好是划分用户群体的基础依据,聚类是划分的主要操作。为了解决在大数据环境下用户群体划分的效率问题,本文从非确定性二元关系的角度,提出一种新的解决方法,该方法可以在保证精确性的基础上,大大提升识别偏好相似群体的时间效率。
本文主要研究内容如下:
(1)对课题的复杂性进行论证,判断该问题是否是可计算的,如果是可计算的,那么进一步论证求解该问题的复杂性,如果是不可计算的,则论证寻求近似解的可行性。课题复杂性的研究主要分为两部分,一是证明用户偏好相似问题的复杂性,二是识别偏好相似群体问题的复杂性。对于这两个问题复杂性,本文通过分别设计两个图灵机得以论证;
(2)研究适合于偏好相似关系的非确定性二元关系模型及其性质,本文提出一种新的满足封闭性和完备性模型,并且证明本文研究的偏好相似非确定二元关系满足自反性、对称性以及相对传递性,然后根据用户的历史数据集,通过K近邻算法,初步确定偏好相似关系,预先设置一个相似度阈值T,若计算出的用户之间的相似度超过阈值T,则判定为两个用户之间满足偏好相似关系,否则为不满足。通过该方法即可找出与目标用户偏好最相似的K个用户,最后结合偏好相似关系的性质,对每个用户初步确定的偏好相似关系进行再计算和扩充,从而生成最小的偏好相似团;
(3)以最小的偏好相似团为基础,通过改善fast unfolding算法识别出完整的偏好相似群体,将最小团代替fast unfolding算法的第一阶段执行的结果,接着通过计算模块度增量将最小团进行合并,为了避免fast unfolding算法在用户数量发生变化时使得原始的偏好群体产生碎片化,本文还针对系统内用户变化主要是用户增加的情况,对fast unfolding算法进行扩展,提出一种动态识别偏好群体的增量算法。
最后本文对所提方法进行实验,并且对实验结果进行了详细的阐述,结果表明本文所提算法在识别时间和精确度上的有效性。
本文主要研究内容如下:
(1)对课题的复杂性进行论证,判断该问题是否是可计算的,如果是可计算的,那么进一步论证求解该问题的复杂性,如果是不可计算的,则论证寻求近似解的可行性。课题复杂性的研究主要分为两部分,一是证明用户偏好相似问题的复杂性,二是识别偏好相似群体问题的复杂性。对于这两个问题复杂性,本文通过分别设计两个图灵机得以论证;
(2)研究适合于偏好相似关系的非确定性二元关系模型及其性质,本文提出一种新的满足封闭性和完备性模型,并且证明本文研究的偏好相似非确定二元关系满足自反性、对称性以及相对传递性,然后根据用户的历史数据集,通过K近邻算法,初步确定偏好相似关系,预先设置一个相似度阈值T,若计算出的用户之间的相似度超过阈值T,则判定为两个用户之间满足偏好相似关系,否则为不满足。通过该方法即可找出与目标用户偏好最相似的K个用户,最后结合偏好相似关系的性质,对每个用户初步确定的偏好相似关系进行再计算和扩充,从而生成最小的偏好相似团;
(3)以最小的偏好相似团为基础,通过改善fast unfolding算法识别出完整的偏好相似群体,将最小团代替fast unfolding算法的第一阶段执行的结果,接着通过计算模块度增量将最小团进行合并,为了避免fast unfolding算法在用户数量发生变化时使得原始的偏好群体产生碎片化,本文还针对系统内用户变化主要是用户增加的情况,对fast unfolding算法进行扩展,提出一种动态识别偏好群体的增量算法。
最后本文对所提方法进行实验,并且对实验结果进行了详细的阐述,结果表明本文所提算法在识别时间和精确度上的有效性。