论文部分内容阅读
移动互联网、社交媒体等新兴科技的广泛应用,产生了海量蕴含着丰富社会信息和经济价值的媒体数据。这些数据类型多样、更新速度快、时效性强以及价值密度低的特点,极大推动了各个领域对文本、图像、视频、音频等媒体数据处理的需求。因此,准确而高效的处理媒体数据对学术研究和经济预测意义重大。本文主要以网络社交数据和移动通讯数据作为研究对象,对动态数据流进行无监督特征选择的聚类分析及应用研究,主要工作如下:1、基于用户相关性的动态网络媒体数据无监督特征选择算法(UFSDUC)。首先,对社交网络中相互交互的用户进行关系分类,作为无监督特征选择的约束条件。然后,利用拉普拉斯算子构建用户相关性的特征选择模型,量化相关用户之间的关系强弱,根据拉格朗日乘子法数学化特征模型中最优用户关系。最后,基于梯度下降法设定动态网络媒体数据的阈值,用以计算非零特征权值来更新最优特征子集,进而达到对数据进行有效分类的目的。该算法可在保证用户相关性完整的基础上对动态网络媒体数据进行准确、实时的特征选择。2、利用不完整数据检测交通异常的方法(TAD)。首先,根据实时手机数据与车辆密度之间的相关性进行聚类分析,提高了不完整数据的计算效率。然后,利用手机呼叫量变化率的波动情况检测分散式的动态事件,即时捕捉道路异常。最后,通过对异常事件发展轨迹的追踪,获取异常分布路线,进而推算影响区域并采取有效的监管措施。实验结果表明,该方法可以有效提高交通异常事件的检测效率,具有一定的创新性。媒体数据传播逐步向着超大化、动态化、高维化的方向发展,采用特征选择和聚类分析可以获取隐藏在数据内部的价值信息,提高特征提取与聚类计算的速度和准确度。本文的两个研究方案对媒体数据研究提出了新颖的解决思路,能够缓解计算速度与准确度之间的矛盾。