【摘 要】
:
随着社交网络平台的迅速普及,社交网络数据也随之日益增多并造成信息处理越发困难。标签作为一种快速从大数据中获取人们感兴趣内容的解决方案,可以为信息检索、个性化信息推荐等领域的研究提供应用基础。因此,从社交网络数据中提取高质量的标签具有重要的研究意义。针对传统的标签提取方法没有深入考虑社交网络数据本身所具有的网络结构等特征对标签提取的影响,本文基于社交网络结构对利用文本或内容信息进行标签提取具有的有益
【基金项目】
:
2020年12月','3693','86_rJNg5XqNrrx7tt052UCGV2sYHjDLi5YQU9lbuSGvXatIPIsH-6A==');
">大数据知识工程基础理论及其应用研究(NO.2016YFB1000900),国家重点研发计划,起止时间:2016年7月2020年12月; 多
论文部分内容阅读
随着社交网络平台的迅速普及,社交网络数据也随之日益增多并造成信息处理越发困难。标签作为一种快速从大数据中获取人们感兴趣内容的解决方案,可以为信息检索、个性化信息推荐等领域的研究提供应用基础。因此,从社交网络数据中提取高质量的标签具有重要的研究意义。针对传统的标签提取方法没有深入考虑社交网络数据本身所具有的网络结构等特征对标签提取的影响,本文基于社交网络结构对利用文本或内容信息进行标签提取具有的有益补充作用,从三个方面提出考虑社交网络数据特征的标签提取方法:面向文本数据和网络结构的标签提取,基于社交网络海量数据和持续性特征的用户兴趣标签提取,以及基于大规模社交网络数据动态性特征的社交网络用户实时兴趣标签提取。论文主要开展了以下工作:(1)针对社交网络数据中因信息使用不充分从而限制标签提取精度的问题,提出一种基于重叠标签加强的社交网络用户兴趣标签提取方法UNITE(UserNetworked Interest Topic Extraction)。该方法通过联合社交网络中文本内容和社交网络结构信息,利用社交邻居标签与用户标签之间的重叠机制来提升社交网络用户标签提取精度。此外,将UNITE方法扩展应用于社交网络特例——科研合作网,并基于该方法设计了一种利用大型语料库中的高频词对来提升科学文献关键词提取的方法UNITE_COKE(UNITE based phrase-Co-Occurrence-enhanced Keyphrase Extraction)。实验表明,利用社交网络文本内容信息和社交网络结构共同提取标签的方法,对提升标签提取质量具有普适与示范意义。(2)传统社交网络用户兴趣标签提取时,没有考虑大规模社交网络结构难以处理和社交网络数据持续到来问题,提出将大规模社交网络结构转化成“子图流”数据结构,并在该结构下提取用户兴趣标签的算法UNITE_SS(UserNetworked Interest Topic Extraction in the form of Subgraph Stream)。实验表明,UNITE_SS算法在保证社交网络用户兴趣标签提取精度下,还减少了计算开销。同时,证明了“子图流”数据结构不仅能用于提取社交网络用户兴趣标签,还能为资源受限情况下大规模图计算问题提供可行的解决方案。(3)针对大规模社交网络动态性特征而导致提取出的兴趣标签缺乏实时性问题。基于前期研究工作中“子图流”数据结构,提出“即来即处理”的方法以保证提取用户兴趣标签的实时性。然后,结合粗糙集上下近似理论和所设计的用户时序性特征,提出基于子图流的大规模社交网络用户兴趣标签提取方法RS_UNITE_SS(Rough Set based User-Networked Interest Topic Extraction in the form of Subgraph Stream)。在两个真实数据集上进行的大量实验验证了RS_UNITE_SS方法在兴趣标签提取的准确性和效率上达到了一定的平衡。
其他文献
随着计算机科学的不断发展,以及对个性化人机交互需求的不断增强,情感计算在人机交互中的重要性日益显著。传统的人机交互,主要通过键盘、鼠标、屏幕等方式进行,只追求便利和准确,无法理解和适应人的情感或心境。而人们的感受对决策有直接影响,情感能力对于计算机与人的自然交往至关重要,所以情感计算具有重要意义。视频数据的骤增为情感计算带来了新的机遇和挑战,数据驱动的视频情感计算,主要是通过移动互联网采集海量的数
物联网与移动互联网的蓬勃发展催生新一代无线通信网络的变革升级。一方面,无线信号传输质量主要依赖其物理信道特性,建立对通信环境准确抽象的信道模型是无线通信系统性能分析及优化设计的重要环节,然而,传统信道模型在精确性、复杂性和移植性方面各擅胜场,且大都面向传统蜂窝网络,缺乏对多元化散射场景特征准确表征的有效手段,对移动物联网场景中物-物无线通信信道兼容性弱。另一方面,作为第五代移动通信网络(5th g
在软土及厚覆盖层地区建设悬索桥时锚碇基础的设计施工是一个重大的工程难题,引起了工程技术人员越来越多的关注。为了解决传统重力式锚碇体积巨大、造价高、施工困难等难题,安徽省高速公路总公司提出了根式锚碇这一新型锚碇基础型式,并于池州秋浦河大桥展开工程应用。根式锚碇由大直径根式空心桩及轻型承台组成,依靠大直径根式空心桩的竖向承载能力和水平承载能力抵抗上部结构传来的主缆荷载。然而,作为一种新型锚碇基础型式,
多输入多输出(Multiple-Input Multiple-Output,MIMO)系统通过在发射端和接收端分别部署多个天线阵列,可以显著地提升信道容量和传输速率,被认为是未来无线通信的关键使能技术之一。然而,在MIMO系统中,随着基站端天线数目的增加,导致产生大量的未知信道参数和巨大的导频开销,使得无线信道估计成为一项极具挑战性的难题。因此,研究MIMO系统的信道估计技术,对未来无线通信技术的
随着信息技术、通信技术的高速发展,道路行驶车辆在以移动数据互通为基础的车联网环境下,实现车辆与车辆之间、车辆与路边基础设施之间、车辆与各类服务器之间便捷、准确的信息交换,成为保障行车安全,提升交通效率以及提供通信娱乐等服务的基础条件。其中,以最能反映车辆移动特性的车间通信为代表,与其相关的性能与技术的研究也受到越来越多的重视。作为车辆间通信的主要技术之一,设备到设备(Device-to-Devic
注浆加固堵漏已成为煤矿建设工程中封堵地下水和软岩治理的关键施工技术。但随着煤矿开采深度的不断增加,深部岩层注浆需同时应对高地压、高水压、微裂隙连通性差、孔隙结构复杂等特征,现有的注浆理论、工艺和材料均难以适应,严重威胁深部资源的安全开采。为此,本文采用注浆材料物理性能试验、理论分析、模型实验、数值模拟和现场实践相结合的方法,围绕煤矿深部岩层劈裂注浆扩散机理问题,系统开展深部岩层起裂-扩展机制、深部
个性化推荐系统已经越来越广泛的出现在人们的网络生活中,比如各种电子商务平台的商品推荐和内容消费平台的广告。推荐系统方便用户从大量的选择中发现一小部分符合自己个性化兴趣的相关物品。然而推荐系统同样面临着许多问题,比如数据稀疏,冷启动等。如今在线平台中用户和物品的多样化辅助信息变得越来越多,最近的证据表明,将这些辅助信息与协同推理结合起来,可以更好地捕捉用户与物品之间的潜在的复杂关系,从而解决数据稀疏
随着精密制造业的不断发展,器件结构设计趋向微型化,需要测试材料微小尺寸力学性能参数,为相关器件设计和性能评价提供合理的依据。现代光测力学技术作为实验力学的重要分支,因其具有非接触、全场测量、灵敏度高、无损等优点而广泛应用于力学性能测试领域。其中,三维显微图像相关力学性能测试技术更可对毫微米级试样进行力学性能测试。然而,三维显微图像相关力学性能测试技术在应用过程中也面临着一些问题和挑战。本文针对其中
医学超声成像技术在临床诊断中有着不可替代的重要作用。波束形成是超声成像过程中最重要的一个步骤,直接决定了最终生成的超声图像质量。传统的延时叠加(delay and sum,DAS)波束形成方法在超声成像中应用最为广泛。DAS能够快速地生成超声图像,但是其生成的超声图像质量较低,分辨率和对比度都较差。自适应波束形成技术能够获得非常好的超声图像质量,具有较高的分辨率和对比度。在过去的几十年间,自适应波
煤矿行业的发展为我国城市化进程和区域经济的协调发展做出了巨大的贡献。但伴随着煤炭资源的大规模开采,地表结构不断遭到破坏,引起的地面沉降、塌陷、建筑物变形倒塌和公共设施损毁等一系列矿区灾害问题严重的威胁到了矿区人民的生命财产安全,地区的可持续性发展面临着严峻的挑战。因此,开展矿区地面沉降的长期高效监测、建筑物的动态损坏评估及预测预警研究工作,对于矿区的防灾减灾工作以及地区的和谐稳步发展有着重要的理论