基于社交文本数据的人物地理位置属性挖掘研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:flscut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展以及移动设备的普及,用户对社交网络的依赖与日俱增。微博作为国内最大社交平台之一,大量基于微博的研究应运而生,例如基于微博话题的灾难检测与管理研究、微博用户群体运动趋势研究和公安系统的微博缉凶应用研究等。基于微博的研究所带来的社会效应,可以提高社会对于紧急情况的应对速度以及效率。然而,大多数用户的有效地理位置信息难以获得,使得上述研究成果无法推广应用。因此,为了使得相关研究成果得到较好的推广应用,本文将从微博平台上的文本数据挖掘出用户的地理位置属性,进行数据收集、预处理及推测等相关研究。具体工作如下:首先,针对微博平台上带地理位置标签的语料匮乏的问题,通过研究微博文本数据及用户数据特征,设计爬虫策略,获取了如下两方面的数据信息:(1)带有地理位置标签的微博发文,通过该数据建立微博发文语料库,然后将其作为构建微博文本位置推测模型的基础;(2)用户关联信息(包括用户资料信息、用户历史发文、用户社交关系网络、用户关注的其他用户资料信息与历史发文等信息),利用该数据建立目标用户数据集,作为推测用户主要活动位置的基础。其次,社交文本数据具有文本短小、用语口语化、噪声繁多的特点,存在于其中的地理位置相关特征高度稀疏及特征词条特征性不足,并由此导致地理位置推测准确率低。针对上述问题,本文设计给出了一种新型的文本预处理方法,具体研究如下:(1)在常规文本清洗的基础上,基于UF-TF-ICF-W的文本清洗方法对语料库进行进一步地清洗,提高语料库中地理位置相关信息的稠密度;(2)建立并引入了城市兴趣点和方言词典,以提高分词的准确度;(3)设计了一种针对性的分词修正规则,该规则可提高一些跟地理位置有强相关性的特征词条权重,进而加强这些词条的位置特征性;(4)提出一种基于微博文本数据的特征选择改进方法(CHI-TF-IDF),以降低特征维度,提高模型运算速度。最后,本文基于朴素贝叶斯算法构建了微博文本位置推测模型,并基于此模型提出了一种基于加权投票机制的用户主要活动位置推测方法。最终实验中的融合准确率市级粒度达到了78%,省级粒度达到了82%。
其他文献
在物联网系统中,众多发射机同时通过多径衰落信道将消息发送到基站。其中非相干通信由于不需要在接收端进行信道估计,在短包通信和低信噪比通信中具有性能优势,成为了近年来重点研究的对象。然而,传统的非相干收发机设计方法复杂度较高,难以适用于用户数量快速增长的物联网场景。因此,本文以大规模单输入多输出(Massive Single Input Multiple Output,Massive SIMO)中的非
随着第五代移动通信(The Fifth Generation,5G)技术商用,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术广泛应用于各类通信场景中。5G微蜂窝通信设计中仍然存在多径衰落、阴影衰落以及大气衰落,给OFDM系统下的放大器效率带来了新的挑战。但由于OFDM高峰均比(Peak-to-Average Power,PAPR)
随着5G时代的到来,通信网络中流量和连接数急速地增长。在物联网(Internetof-Things,Io T)领域,“万物互联”正在变为现实,但是频谱资源的稀缺的问题逐渐凸显出来。环境反向散射通信(Ambient Backscatter Communication,Am BC)技术是物联网的解决方案之一,具有高频谱效率、低成本和低功耗等优点,一经提出就广受关注。对物联网设备进行定位在现实中有着很大
雷达组网探测威力分析是一种广泛使用的工具,其在军事领域中经常被用来确定雷达网在不低于一定概率的情况下能够探测到的雷达散射截面的区域。它是雷达网联合作战效能评估,防守侧责任区域划分,雷达网部署位置参数优化,进攻方突防路径规划等雷达军事领域的关键步骤。图像处理器拥有强大的并行浮点数运算能力。所以现如今GPU广泛应用于深度学习、雷达数据处理、图像分析等领域。GPU中有着大量且简单的逻辑运算器以实现大规模
在mmWave大规模MIMO通信系统中,使用大规模天线阵列可以弥补毫米波传输过程中的损耗,同时,预编码技术通过调整发射信号的相位和幅度来实现系统传输速率的提升,进而满足5G通信系统的高传输速率需求。然而大规模天线阵列会导致全数字预编码器使用大量的射频链路,造成不可估量的硬件复杂度和能耗。合理地设计混合预编码器可以减少射频链路的使用,降低模拟电路的成本,天线选择技术可以在混合预编码的基础上进一步降低
频控阵(Frequency Diverse Array,FDA)技术已应用在雷达系统,近几年频控阵(FDA)雷达和多输入多输出(Multiple-Input Multiple-Output,MIMO)技术的结合作为一种新体制雷达被提出。FDA-MIMO雷达通过在发射阵元上附加了频率偏移,其发射域导向矢量具有距离相关性。利用这一特性,本文开展了基于FDA-MIMO雷达的杂波抑制方法研究,重点解决了最
泥石流灾害一旦爆发往往带来巨大的人员伤亡和经济损失,给山区群众的生命财产造成严重威胁。我国山区地质条件复杂,泥石流灾害频发,依靠人工观测的传统手段无法进行全天候的有效监测。现有的泥石流预警装置对环境的适应性相对较差,测量参数也较为单一,相比国际上同类产品稳定性较低,野外恶劣工况下难以长期稳定工作。因此,有必要开发一种可在野外保持长期工作,可远程全自动全天候监控泥石流信息的监测设备。本文设计的地质灾
面对传统建筑行业对人力资源的迫切需求,机器人被广泛应用于建筑领域行业。针对目前室内抹灰机器人无法实现大面积准确识别、重建物体的问题,本论文研究了相移法技术、NCC算法立体匹配技术、三维点云重建技术等关键技术,最终采用了基于LCOS投影技术的三维重建方案,并对传统的算法进行了改进,搭建了一套基于LCOS的室内三维重建系统。本论文的大体研究方向如下:1、本文研究了室内多种三维重建技术,并对相移法相位解
在计算机视觉技术领域里,三维重建是一个备受关注的话题。从最初的运动恢复结构、多视角立体几何等离线重建技术,经久不衰的同步定位与地图构建技术,再到如今以Kinect Fusion为代表的借助图形处理器加速计算的实时稠密表面重建方法,三维重建都在朝着更快、更精细和开销更低的方向演变。此外,近年来消费级深度传感器在三维重建系统中通常扮演扫描仪的角色。本文研究的重点是基于深度相机的室内实时稠密大尺度建模,
随着通信技术和工业应用的发展,当代生活对于通信的大容量和高速率的需求越来越突出。毫米波频段具有丰富的频谱资源,可以满足未来通信中多媒体和物联网等对于带宽和连接数量的要求,因而被视为是第五代移动通信技术中非常重要的物理层技术。但由于毫米波信道具有较强的衰落,需要借助波束成形的结构才能展现出大带宽的优势。虽然混合波束成形系统相比于现有的全数字波束成形系统已经减少了系统的复杂度,但其依然需要射频链路、毫