【摘 要】
:
随着互联网技术的发展和大数据时代的到来,数据量的爆发式增长和大数据分析技术的成熟使用户画像成为自然语言处理、数据挖掘等领域的重要研究课题。性别作为建立用户画像的
论文部分内容阅读
随着互联网技术的发展和大数据时代的到来,数据量的爆发式增长和大数据分析技术的成熟使用户画像成为自然语言处理、数据挖掘等领域的重要研究课题。性别作为建立用户画像的基本属性之一,如何利用用户产生的数据去预测用户的性别已经成为一项基本的研究任务。虽然目前已有不少关于中文微博的性别分类研究,但已有研究并没有充分结合微博文本和社交信息。同时,已有的性别分类方法大部分是基于需要大量标注样本的监督学习方法。本文旨在研究基于微博文本和社交信息的性别分类方法,主要研究内容包括以下三个方面:首先,本文提出了一种基于多类型文本的全监督性别分类方法。其核心思想是:为了区分微博中不同类型的文本,通过使用集成长短期记忆网络(LSTM)联合学习不同类型的文本信息,实现对用户性别的预测。该方法将不同类型文本分开训练,有效避免了混合所有类型文本对性别预测带来的不利影响。实验结果表明,本文提出的集成长短期记忆网络方法要明显优于只使用单一类型文本的方法以及其他集成学习多类型文本方法。其次,本文提出了一种基于多类型文本的半监督性别分类方法。其核心思想是:为了区分微博文本类型并同时减少分类器对大量标注样本的依赖。通过协同训练把不同类型的文本分为不同的视图,使用长短期记忆网络(LSTM)模型作为基础分类器依次从每个视图中挑选置信度高的未标注样本,最后将挑选的未标注样本加入到已标注样本中,从而扩充训练样本规模。实验结果表明,本文提出的方法在只利用少量标注样本的情况下可以取得较好的分类结果,并且该方法明显优于传统的半监督学习方法。最后,本文提出了一种基于文本-社交因子图模型的半监督性别分类方法。其核心思想是:联合微博文本特征学习和社交关系共同建模进行半监督性别分类。具体而言,针对拥有相同关注者的微博用户定义一种社交特征,通过构建文本-社交因子图(TSFG)模型实现对文本特征和社交特征的共同学习。实验结果表明,本文提出的方法能够有效的利用社交关系的信息来帮助学习分类器,取得了更好的分类效果。
其他文献
钢管再生混凝土结构的应用既能够节约资源和保护环境又有着良好的经济效益,对该结构的研究和应用是一项必要且紧迫的工作任务。为了促进钢管再生混凝土结构更好的利用和发展,本课题组从提高再生混凝土的利用率、提高钢管混凝土的施工速度以及保证结构的力学性能等方面进行考虑,提出了“钢管再生大骨料自密实混凝土”这一结构形式。本文研究钢管再生大骨料自密实混凝土短柱在轴心受压下的力学性能,主要对该结构形式进行了轴心受压
随着网民数量的增加,网络安全成为人们极为关注的问题。为了有效的管理网络安全问题,网络安全管理系统将防火墙、入侵检测、防病毒、漏洞扫描等安全设备集中起来,共同完成企
近年来,虚拟化技术得到了快速的发展,在此基础上,多台物理机上的多台虚拟机组成的虚拟集群网络得到了广泛应用。为保证虚拟集群上实时性任务的服务质量,各虚实计算节点间需要
现有土锚多为等径土锚,为提高土锚的承载力,本文提出一种多横栓土锚及其成形工具。为了探究多横栓土锚的承载力特性,运用数值模拟软件对其水平方向的极限承载力、最大抗拔位移、侧摩阻力与锚固机制等相关问题进行分析研究。(1)为形成多横栓土锚的横腔,使用专用工具,通过减速机带动丝杆、丝杆带动压块、压块沿钻孔径向压土、变换位置形成多个横腔,放入钢绞线并浇筑水泥砂浆待凝固后形成多横栓土锚。本工具适用于150mm的
显著目标检测旨在模拟人类视觉注意机制来提取出场景中最吸引人注意的区域,近年来已发展成为计算机视觉领域的研究热点之一,并已广泛地应用于内容传输、图像缩放、图像分割、
视觉跟踪问题是当今计算机视觉领域的研究热点。随着社会公共安全体系的逐步完善,公共场所中对安全智能监控系统的要求越来越高,这使得许多知名公司和科研机构在此课题中投入
随着无线通信技术的飞速发展、移动终端的快速普及和各类应用软件的层出不穷,基于位置的服务(Location-based Service,LBS)已成为日常生活中不可或缺的一部分。但是人们在享
磁共振成像(Magnetic Resonance Imaging,MRI)因其具有无电离辐射性、多参数成像、多方位成像等优点被广泛应用在医学临床研究中。然而成像速度一直以来都是制约MRI快速发展
面对如今半导体制造生产线复杂不确定的加工环境,开展数据驱动生产过程建模,通过对数据信息的有效提取挖掘和预测建模,指导生产过程并提供最佳的解决方案。考虑到许多实际调
随着社会经济的发展,大城市面临交通拥堵问题。发展公共交通是缓解城市交通拥挤的有效方式。公交车辆调度问题是公交运营过程中的重要问题。纯电动车因具有运输成本低、低噪声、零排放等特点,受到政府的关注,但因其续驶里程短,充电时间长,电动车辆调度问题更加复杂。多车场公交车辆调度能动态调配各线路上的公交车辆,节约公交运营成本,因而是当前公交车辆调度的研究热点。然而,当前多车场电动公交车辆调度研究还非常有限。本