基于汉语句法分析的微博聚类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yl1992zhangshu0804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是互联网上的一种重要的信息发布工具,以其简短、便捷的方式表达用户观点,已经成为了新的媒体和社交平台。为了更好地提升微博服务质量,如何为不同用户推荐感兴趣的好友和内容就成为了一个值得研究的课题。针对此问题,现有方法主要是从结构和内容两方面入手进行研究。由于微博是一个由文本内容构成的平台,所以从文本入手更加具有普适性以及跨越性,不会受到已有用户关系的影响,可以根据不同用户的语义偏好性来进行聚类。因此本文根据文本内容来研究微博相似度,为后续的聚类处理提供可靠依据。微博是一种短文本形式,如果使用传统的文本聚类方法,就会造成表示文本的向量空间模型(Vector Space Model,VSM)过于稀疏的问题。为了避免微博特征向量过于稀疏,区别于广泛使用的添加外来语义的处理方法,本文从汉语句法结构入手进行分析,明确了构造句法分析器的需求,并依据该需求设计了句法分析器的结构及其处理流程。处理时,首先对文本进行句法分析,依据不同词性的前后顺序及共现关系,识别出不同类型的短语;然后根据识别出的短语类型,为组成该短语的不同成分赋予相应权值,使得句中关键分词的权值更大;迭代以上步骤,反复归约出新的短语成分,就可以为文本中的核心部分赋予最大的权值,贡献值较小的部分,则权值相应较小。利用这种方法确定的特征向量,可以更加客观地标识出不同成分的重要性。在此基础上,利用向量空间模型计算出不同微博文本之间的相似度。本文在计算相似度时,为了避免出现聚类结果以特征向量非零项数为基准而发生的拥簇现象,特意进行了两次程度不同的聚类,分别使用了不同的相似度函数,这种方法很好地改善了上述问题。本文算法最大限度地挖掘出了微博中有限内容的隐含价值,实验表明,使用该算法得出的特征向量,提高了相似度计算的准确性,并提升了微博聚类的效果。
其他文献
在我国,建立有效的公务员的分类管理的制度是变革行政管理体制的主要构成部分,也是对公职人员团队进行有序管理的主要方法。从实际来看,我国的公务员分类制度在安排上并不科
我院通过电话随访、家庭访视、电话咨询、造口专科门诊的定期复诊、造口人阳光俱乐部活动等对44例永久性造口患者实施出院后延续护理。44例患者均按计划完成各项出院后延续护
目的:探讨采用带股方肌蒂的骨瓣移植术治疗成人股骨头缺血性坏死的临床实际价值。方法:收治成人股骨头缺血性坏死患者96例,随机分为两组,每组各48例。对照组采用伞状记忆合金
在收集整理马泰壕煤矿地质资料和瓦斯资料的基础上,运用瓦斯地质理论和构造演化理论,分析井田地质构造演化及分布特征,研究地质构造、顶底板岩性、煤层赋存状态等地质因素对
雷达成像技术具有全天候、全天时、远距离观测能力,有效提高了雷达的信息获取能力,具有重要的军用和民用应用价值。随着雷达成像技术的高速发展,雷达图像收集能力越来越强。从大
在当今国际关系格局中,中国和白俄罗斯的关系具有重要地位。与世界上各大国,尤其是中国建立友好伙伴关系决定了白俄罗斯共和国当今外交政策的重要内容。众所周知,在当代世界,
传统的多体系统模型是建立在确定性基础上,即把分析工程中各种因素作为确定性物理量来进行处理,认为它们是精确确定的或可以精确测量的。但由于不确定性因素是客观存在的、不可
<正> 所有获得过诺贝尔奖的科学研究都对科学的发展产生了深远影响。过去的某些获奖成就显著地改变了人们的生活;但是,本年度诺贝尔奖有些可能引起争议。诺贝尔在遗嘱中说,他
泰拳作为一个风靡全球的实战拳种,其技击风格极为强悍。在本文中,王选杰先生充分肯定了泰拳的实战威力,同时以中国禅学内容为例,论述了大成拳在技击意识训练方面的长处。通过
教师以学定教,一方面需要关注学生,因生制宜;另一方面要解读教材,因课而定。在实际的教学过程中,为了比较有效地推行以学定教的理念,教师要指导学生自学,重视学生合作与交流