论文部分内容阅读
由于互联网的迅猛发展,网络应用不断涌现。微博,作为一种方便快捷的社交网络平台一经推出便获得了人们的喜爱,成为人们在工作和生活中记录生活,抒发情感,获取信息,结交朋友的一种主要平台。然而,随着微博的迅速发展,微博上的信息量也日益增长,巨大的信息量使得人们不得不耗费更多的时间寻找自己感兴趣的信息。本课题的主要研究内容就是:从微博用户的微博信息中获取用户的潜在兴趣。挖掘出的潜在兴趣可以用来向用户提供个性化服务,如根据用户的潜在兴趣向用户推荐朋友、相关信息、商品等。现如今很多流行的社交网站,比如新浪、人人、朋友网等,也向用户提供了推荐功能,但这些社交网站中的推荐并未涉及用户的文本信息内容,使得有些推荐不一定能够符合用户的心理。因此,若能根据用户的文本信息准确地挖掘出微博用户的潜在兴趣,那么就可以向用户提供更好的推荐服务。挖掘出的用户潜在兴趣除了可以用于推荐服务,也可以用于广告投放,商家可以根据用户的潜在兴趣向其投放相应的广告,这样能够获得更好的宣传效果和商业利润。本研究的主要贡献有以下几点:第一,候选关键词提取过程中,我们除了利用基于频率的关键词提取方法外,还考虑到了词在微博信息中的位置信息,通过二者相结合的方式提取候选关键词。第二,将主题模型应用到该问题上,并且根据微博信息的特点和本实验的要求,采用了简化的Twitter_LDA对候选关键词的潜在主题进行分析。第三,将SVM算法用于微博用户潜在兴趣的分析,对提取出的候选关键词进行分类,剔除那些非兴趣词。第四,为了进一步了解微博用户的内心,对分析出的潜在兴趣,进行情感分析。通过实验得出了以下几条结论:第一,候选关键词位置信息的加入,能在一定程度上提高兴趣词的准确率和召回率;第二,简化的Twitter_LDA在一定程度上能提高兴趣词的准确率和召回率;第三,SVM算法完全适合于微博用户潜在兴趣的分析;第四,特征的不同组合对兴趣词的提取有一定的影响。