论文部分内容阅读
互联网在人们的日常社会生活中发挥着重要的作用,已经成为人们获取消息的重要平台。随着Web2.0技术的发展,人们在互联网上的信息交流方式发生了改变,人们不再是单一的从网络获取信息资源,还可以参与信息的提供与传播,公众越来越倾向于在网络平台上发表看法、观点、参与话题讨论与互动等。许多在线新闻网站都提供及时的新闻与社会热点新闻等,同时这些新闻网站都提供给用户参与话题讨论和发表新闻评论的功能。用户可以通过对一条新闻的评论来表达看法和观点等。这些评论数据不仅记录了用户发表的评论内容,还包括用户的昵称、地理位置和发表时间等信息。其中,用户的地理位置信息表现了用户的生活和活动地点,在同一地理位置上的用户通常会具有相似的评论行为。分析一个区域内的用户评论行为,可以了解这个区域所隐含的区域特征和热点话题。本文提出基于用户评论行为的区域特征发现问题。区域特征或热点话题可以是一类事件或者一个主题,区域特征由一个区域内的用户针对特定的事件或话题的评论行为来表现。了解区域的特征可以标记区域所具有的主题,用于区域的广告投放等一些商业策略,还可以为区域的行政管理和规划提供参考,具有重要的实际意义。本文提出了根据用户新闻评论数据的基于语义的主题区域特征发现和基于关注度的区域特征发现问题。语义和关注度都是用户评论行为的表现,语义是用户评论内容的表现,而关注度是从用户对新闻的评论数量来表现。用户评论内容的语义信息可以表现用户更倾向于讨论的主题,而评论数量可以表现用户对新闻话题的关注情况。以往的相关研究多是基于在线用户主动发表的信息的行为,而本文是根据用户对给定的新闻话题的评论行为来分析区域特征,能更好的表现用户在这一新闻主题下的评论行为,准确的发现区域的特征。在基于语义的主题区域特征发现问题方面,首先,对用户评论的文本数据进行文本数据预处理。预处理过程包括中文分词、去停用词和取区域特征词。然后,对只包含区域特征词的用户评论数据进行语义建模分析,通过LDA主题模型算法学习每个区域所有评论数据中所表现的主题特征。最后,根据所有区域的区域-主题特征进行区域聚类,找出具有相似主题特征的区域。在基于关注度的区域主题特征发现中,本文提出区域特征查询和异常区域查询,并提出三种区域特征查询方法和一种异常区域查询方法,分别为最大特征查询、最小特征查询、最大偏移距离查询和总体偏移距离查询。本文在采用新浪新闻网站的真实用户评论数据集进行实验,文中选择8类新闻话题和全国31个省市进行实验分析。实验结果表现了用户在8类新闻话题下所表现的主题倾向以及区域聚类结果。本文对查询结果进行了分析,并通过查询结果对比了三种区域特征查询方法。实验结果表明了本文所提出的区域特征发现问题具有较强的实际应用价值。