【摘 要】
:
随着互联网的普及和发展以及国内“全民阅读”浪潮的兴起,在线图书交流平台正在被越来越多的人关注和使用,用户在其上方便地记录自己的阅读感受并发表相关的评论文章。在线图书
论文部分内容阅读
随着互联网的普及和发展以及国内“全民阅读”浪潮的兴起,在线图书交流平台正在被越来越多的人关注和使用,用户在其上方便地记录自己的阅读感受并发表相关的评论文章。在线图书评论数量随着时间的推移与日俱增,最终带来信息冗余和信息过载等实际问题。因此如何有效地从大量图书评论中获取有用信息逐渐成为了研究者关注的问题。 本文以非商业化图书评论作为研究对象,以在线图书评论具有的内容特点作为研究切入点,对图书评论的信息挖掘进行初步地研究和探索。本文的主要内容如下: 首先根据图书评论文本的特点和用户需求,依照与图书内容的关联程度,本文提出将评论句划分为“图书内容的直接引用”、“图书内容的转述、概述和论述等”以及“其他(与图书内容无关)”三个类别。接下来结合类别描述和文本特点进行特征设计,在常见的词汇特征基础上,本文提出了主题特征、标点和数字特征、元数据特征以及动词特征等领域相关特征。以支持向量机作为分类算法,以准确率、召回率、F1值和正确度作为评价指标,对图书评论集进行基于内容的分类,验证了自定义特征的有效性。 然后本文针对在线图书评论进行关键句抽取,并将关键句抽取转化为一个分类问题,除了采用关键句抽取研究中常见的句子特征外,添加了句子的内容类别信息作为特征。实验表明,在内容分类的基础上对图书评论文本进行关键句抽取,抽取性能有了明显提升。这也说明,有效地利用评论句的内容特点有助于在线图书评论的挖掘研究。 最后,本文设计并实现了面向在线图书评论的信息挖掘系统,用于展示研究成果并展现图书评论挖掘的应用价值。
其他文献
LDPC码因具有逼近Shannon限的优越性能和低的译码复杂度而受到研究者的普遍关注,逐渐成为目前最具前景的纠错编码技术之一。二部图的构造是LDPC码设计中一个非常重要的问题,
数据中心在电信运营中地位日益重要,3GPP TR 32.808提出的统一数据库框架(CPSF)是数据中心建设的一个方向。统一数据库要求支持多种访问接口,其中包括通过XML方式访问LDAP数
本文研究和讨论的软件安全检查工具可以在程序的编译阶段对其进行安全分析,尽可能全面地检查出程序存在的安全漏洞,从而避免这些漏洞在程序的运行阶段造成更严重的问题。软件
在DNA序列分析中,串联重复体查找是一个重要的基础性问题。人类DNA序列50%以上是由串联重复体组成的。串联重复体在基因表达、调控和遗传等方面起着十分重要的作用,同时它是
作业车间调度问题(JSSP)是一个典型的NP-难问题,也是迄今为止所有组合优化问题中最难问题之一,同时在工程应用中有着十分重要的意义,因此得到了广泛的关注。本文在对JSSP进行
VoiceXML(语音扩展标记语言)是一种基于XML(扩展标记语言)的互联网标记语言,它突破性实现了互联网与电话网的融合,并用于开发语音应用系统,使得用户能通过电话来访问互联网上
随着信息系统安全技术的发展,不同种类、不同来源的信息安全产品并存于同一个信息系统中。系统安全管理员一方面要管理不断增加和变更的信息安全产品;另一方面还要确保信息系
匿名技术是保护用户隐私的重要方法,而匿名控制技术则是防止匿名性滥用的关键。论文通过分析当前的网络匿名控制技术存在的两个主要问题,提出了可控匿名连接层CACL (Controll
随着信息技术的飞速发展,通信网中每天产生的信息量十分巨大。这使得一些非法的群体比较容易隐藏自己的通信信息。我们把这些试图在通信网络中隐藏自身存在及功能的特定群体称