【摘 要】
:
随着网络的快速发展,网络学习资源越来越丰富,人们开始通过互联网学习感兴趣的知识,代替传统的学习模式。虽然网络学习资源丰富,但是由于学习网站大量存在,且相互之间对于知识层次
论文部分内容阅读
随着网络的快速发展,网络学习资源越来越丰富,人们开始通过互联网学习感兴趣的知识,代替传统的学习模式。虽然网络学习资源丰富,但是由于学习网站大量存在,且相互之间对于知识层次结构不同,学习资源错综复杂。同时网络中的知识内容大多以无结构或半结构的文本形式存在,对于知识内容的分析也成为难点。 本文通过文本聚类技术实现将属于同一知识点类别的文本聚集成同一类,在学习者学习某门课程的知识点时将相关的知识点推荐给学习者,实现节省学习者学习时间,提高学习者学习效率的目的。以计算机专业知识点文本作为研究对象,研究知识点文本聚类技术,涉及知识点文本的获取、知识点文本的预处理和聚类算法研究等技术,其中重点对文本聚类的相关算法进行了研究,并且针对知识点文本的特殊性,对文本聚类算法进行了改进。 研究的主要内容如下: (1)针对知识点文本的获取,采用Heritrix开源软件,通过对Heritrix进行扩展,主要包括定制Extractor、扩展FrontierScheduler、多线程抓取网页、取消robot.txt的访问,从而实现网页的快速高效抓取。 (2)对于知识点文本的预处理,通过对基于Lucene的第三方开源软件mmseg4j的扩展,主要包括扩展词库与停用词的处理,实现针对知识点文本的高效率分词。 (3)对知识点文本的聚类,通过分析知识点文本的特点,针对TF-IDF计算词条权值的方法进行了改进,并且针对知识点文本的聚集性,将CURE算法中初始选择簇中心点的方式结合密度法进行了改进。实验证明本文提出的聚类算法的改进方法提高了聚类算法的效率。
其他文献
随着生物医学领域文献的爆炸性增长,从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的热点问题,而由于蛋白质相互作用关系对于生命科学有着特殊的重要意义,因而蛋
图像是人们生活中信息交流最为重要的载体,也是蕴涵信息量最大的媒体。众所周知,数字图像的数据量非常庞大,必须经过有效的压缩,才能满足数字图像的高速传输和存储。因此,图
在2006年的IEEE INFOCOM会议中,会议组织专设了一个有关高速网络的讨论组,旨在讨论千G位网络所带来的挑战和解决的办法,其中高速网络中的拥塞控制机制正是当前研究领域上的一
无线传感器与执行器网络(Wireless Sensor and Actor Network,WSAN)是在无线传感器网络(Wireless Sensor Network,WSN)的基础上衍生而来,通常由若干传感器节点和执行器节点组
近年来随着移动通信技术迅速发展,它已有逐渐取代固定电话网的趋势。但是移动通信仍然存在着信号不稳定,话费较贵的缺点。因此如何融合移动通信和固定电话网成为研究的热点。
随着云存储技术的不断进步,如今已经有越来越多的企业和个人都开始选择将数据存储在云平台上。与此同时,数据的安全问题也受到了越来越多人的关注。尽管我们可以通过加密数据
随着入侵检测技术的深入研究和入侵检测产品的广泛应用,对入侵检测系统进行评估已经成为一个十分重要的研究领域。本文首先对入侵检测系统评估的现状进行了深入地总结研究,在
数字视频和音频压缩技术的进步,以及网络和通信技术的发展,使得在传输介质上传送实时视频和音频信息已经步入了实用化阶段,这就为数字电视的产生提供了条件。针对数字音视频
《中国海洋发展报告2014》围绕党的十八大提出的建设海洋强国战略部署和2013年政府工作报告的要求,结合2013年海洋事业发展和海洋领域发生的重大事件,全面论述了中国海洋事业发
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。在这浩瀚无边的数据海洋中潜藏着大量重要的、有趣的信息。