【摘 要】
:
随着数据挖掘技术的发展,聚类开始被用于处理现实生活中结构复杂且数据类型多样的数据集。作为一种无监督的机器学习方法,聚类不需要对数据集进行预先的训练和手工标注,因此具备较高的自动化处理能力,已经被广泛应用于互联网信息检索等领域。其中由于文本是当下所有信息的基础格式,所以文本聚类又是当下众多聚类应用场景中最为值得关注和研究的。聚类算法中的经典算法K-means,具有原理简单、易于描述等优点,因此被广泛
论文部分内容阅读
随着数据挖掘技术的发展,聚类开始被用于处理现实生活中结构复杂且数据类型多样的数据集。作为一种无监督的机器学习方法,聚类不需要对数据集进行预先的训练和手工标注,因此具备较高的自动化处理能力,已经被广泛应用于互联网信息检索等领域。其中由于文本是当下所有信息的基础格式,所以文本聚类又是当下众多聚类应用场景中最为值得关注和研究的。聚类算法中的经典算法K-means,具有原理简单、易于描述等优点,因此被广泛应用。但该类算法也存在明显的缺陷:聚类的准确度和计算复杂度严重依赖于初始参数(如聚类数和聚类中心)。而在如今Web2.0时代,信息量和文本数目急剧增加,在大量实际应用场景中,数据集不仅规模大,而且一直处于动态变化过程中,所以一些必要的初始参数往往是很难提前预知和确定的。针对上述问题,本文的主要贡献与创新点如下:1.提出了一种基于最小生成树的无参数化聚类算法MNC(MST based Non-parameterized Clustering)。所谓无参数化聚类是指聚类时只需要输入待聚类的数据样本,而不需要输入其它参数。MNC算法的基本思想为:首先将待聚类数据集抽象成赋权完全图WCG(Weighted Complete Graph),其中的点代表向量,赋权边代表数据间的相似关系;然后,将WCG转换成全连通的最小生成树MST(Minimum Spanning Tree);接着利用k=2的经典K-means算法对MST边集的一维权重空间进行聚类,得到剪枝的阈值;最后,对MST进行剪枝和噪声过滤,得到的连通分量即为聚类的簇。2.将MNC算法与中文分词和TF-IDF文本表示模型等经典文本预处理技术相结合,成功利用Python语言开发出一套完整的文本聚类函数库(Py TCL,Python based Text Clustering Library)。3.采用可视化的二维随机数据集、经典UCI数据集和真实的文本数据集对MNC算法的有效性进行验证,并通过比较不同聚类算法的聚类效果,实际验证了MNC算法的高效性和Py TCL函数库的实用性。
其他文献
回顾计算机领域近几年的主要发展成果,深度学习的快速崛起毫无疑问可以占有一席之地,无论在自然语言处理、语音识别还是计算机视觉领域,深度学习都在发挥越来越大的作用。另一方面,随着社会发展,互联网+概念在人们日常生活中的日益深入,人们越来越习惯于把以往很难量化的抽象概念交给计算机处理,对人物情绪的分析就是其中之一。而深度学习的发展也为人物情绪分析的研究带来了新的方向:其中群体情绪分析和群体凝聚力分析因为
互联网直播由于其互动性和即时性,于2016年诞生以后蓬勃发展,截至2019年6月,我国网民规模达8.54亿,其中网络直播用户规模达4.33亿,占网民总数的50.7%。互联网直播给当下的经济社会带来的影响不容小觑,隐藏的风险也不可忽视。与淫秽直播有关的犯罪是所有目前与互联网直播有关犯罪中占比最大的。在中国裁判文书网以“直播”为关键字检索可得的所有案例中,淫秽直播案例占比1/6,高于其他类型犯罪。这些
九_2区克拉玛依组油藏为典型的普通稠油油藏,投产至今一直采用蒸汽吞吐的开发方式进行开采。经过多年的开发,油藏产油量、油汽比逐渐降低,含水率不断上升,生产效果变差。目前油藏正处在蒸汽吞吐开发的中后期,而采出程度仅有28%,远未达到蒸汽吞吐方式的采收率要求,因此需要对油藏开发效果进行充分地认识与评价,找准影响开发效果的主要原因,针对存在的问题提出合理的措施建议,以减缓生产矛盾的加剧,提高油藏的采出程度
随着科技的不断进步和互联网产业的飞速发展,各国之间的竞争早已不是单纯的经济实力的较量,文化软实力的提升也在国际竞争中起着至关重要的作用。高校以“立德树人”为根本任务,是培养各专业领域人才的重要阵地,而单纯某一学科领域的专业知识已经很难满足竞争日益激烈的国际和国内社会需求。创新教育的发展恰恰有助于转变经济发展方式,促进科技成果转化。鉴于此,将创新教育以不同形式融入高校的课上课程和课下实践就显得十分必
推动互联网、大数据、人工智能为代表的新一代信息技术与实体经济的深度融合不仅是国家政策关注的焦点也是当前学术研究的热点之一。制造业是实体经济的主体,也是今后我国经济“创新驱动、转型升级”的主战场。随着新一代信息技术向生产制造各环节的加速渗透,如何准确评价制造企业应用新一代信息技术状况,企业的技术吸收水平如何影响企业绩效是企业界和学术圈共同期待解决的问题,研究发现不仅可以指导制造业的数字化转型,也为破
我国农村的扶贫攻坚工作已经进入决胜阶段,财政支出特别是民生性财政支出是当前农村减贫的最有效工具。本文利用2014年和2016年中国家庭追踪调查数据,实证检验了民生财政支出全样本和分项的减贫概率及减贫程度。从减贫概率来看,民生财政支出总体上能够显著降低农村家庭贫困发生的概率,具体而言,医疗卫生支出及社会保障和就业支出对家庭贫困发生的概率具有显著的负向影响,而教育支出和住房保障支出的减贫作用不显著。从
随着科技的发展,无人机在各个领域里受到了广泛的关注。作为无人机的核心技术,航迹规划一直都是国内外学者研究的重点。因此,对无人机动态航迹规划进行研究具有重要的理论价值及实际意义。本文研究内容主要为三个方面:针对静态突发威胁下无人机动态航迹规划问题进行了研究。首先,利用A*算法生成全局最优路径并进行平滑处理。遇突发威胁后,根据三次样条二阶连续性原理及调整公式得到候选路径簇。然后,建立安全性、平滑性及连
从上古时期先民万物有灵的信仰到夏商周时期对“天”的崇拜再到孔孟对神灵及“天”的看法,都是荀子宗教观的思想渊源。但在春秋战国时期,礼崩乐坏,使得人们对“天”与“帝”的信仰产生了动摇,诸子学派各学说百家争鸣。在这样的时代背景下,荀子相较于之前孔孟宗教观提出了新的解释。荀子强调天人相分,在荀子看来天本质是自然意义上的“天”,“天”有着独立于人意志之外的运转体系。但是人与天并非完全对立,人本身又是属于世间
国家级高新技术产业开发区是区域内最具创新能力企业的聚集地,是区域经济发展的“技术极”。我国高新区的发展已经走过二次创业正式步入三次创业阶段,表明高新区承担着率先实施创新驱动发展战略的重要历史使命。尽管既有研究已注意到国家高新区作为区域经济增长极和创新策源地的功能,但对创新与高新区的经济产出之间的作用机理研究较少,也极少从创新的角度探讨高新区对区域经济的影响。为了解析高新区促进区域经济增长的现实路径
伴随着时代的发展和科技的进步,汽车使用者对汽车的要求已不仅仅局限于快捷方便,对汽车的操纵稳定性和行驶平顺性也提出了相应的要求。本文依托国家自然科学基金青年基金项目“道路感知下汽车主动悬架阻尼控制自适应切换研究”(51605213),针对半主动悬架中电磁阀控制的可调阻尼减振器进行了阀系的多参数协同优化,具体研究内容如下。首先,对可调阻尼减振器实物进行拆解,通过拆解可知可调阻尼减振器在传统双筒液压减振