【摘 要】
:
由于新闻报道受到严格的监管,并且具有可靠的来源,但是要从大量新闻文本数据中获取出有价值的信息是困难且低效的。因此,通过一定方法获取新闻文本数据中的新闻主题,并将新闻数据所包含的内容清晰全面地呈现给用户,是一个重要的研究课题。当前流行的文本主题识别方法主要是基于概率主题模型,该模型在文本主题识别方面取得了很好的效果,但是对于传统的LDA(隐含狄利克雷分布)模型进行新闻文本主题识别时面临三个主要问题:
论文部分内容阅读
由于新闻报道受到严格的监管,并且具有可靠的来源,但是要从大量新闻文本数据中获取出有价值的信息是困难且低效的。因此,通过一定方法获取新闻文本数据中的新闻主题,并将新闻数据所包含的内容清晰全面地呈现给用户,是一个重要的研究课题。当前流行的文本主题识别方法主要是基于概率主题模型,该模型在文本主题识别方面取得了很好的效果,但是对于传统的LDA(隐含狄利克雷分布)模型进行新闻文本主题识别时面临三个主要问题:一是缺乏较好的启发式选择主题数量的方法;二是针对新闻文本数据集中不同主题的文本之间存在文本数量不平衡问题时,不能很好的进行主题识别;三是通过该方法得到的主题存在难以解释和调整的问题。本文针对LDA模型在新闻文本主题识别中存在的上述问题,开展了以下研究工作:(1)提出了基于密度峰值的新闻文本最优主题数目识别方法,目前的研究除了采用基于困惑度、非参数方法等主要的迭代方法之外,还没有简单的方法来选择模型中最优的主题数目。针对如何较好的确定主题数,进而优化LDA主题模型需要事先给定主题数目从而进行主题识别这一问题,本文提出一种非迭代的自动确定主题数的方法,本方法基于密度峰值的发现快速搜寻聚类方法,将传统的主题聚类数目选择问题转化为聚类问题,并用于基于LDA模型的新闻文本的主题识别模型优化,无需进行迭代优化,可简化模型开发。该方法首先对新闻语料文本用Word2vec进行词嵌入操作,利用Word2Vec模型的优越性能来探索单词含义之间的关系,然后利用一种快速搜索并找到聚类峰值的聚类算法对word embedding后的词向量进行聚类,得到word embedding后的词向量聚类数目,最后以此聚类数目作为文本的主题数目,进而基于LDA模型进行新闻文本的主题识别。实验结果表明提出的方法取得很好的效果。(2)提出主题不平衡新闻文本的主题识别方法,新闻文本数据集中不同主题的文本之间存在文本数量不平衡问题,一部分主题的新闻文本多,一部分主题的新闻文本少,而基于LDA的主题识别模型是基于词频统计的,受高频词影响,忽略低频的词,这样的不平衡问题导致多类主题新闻文本中的词相对高频,过度训练容易产生噪声主题,少类主题新闻文本中的词则相对低频,导致识别不出少类文本的主题,针对此问题本文提出一种在主题不平衡新闻文本数据集上的主题识别方法。该方法首先对新闻文本数据集识别出被LDA主题模型充分表示主题的文本,然后对于其中被充分表示主题的文本去除噪声主题,对于其中没有被充分表示主题的文本集合再次进行LDA主题识别,并筛选高质量主题,识别出被LDA主题模型充分表示主题的文本,重复操作上述过程,直到没有被LDA充分表示主题的文本不再出现,最后以每一次循环中识别出的高质量主题的集合作为所有新闻文本集的主题表示。实验证明,该方法比不解决不平衡问题的主题识别方法拥有更好的效果。(3)搭建了基于优化后的LDA新闻文本主题识别的可视化原型系统。主题模型是高级统计工具,用户需要查看主题分布以了解结果。数据可视化为用户提供了一种直观的方式来探索和分析主题数据,使用可视化技术,可以帮助用户改善建模主题模型的结果。文章主要从数据和模型中进行提升。在数据方面创建高质量的词典,在模型方面调整模型的参数,以提高模型质量,并以此设计了基于优化后的LDA新闻文本主题识别的可视化原型系统。
其他文献
本报告的撰写是基于笔者参与的真实项目:Complete Guide to Camping and Wilderness Survival英译汉翻译项目。该项目受郑州哈林秀王体育文化传播公司委托,历时4个月完成。项目源文本属于科普类信息文本,原著总计约300页,字数约21万字(以译文终稿汉字计数)。来自外文院的13位英语笔译专业研究生组成了本次项目的项目小组。本报告将以翻译项目经理和译员的角度,对该
网络游戏以及网络游戏画面被认为可以构成作品,而在此基础上产生的网络游戏直播画面的法律属性则仍然存在争议。网络游戏直播画面的著作权属性需要分为游戏主播直播画面、电子竞技赛事画面两种不同的类型加以讨论。网络游戏直播画面涉及的主体众多,在认定其著作权归属时要厘清游戏开发商、赛事主办方、游戏主播以及直播平台之间的关系。结合行为人客观上的违法行为、损害事实,违法行为与损害后果之间的因果关系、行为人主观上的过
卡洛斯·阿尔贝托·托雷斯是世界比较教育学会联合会会长,美国加利福尼亚大学洛杉矶分校教授。本文主要研究托雷斯的成人教育政治社会学思想。应用文献法、系统分析法、比较研究法等方法,分析了托雷斯成人教育政治社会学的思想影响因素、生平经历、时代背景、理论基础、主要观点、思想评价和影响启示等。在新自由主义的背景下,为研究成人教育的发展变化,托雷斯站在政治社会学的角度,揭示了新的社会文明危机,重新解释了终身学习
在民族地区环境生态恶化、人口高速流动、传统文化式微等叠加下,各类复杂性、速变性的社会问题倍增。兼具公益性和公共性特征的非营利组织逐步在民族地区的社会发展、社会秩序形成、公民价值观和社会风气的养成等多领域崭露头角,但公信力不高、透明度不足、“小老树”等问题依然存在,组织战略管理流于形式。然而,国家政府的管理模式正在从“管制”走向“治理”、社会利益诉求多元、跨界合作日趋常态化,品牌逐渐成为非营利组织获
当前我国电信业正面临量收不匹配,收入增长乏力的情况。2019年提费降速仍在持续,携号转网已全面实施。面对政府监管和市场竞争激烈的环境,电信运营商的收入压力将更为严峻,因此必须加快转型步伐,培育新的业务增长点。ICT即信息通信技术(Information and Communication Technology,简称ICT),是将信息技术与通信技术融合后向客户提供综合信息服务,能够较好地满足客户个性
本论文以医用Ti49.2Ni43.8Cu7合金为研究对象,采用电化学方法在其表面构建了多孔结构并在其内部原位沉积了含有羟基磷灰石和抗菌银离子的生物功能复合涂层,系统考察了该生物功能涂层的制备工艺对Ti49.2Ni43.8Cu7合金表面形貌和表面性能的影响,为设计开发兼具抗菌功能和生物活性的医用钛合金表面处理技术提供理论指导和实验参考,具有良好的临床应用前景。阳极氧化研究结果表明,医用Ti Ni C
随着信息技术的蓬勃发展和互联网用户日益增长,庞杂的网络数据使得有效信息的采集和组织愈发困难。网络新闻作为信息传播的主要媒介,既是政府、企业等机构进行价值展示,理念表达的重要方法,也是社会民众参与公共生活,关注社会发展的主要渠道。如何将大量无序网络新闻数据进行提炼,快速准确的挖掘其中有价值的内容是目前信息处理所面临的一大挑战,而话题检测与追踪(Topic Detection and Tracking
六价铬Cr(Ⅵ)毒性高,流动性强,易在土壤和地下水中迁移扩散,严重威胁人类和其他生物的健康。渗透式反应墙(PRB)是一种具有广阔应用前景的原位修复技术,利用PRB修复Cr(Ⅵ)污染土壤和地下水是目前国内外最常用的一类方法。填料的选择是PRB技术的关键,零价铁因成本低、无二次污染等特点,在PRB技术中广泛应用。但实践表明,运行后期,零价铁表面会覆盖铁氧化物发生钝化而导致活性降低,影响项目的正常运行。
现代汉语偏正结构“V_双+N_双”指由双音节动词做修饰语、双音节名词做中心语组合而成的一种名词性结构。因其具有“动词直接做定语”的独特构造形式、“同形异构”的丰富语义表达以及“句法与词法中间站”的特殊句法功能,长期以来在汉语语法研究中占有重要地位。以往研究主要是对现代汉语偏正结构“V_双+N_双”的结构类型及其应用进行积极的探索,然而,对此类结构中“V_双”做定语时的词类性质和语法功能仍存在不少争
现阶段对于《最高人民法院关于适用<中华人民共和国公司法>若干问题的规定(四)》第九条所规定的实质性剥夺具体构成条件的研究相对缺失,这种缺失在某种程度上助长了在实务判决中对相关内容说理的匮乏,进而降低了解决纠纷的效率,在一定程度上削弱了司法公信力。虽然该条司法解释仅仅是规定在查阅权的适用上,但“实质上剥夺了”等说法在实务中早就已经广泛存在于多种股东权利的纠纷中了。针对这种状况,本文采用实