基于多层级主题向量的科技领域专题库构建方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:shiyilang7879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技领域文献、成果等数据呈指数级爆发性增长,为了高效精准获取相应的科技数据,学术界和产业界都迫切需要精准化的专业数据库和知识搜索平台。虽然目前已经存在很多大型的科技文献检索服务平台,但是依然难以满足行业性或领域性的精准化搜索和服务需要。一些专题数据库的出现可以较好地满足这种特定的精准搜索,不过它们存在建设投入大、周期长等问题。因此,在科技大数据基础上亟需一种高效低成本的科技专题数据库的智能化构建方法。本文主要研究多层级主题向量空间构建方法、基于主题向量空间的分类算法,并在此基础上进行科技领域专题库构建方法及应用的研究。具体内容如下:1.为了采用智能化的方式构建不同领域的多层级主题向量空间,研究提出一种利用无监督聚类算法、文本向量表示模型等技术的构建方法,以解决主题向量空间构建中不同领域间构建方法通用性不足的问题。该模型首先针对领域内无标签文本集,建立全局词共现矩阵,接着通过Possion过程无限相关模型的改进方法获取多层级主题架构,最后利用Glo Ve模型实现多层级主题向量空间构建。2.针对多层级主题向量空间的文本分类问题,研究提出一种新的文本相似度比较算法,用来解决以词为特征项的文本分类时间复杂度过高的缺点。其中算法基于多层级主题向量空间,采用主题文本表示方法,将文本相似度定义为每个文本中所有主题-词项匹配到另外一个文本中所有主题-词项的最小代价,其中主题间语义相关性由两个主题在主题向量空间中的欧式距离所定义。最后通过文本训练集实现文本数据在领域内的文本分类。3.基于上述研究成果,根据科技成果文本语料库实现基于多层级主题向量空间的科技领域专题库构建系统。针对用户提交的需求辅助构建特定领域专题库,并且获取对应的科技成果,从而解决基于专家系统人工构建专题数据库的过程中存在的开发周期长以及维护难的问题。
其他文献
投资金额高、复杂多变的结构设计、复杂的施工缓解、受诸多因素的影响等,这些都是桥梁工程的突出特征。在蒙古国交通建设工程当中,蒙古桥工程生产安全事故及死亡事故占比就超过了40%,且在桥隧工程当中发生的重特大事故占比也很高。伴随着桥梁工程建设项目的增长,带来了许多安全隐患,因此需要我们投入更多的资源来做好相关的安全工作。安全工作的其中一个重要环节是对安全风险因素进行辨识与有效防范,否则会带来严重后果。本
茶叶在中国已经有了几千年的历史,中国是茶叶大国,每年都有三十万吨以上的茶叶进行加工制造。研究表明,茶黄素对于茶叶来说,起着色、香、味的重要作用,具有抗氧化、抗癌、抗龋齿、抗衰老与杀菌抑菌作用等,在食品、药品和精细化工等行业都有一定的应用价值。但是大部分茶叶中所含茶黄素均为水溶性,酯型茶黄素含量相对较少,因此本研究利用多酚氧化酶提高酯型茶黄素的产出,增加其产率,将可扩大酯型茶黄素在食品和医药等方面的
电动处理法在处理地基时,具有施工简单灵活、安全性高、对环境无污染、使土体处理时间大大减少等优点。随着时代的发展,电动处理技术被越来越多地应用到工程实际当中,如何有效地在工程中将该方法的作用发挥到最大是当今我们应该重点研究解决的问题。本文总结了电动处理技术的研究现状和机理,对滨绥线路基冻胀情况进行了现场调研,并研究了其作用机理,最后决定用电动处理技术对其进行研究。为了寻找一种有效处理路基冻胀病害的电
涌溪火青绿茶(以下简称火青)产于安徽省泾县涌溪村和黄田村一带,是颗粒形绿茶典型代表之一。目前火青茶生产以单机为主,加工时间长,加工效率低。同时由于长时间的加工成品茶黄汤黄叶,香气不高,与当前市场要求不符。建立连续化生产技术是解决这一系列问题的有效途径。本研究在前期设计生产线的基础上,采用一芽二叶柳叶种鲜叶为原料,筛选影响火青茶色泽较大工序(二青、做形),找到与色泽等品质相关性显著关键技术因子(二青
在生态文明建设与精准脱贫背景下,贵州省“县县通高速”和脱贫攻坚下“组组通”的政策和措施,从源头上解决了脱贫的关键,即要“致富,先修路”。但由此形成的裸露边坡,势必影响生态环境。植物根系抗拉和抗剪特性是决定其对边坡防护的重要因素,抗拉特性不仅是影响根土复合体抗剪特性的决定因素,更是评价植物根系对边坡防护的直接指标。本实验通过对多花木蓝(Indigofera amblyantha)和双荚决明(Senn
[目的]观察小细胞肺癌患者的一般状况,肿瘤组织中正五聚蛋白3的表达情况,预后和危险的因素,探讨正五聚蛋白3高表达与小细胞肺癌生存及预后的关系,为正五聚蛋白3成为小细胞肺
城市公园是城市公共绿地中最主要的类型,其主要功能是休闲、游憩、娱乐,主要的服务对象是城市居民。随着城市的高速发展,城市公园的功能不断拓展,在休闲、游憩、娱乐等主导功能上不断深化,并衍生出了许多特定功能的分区及产品,如具有针对性的老年人活动区、儿童活动区、体育活动区等,但仍有特定的需求尚没有被充分考虑,比如本文研究的公园中近年来兴起的特定活动—遛狗,空间划定不明晰、分区的不完善,会导致遛狗人群无法进
随着大数据与人工智能技术的快速发展和“互联网+”行动的不断深入,商务智能在各行各业快速崛起。为降低企业运营成本,在客户服务领域,传统的人工客服模式逐渐向电子客服模式转变,以聊天机器人为代表的智能客服已成为企业商务智能助手的首选。本文对智能应答的研究以贵州省精准扶贫项目“水东乡舍”订房系统为载体,结合初期项目需求提出的订房系统智能客服应用目标而展开研究。针对检索式的传统客服系统需要维护庞大的静态知识
本次进行翻译实践的文本Tourism for Development Volume Ⅰ:Key Areas for Action(《旅游促进发展第一卷:行动的关键领域》)选取自联合国世界旅游组织发布在其官方网站上的专题研究报告,该报告将可持续旅游发展年中的五大中心支柱作为可持续发展的要素,通过概念说明和具体实例说明了可持续旅游业在实现可持续发展方面的重要性和潜力。该文本涉及可持续旅游与可持续经济增
近年来,由于盐酸四环素(TC)及磺胺二甲基嘧啶(SFE)的分子复杂性和高稳定生物活性,以及不加区别地使用最终释放入水体中,在环境基质中具有显著的持久性而被列为正在引起关注的污染物。基于可持续发展能源——光能作为动力来源的光催化技术对去除这类有机污染物具有比传统工艺更明显的优势。然而,就目前降解此类抗生素中设计的光催化材料存在很多问题,就单一银基材料为例,因稳定性差、易氧化和易聚集,极大的制约了其应