论文部分内容阅读
随着信息技术的不断进步,数据的产生、采集和存储量在政府,企业和个人的参与下不断增加。在这样的背景下,数据开放的概念应运而生。数据开放是指任何组织和个人能够较方便地获取他人的数据,并对其使用和分享。数据开放增强了社会各部门之间的信息交换,降低了有用经验传播和重复使用的难度,对经济发展、社会进步具有促进作用。数据开放在我国的推行相对于英美等发达国家仍然进展缓慢,数据在开放进程中受到各种各样问题的阻碍,只有解决这些问题,才能使数据进一步得到开放。但究竟有哪些问题,由何人、如何来解决,正是本文拟解决的问题。数据开放的目的是更好地利用数据,我们可以认为它是一个生态系统,数据不仅需要公开,还需要在生产、采集、分析、应用各个环节的顺畅流动,同时又不断产生。任何一个环节存在问题,都会阻碍数据的流通传播和分析利用。因此需要对数据开放的问题进行分类,从系统的角度分析这些问题。经过数据开放文献的查阅和分析,我们发现很多研究包含着数据开放问题方面的讨论,但这些讨论比较分散,需要进行归纳与整合。为了对大量数据开放文献进行比较系统的问题和挑战方面的研究,本文提出了从文献中提取数据开放领域问题的提取框架,该框架应用了词表构建、word2vec模型、点互信息计算方法等自然语言处理相关技术。最终,我们通过实验验证了该框架的有效性,并在此的基础上,根据该框架实现了数据开放文献的问题句提取。本研究是在管理领域进行的技术应用研究,在研究过程中所提出的问题句提取流程框架和将word2vec与PMI相结合的问题句提取算法,能够应用到其他领域的问题相关研究中。问题句提取的结果可以应用到数据开放问题的理论研究中,从而达到完善数据开放制度和提升管理实践的目的。