数据建模系统理论方法研究及应用 ——基于结构化数据的智能建模理论与成果

来源 :首都经济贸易大学 | 被引量 : 0次 | 上传用户:xxw1314159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文主要研究统计学应用性理论,着眼于机器学习模型在实际应用中的实施和流程设计问题。目前在机器学习领域的研究,以模型算法的设计与优化为主,很少见关于应用实施问题的研究。因此,论文从数据项目实施角度,从理论基础研究一个完整的建模流程是如何组织设计的,以及其性质与流程控制等问题,并最终实现智能化建模。近年来,机器学习与大数据技术的飞速发展深刻地影响了各行各业。以金融行业为例,在信贷风控、反欺诈、精准营销等场景中,机器学习模型都表现出了远超过人脑的能力,如何利用机器学习技术来提升企业价值成为了银行和保险等金融机构的重要课题。目前在大数据实务领域,数据建模事实上是劳动力密集型产业,需要大量的人力财力投入到数据治理和数据分析当中,项目需求大,周期长,高水平专家短缺且管理困难。在技术层面,则以算法设计和计算机技术为主要手段,这使得整个项目呈现出不断解决技术问题的工程模式,而缺乏一个系统性的科学理论指导,内在的数据和模型逻辑基本依赖于专家的经验、学识以及业务素养。同时,需要耗费大量的人力成本和算力资源,并且由于人的专业水平差异而导致项目结果出现很大的不确定性。在这样一个背景下,论文主要有两个研究目的。首先,在理论层面,建立一套关于数据建模系统的理论。该理论要能够以数学方法描述并解释整个数据建模流程,并在此基础上推演得到关于系统流程和系统评估的理论方法,进而提出规范的数据建模指导方针。其次,在应用层面,依据所建立的理论,设计一种切实可行的数据建模系统方案,并将其转化为应用成果,初步实现数据建模的智能化和去人工化,在商业实践中验证其可行性与有效性。在这样两个主要研究目的之下,根据所建立的数据建模系统理论,将规范化的建模系统固化为一套自动流程,以计算机软件的形式实现数据建模项目从原始数据到模型结果全流程的智能化,可以极大地提高生产效率。论文的主要内容是建立数据建模系统理论,包含三个构成部分,分别是数据流程理论、数据流程控制理论和数据流程范式。其中,数据流程理论是核心内容,建立在集合、映射和样本空间这三个数学概念之上,将数据建模过程视作由结构化样本空间到目标空间的链式映射关系,给出了最底层的关于数据建模流程的数学描述;数据流程控制理论是辅助内容,包含复杂度(成本)评估、效用(损失)评估和流程性质探讨;数据流程范式是实践指导性内容,探讨了数据建模流程的一般组织形式,以及智能化流程的可行方案。论文的次要内容是将数据建模系统理论转化为实践成果,其一是智能数据建模系统,是一套商用计算机软件,其二是yiming程序包,是一套Python环境下的开发者工具。然后将其推向市场,在实际商业数据项目中收集反馈信息。详细理论逻辑结构见正文图3-2。论文的主要研究成果与创新有三个。第一,把数据建模作为一个宏观的系统性问题来研究,而不是若干个独立的微观算法问题的集合,并由此建立了数据建模系统理论。这不同于过去把数据建模视为一个技术问题,由于没有一个明确的理论依据指导这个过程,往往存在较大的随意性。本学位论文从系统的角度重新定义了这个过程,给出了新的思想理念。第二,在数据建模系统理论的基础上,提出了数据建模系统的基本范式。本学位论文着眼于相对宏观的层面,认为在特异性极强的数据分析工作中,存在一个一般性的标准流程,任何一个建模问题都可以纳入到这个流程中。标准化流程的提出为数据建模工作提供了可靠的依据,较大地避免了数据建模的主观随意性。第三,在基本范式的基础上,提出并设计了一种泛用建模流程,并开发了一套智能建模软件,实现了数据建模的智能化和去人工化,实践验证了本学位论文理论的可行性。依托于某创业公司,该软件已经成功产品化,并在多家大型金融机构取得了优异成果。
其他文献
学位
高胆固醇血症是一种由脂质代谢异常导致的人体血液中胆固醇含量超过正常范围的代谢性疾病,与心脑血管疾病密切相关。药物治疗是临床中应对高胆固醇血症的主要方式,但存在损害肝脏功能、肾脏功能等副作用。益生菌是一类被广泛认可的促进人体健康的微生物,多项研究证明与脂质代谢密切相关,因此使用益生菌缓解高胆固醇血症具有重要意义。目前体外筛选具有缓解高胆固醇血症功效的益生菌主要通过两个指标:一是胆盐解离特性,二是胆固
类风湿性关节炎(Rheumatoid arthritis,RA)以小关节对称疼痛、软骨和骨侵蚀为特征,是一种系统性自身免疫疾病,发病机制不明确,甲氨喋呤(Methotrexate,MTX)是治疗RA的一线药物。RA常伴随肠道免疫应答失衡,机体免疫耐受破坏,这种变化与肠道菌群失调密切相关。亚临床和早期RA患者肠道中乳杆菌属增加,双歧杆菌属降低。研究已发现补充乳杆菌可降低RA动物系统性炎症,但乳杆菌对
非法经营罪从投机倒把罪中拆分出来,仍然保留着空白罪状和兜底条款的设置,模糊的立法设置使得其本身适用范围的边界就不甚清晰,如今在司法适用中更是出现适用范围逐渐变异的趋势。我国理论界对何为非法经营罪所保护的法益也一直没有得到统一的结论,因此,将其明确为市场准入秩序有利于从根本上对该罪的适用范围进行限制。同时,对罪刑法定以及刑法谦抑性基本原则的贯彻也是限制非法经营罪过分介入市场经营活动的有效理论支撑。在
受预期寿命延长、出生率下降,以及中国20世纪50、60年代婴儿潮出生的人口步入老龄化的共同影响,中国已成为世界上老龄化速度最快的国家之一。根据中国老龄化工作委员会的预测,2021年至2030年间,我国老龄人口的增长速度将明显加快,到2030年,老年人口占比将达到25%左右。老年与身体机能的下降直接相关。老年人口在总人口中的占比的上升导致社会的主要疾病负担由急性、传染性疾病向老年人口多发的慢性非传染
本研究旨在检验和验证发展中国家供应链一体化与出口绩效之间的关系。这些国家面临着贸易不平衡,具体表现是是进口额迅速增加,而出口增率极低。在发展中国家,企业尤其是中小企业,面临的挑战之一是缺少使企业具有竞争力并能达到国际市场产品标准的资源。在坦桑尼亚,农业虽雇佣了 65%的人口。但是农业部门仍面临着众多挑战,其中包括农产品市场供应不足,从而影响供应链中的农民与其他参与者。本研究认为供应链一体化是提高坦
学位
《费德里奥》(Fidelio)是德国作曲家路德维希·凡·贝多芬(Ludwig van Beethoven,1770-1827)耗时十年(1804-1814)创作的一部歌剧作品,题材选自法国作家简·尼古拉斯·布利(Jean Nicholas Bouilly)风靡一时的拯救题材小说《莱奥诺拉或夫妻之爱》。作为贝多芬唯一一部歌剧作品,《费德利奥》被赋予了多重精神内涵,在音乐史上占据独特地位。本文立足于“
在发展中国家的组织中,最大的挑战是缺乏管理和管理机构所需的适当领导风格。本论文关注真实型领导风格对员工的影响机制,为了全方面对这一问题进行分析,论文共包括三项子研究。论文旨以坦桑尼亚的企业为例,旨在探讨和验证真实型领导如何直接和间接地影响员工的行为、情感和工作结果,并且探索其中介。领导-成员交换理论和目标设定理论是本研究的指导理论。这两种理论是相辅相成的,领导-成员交换理论通过设定特定的目标来激励
逃税罪“数额+比例”的入罪标准和逃税免责条款是本罪名的立法特色。逃税罪的“数额+比例”的双重入罪标准存在一定的积极意义,但是容易出现诸如缺乏可操作性、浪费司法资源、适用不公等实践困境。采用单一的“数额”标准可以解决上述困境,而且由于逃税罪免责条款提供了宽宥的机会,所以不必担心采用“数额”标准会产生动辄入罪从而造成市场环境动荡等问题。逃税罪初犯刑事免责条款体现了刑法的谦抑精神、节约了司法资源等积极效
近年来,我国人口结构呈现出老龄化加速发展态势的特征,养老问题日益凸显。遗赠扶养协议制度从上世纪八十年代施行以来,一定程度上保障了我国农村孤寡老人的基本生活需求。近年来城市兴起的“以房养老”热潮也是适用遗赠扶养协议的一种新方式。但是面对社会经济发展的新变化,年老者所拥有的财产急剧增加,笼统性、原则性的遗赠扶养协议制度已经不能满足现实需求。过于宽泛的遗赠扶养协议从订立之初到协议履行过程中都存在种种隐患