论文部分内容阅读
当今世界,人工智能(AI)的研究及应用可谓如火如荼。人工智能的核心算法较为定型,但是AI技术的应用则方兴未艾。作为人工智能的核心,机器学习技术的优势是能够从大量积累数据中高效、准确地归纳、学习出关于某复杂问题的回归、聚类、分类模型,改善系统自身的性能。将机器学习用于产品设计也是AI应用的一个重要方向。尽管润滑油配方在过去有了爆发性的发展,但配方的调合涉及复杂的物理和化学过程,目前还是处于一种“半经验”的设计模式,很少有人探索运用机器学习方法来理解和优化调合过程,以期达到“理性设计”。本论文以润滑油配方作为一个案例,探究机器学习模型在产品设计中的应用。基于收集到的实际润滑油配方及其相应的物理化学性能,结合现有工业应用的经验计算方法获得的数据,建立了对油成分包的分类模型和对某些物理化学性能指标和决策因素之间的映射关系模型,并对模型进行泛化能力评价。具体研究内容如下:首先,调研油品调合机理,并且对配方数据做预处理,使之能够作为后续机器学习的“输入”。即对润滑油配方的数据做特征选择、缺失值和异常值、数据噪音的修正等处理,制作出了“干净”的油成分包数据集,然后做数据标准化使之适应相关机器算法对“输入”数据性质的要求。其次,根据数据特性选择与之相适应的机器学习方法的核心算法,利用核心算法构造整体算法程序的构架,对油成分数据集进行分类和映射。在对油成分包数据集分类方面,采用决策树、支持向量机、Bagging袋装树、RUSboost随机欠采样树四种算法模型,每个模型都用五折的交叉验证的方法,来避免过拟合与欠拟合。同时以混淆矩阵、感受性曲线(ROC)曲线、多分类的评价矩阵来评判模型,然后比较每个模型对油成分包数据集分类准确率,最终得出RUSboost树在准确率为最优96.8%。指标回归预测方面,采用回归树,支持向量机,梯度提升树三种模型,同样用五折交叉验证方法来验证,用响应图,预测图与响应图,残差图来评价模型性能,并对三种模型下的六个指标的均方根误差(RMSE)做了统计和比较,表明梯度提升树(GBDT)在预测指标值方面是占优势的。最后,提出对油成分包数据集用顺序向量表示方法,运用两种流行模型神经网络(DNN)以及长短期记忆(LSTM)网络作为核心算法,利用上述已建立的模型算法构架编程来进行分类和指标映射。结合传统袋装数组向量来训练与验证DNN,油成分包分类率91.38%和回归评价指标RMSE为0.0993。用模拟配方流程的顺序向量输入LSTM中,分类正确率为97.3%,在回归指标评价RMSE为0.0964。