基于经验模态分解的样本扩容新方法及其在水文气象领域的应用

来源 :长安大学 | 被引量 : 0次 | 上传用户:dark_hu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水文气象频率计算在水利工程设计及规划中应用广泛,通过计算一定重现期下的水文频率设计值,或计算一定量级的水文气象事件的重现期,对判定未来水文情势的发展、制定水资源规划、确定地下水开采方案及洪涝灾害防治策略等都具有重要的指导意义。《水利水电工程水文计算规范》中规定工程设计中所使用的水文气象数据需满足可靠性、代表性及一致性检查,且30年的水文气象序列可作为大部分地区工程设计中可使用的最短序列。然而,由于水文循环受人类活动及气候变化的干扰严重,部分地区水文气象序列的一致性遭到严重破坏。与此同时,由于不同地区或流域水文站建站时间、水文资料采集设备、测量技术等参差不齐,缺测、漏测现象严重,因此水文气象序列的代表性常无法得到保证,30年水文气象序列在变化环境下的频率计算中是否适用性有待商榷。此外,当短序列被用于水文气象分析时,小样本的抽样误差问题也会影响基于统计学方法的序列一致性检验结果,这也导致传统水文频率计算方法的结果备受质疑,工程运行处于持续的风险中。针对上述现象,本研究聚焦水文气象序列的代表性问题,以经验模态分解法(EMD)及基因遗传理论为理论基础,提出了一种提升小样本代表性的样本扩容新方法,通过数学模拟试验的方式验证了该方法在小样本扩容问题上的有效性,通过与另外一种传统的样本扩容方法—Bootstrap方法的对比探索了该方法的先进性,并采用该方法对全国范围内不同流域、不同地区的六个代表性气象站点的降雨序列进行了重现期为100年及50年的年最大一日降雨量的设计值实例计算。此外,针对小样本抽样误差问题,本研究设计了第二组数学模拟试验,用以剖析抽样误差对样本一致性判断带来的影响,并使用EMD分段分解交叉重组方法对带有抽样误差的小样本进行了频率计算。本研究的主要研究内容及所取得的结论如下:(1)鉴于经验模态分解法中存在的端点效应及停止准则的选取问题,本研究在结合他人研究成果的基础上,提出了EMD二次分解法。此方法主要是依据不同停止准则的特点和优势对数据序列进行两次分解,第一次主要使用基于SD停止准则的EMD方法经筛分后获取多个经验模态分量IMF和单调残余趋势项RES,并叠加所有IMF构造出一个新序列,之后对新序列使用TVF-EMD方法进行第二次分解,此次筛分所得所有分量作为最终的IMFs。通过观察两种停止准则下的Hilbert谱及边际谱,可发现EMD二次分解法可获取周期清晰、波形平稳的IMFs及趋势单调的RES。同时,为消减端点效应对分量正交性的影响,本研究选择将两种具有代表性的抑制端点效应的方法相结合,即将镜像延拓法与RBF神经网络结合使用。对比其他方法,可发现组合方法在抑制端点效应过程中具有更好的效果。研究显示通过上述对传统EMD分解法的升级,分解成分的平稳性和正交性明显改善,可为后文中所提出的基于EMD分解的扩容新方法提供更好的技术支持与保障。(2)依据EMD分解及基因杂交遗传理论,当一个样本中未发生变异且符合一致性假设时,该样本自身携带的水文基因来自同一整体分布中,若将该样本均分为n段后再进行EMD分解,则所得IMFs及RES可看作构成该样本的分段水文基因。此时根据遗传杂交理论,来自同一整体的基因在进行自由组合后生成的大量子代新样本一定与原样本分布具有相似性,即都服从于同一整体分布。故可在去除后代中的异常值以后,将剩余样本作为经EMD分解后得到的扩容新样本,可称之为EMD分段分解交叉重组法。通过此方法,原始样本,即父代中的隐性水文基因可在交叉组合后,在下一代中展现出来。对比传统的Bootstrap重抽样扩容方法,可发现EMD分段分解交叉重组方法生成的扩容样本可打破原序列的区间限制,生成了更多的极大值或极小值,从而使扩容序列更加接近整体分布的线型;而Bootstrap重抽样扩容方法只是在原样本中进行多次重抽样,无法打破原始样本的区间限制,且该方法在扩容的同时极易破坏原始序列的分布线型。遂可见EMD分段分解交叉重组法生成的扩容样本相较于原始小样本及Bootstrap扩容样本更具代表性。(3)为验证EMD分段分解交叉重组方法在小样本扩容中的适用性和先进性,并探讨30年水文气象序列是否可作为我国水文气象频率计算中的最小样本,本研究以数学模拟试验的形式进行了验证分析。首先随机生成一组均值、标准差已知的正态分布大样本,通过M-K及Pettitt检验确定该大样本无明显的趋势或跳跃变异,且满足一致性分布假设。以该样本作为整体分布,通过随机抽样的方法从中抽取多组随机样本(样本长度为20~60,步长为10);同时为了满足子样本的一致性分布,对所有子样本亦进行MK及Pettitt检验,最终选取了不同长度下各100组子样本进行样本扩容。之后,统计各个子样本的均值、标准差,并计算重现期为1000年和100年的设计值;再使用Bootstrap重抽样方法及EMD分段分解交叉重组方法分别进行样本扩容,统计扩容样本的均值、标准差及上述两拟定频率下的设计值计算结果。然后,使用Z检验及F检验分别检查子样本、两扩容样本与整体分布的均值、标准差的相似度;运用K-S检验检查子样本、两扩容样本与整体分布的相似性,以判别样本扩容效果的好坏。研究结果显示,EMD分段分解交叉重组方法在多组不同长度子样本的扩容过程中均体现出了较高的适用性和有效性,对比子样本及Bootstrap扩容样本,新方法扩容后得到的样本均值变化不明显,标准差更加接近于整体分布,透过其所获得的设计值精度更高。同时,也可发现两扩容样本的Z检验及F检验结果差异不大,其中Z检验通过率普遍较低,但这是由于扩容样本的长度过大引起,并不代表扩容样本的均值与整体分布不具备相似性。K-S检验结果显示,新方法下的扩容样本与整体分布的相似性明显高于Bootstrap扩容样本与整体分布的相似性。此外,研究还发现当样本长度在30及以上时,无论是子样本还是扩容样本,其K-S检验通过率均保持在一个较高的水平。与之形成鲜明对比的是,长度为20的子样本及其扩容样本,在K-S检验中均通过率较低,其代表性无法得到保证。遂可推论在中国的大部分地区,选取30年作为工程设计中可应用的最短样本长度是合理的,若通过EMD分段分解交叉重组方法进行扩容,则其所得子样本会具有更高的代表性。(4)近年来国内极端降水事件频发,事件本身及其后续发展可能会引发洪水、城市内涝灾害等,从而严重威胁人民的生命财产安全。为此,本研究中以年最大一日降水量作为极端降水事件的研究指标,选取中国不同流域及地区的六个代表性气象站点数据进行实例计算。各站点的历史数据长度均为60年,滑窗后获取多组30年、40年及50年长度的样本,使用EMD分段分解交叉重组方法进行样本扩容,并以K-S结果作为不同地区可用于频率计算的最小样本检验指标。结果显示除临洮站外,其余5个站点的30年样本均具有对60年样本的代表性。临洮站由于在实测资料中出现了两组统计学理论上的异常值,故有所差异,可将该站点的频率计算区分为带有异常值和剔除异常值两种,前者可为大多数水利工程建设提供参考,后者则主要服务于少数设计年限较短或相对不重要的工程设计。同时,由于实测异常值的存在,临洮站30年的样本亦不再具有代表性。综合六个站点的计算结果,可发现当无更长的序列可供使用时,可使用EMD分段分解交叉重组方法对60年资料进行样本扩容,并将所得设计值作为该地区的年最大一日降雨量设计值成果。(5)就上述实测序列计算过程中出现的小样本非一致性检测问题而言,若总样本满足一致性分布假设,但无明显的物理机制引发变异,这时可认为抽样误差导致了小样本无法通过基于统计学原理的非一致性检测。若此时采用非一致性水文气象频率计算方法进行重现期或设计值的计算,其结果可能会相较于整体分布产生较大误差。故本研究采用数学模拟试验方法,在整体均值、标准差已知且满足一致性分布的条件下,从中滑窗抽取不同长度的子样本(可能会由于抽样误差导致非一致性),并分别使用混合分布模型及EMD分段分解交叉重组方法扩容后,进行设计值计算。前者基于非一致性理论,后者则主要解决样本抽样误差,而并非真正的非一致性。结果显示,重组方法扩容样本的设计值计算结果明显优于混合分布模型的计算结果。同时发现抽样误差确实会干扰样本的一致性检验结果,若不考虑物理成因而直接使用非一致性水文气象频率计算方法进行设计值计算在一些情况下并不合理。同时,结果显示将韶关站及沈阳站中未通过一致性检验的小样本扩容后进行设计值计算,其结果与数学模拟试验结果完全一致,说明扩容样本的计算结果确实更加接近整体分布。
其他文献
从关中西部的自然条件和银杏经济效益方面阐明了发展银杏的可行性,分析了关中西部目前银杏产业发展存在的问题,从产业管理和丰产技术两方面论述银杏产业发展的对策。
通过对板栗空棚发生的防治试验与实践,板栗空棚发生是由于栗林长期实生繁殖,品种低劣,树体营养不良,栗树缺硼授粉不良等原因造成的。采取选用优良品种,合理配置授粉树,人工辅
转基因技术自诞生以来,争论就从未间断过,有人称它为天使,也有人称它为恶魔。科学技术是一把双刃剑,为人类带来福祉的同时,也隐藏着风险。对于转基因食品安全性的问题,科学给
集中取水工程是水源地发挥其效益的重要组成部分,在高纬度寒冷地区,要在厚度小、埋藏浅的含水层中取水,集中取水工程的布置显得尤其重要。在综合分析各种常见取水工程及其适
中国大陆青少年研究中心的专家撰文提出一个论点——男孩危机。所谓“男孩危机”,是指男生在学业、体质、心理及社会适应能力等各方面都落后于同龄女生的现象。男孩危机并非中