【摘 要】
:
带有间隙约束的模式匹配可以用来计算模式在序列中的支持度,是序列模式挖掘的核心技术,在生物、安全监测、数据挖掘方面有着广泛应用。传统的模式匹配分为精确模式匹配和近似模式匹配,由于实际数据中存在大量的噪声干扰,近似模式匹配的优点在于具有灵活性,相对精确模式匹配可以发现更多有价值的模式。目前,带间隙近似模式匹配主要采用Hamming距离作为度量相似度,这种度量方法仅仅能够反应出两个序列串有多少个不一致的
【基金项目】
:
国家自然科学基金(61976240); 河北省创新资助项目(CXZZSS2019023);
论文部分内容阅读
带有间隙约束的模式匹配可以用来计算模式在序列中的支持度,是序列模式挖掘的核心技术,在生物、安全监测、数据挖掘方面有着广泛应用。传统的模式匹配分为精确模式匹配和近似模式匹配,由于实际数据中存在大量的噪声干扰,近似模式匹配的优点在于具有灵活性,相对精确模式匹配可以发现更多有价值的模式。目前,带间隙近似模式匹配主要采用Hamming距离作为度量相似度,这种度量方法仅仅能够反应出两个序列串有多少个不一致的字符,忽略了不一致字符之间的距离,可能就会丢失一些相似有价值的信息。鉴于此,本文研究具有长度约束的(δ,γ)近似模式匹配问题,该问题在间隙约束模式匹配基础上,采用局部-整体约束(δ,γ)距离,以提高匹配的精确度,即字符间的最大距离不得超过局部阈值δ,所有字符的δ距离之和不得超过整体阈值γ,不仅可以提高匹配的灵活度,也可以避免近似出现差距过大的问题。本文的主要研究内容如下:(1)提出了DAP问题以及问题的相关定义。(2)本文提出了一种有效的求解算法NetDAP算法,该算法采用近似单叶网树进行求解,首先确定近似单叶网树的叶子的范围,在叶子确定的情况下,采用动态规划的方法,依据长度约束和模式的间隙约束依次确定近似单叶网树的最小根、最大根以及每层结点的范围。在此基础上,确定每个结点的最小双亲和最大双亲,进而建立近似单叶网树。避免冗余计算,本文提出两种剪枝策略用于剪去不满足δ和γ距离约束的结点和双亲关系,从而加快了算法的计算速度。(3)在证明了算法的完备性基础上,给出了本文算法的时间复杂度和空间复杂度,分别为O(g2*γ*n*m2)和O(m2*g*γ+n),其中g是最大间隙,n是序列长度,γ是全局近似阈值和m是模式串长度。(4)最后通过大量真实的蛋白质数据集和时间序列上的实验,通过结果验证了本文提出的NetDAP算法的运行高效性和近似匹配效果的优越性。
其他文献
AlGaN基深紫外发光二极管(DUV LED)在灭菌消毒、医学治疗、紫外加工和农业等领域具有很大的应用潜力。然而,具有高外量子效率(EQE)的DUV LED仍然很难获得,EQE的发展缓慢很大程度上是受到光提取效率(LEE)低的限制,当前DUV LED的LEE普遍低于10%。LEE低的主要原因在于:第一,由于空气和AlGaN之间的折射率差异大,LEE受到全内反射(TIR)和菲涅尔损失严重影响;第二,
近几年来,随着极大规模集成电路的飞速发展,工艺技术节点降至7 nm及以下,集成电路制造工艺越来越复杂。传统的插塞金属钨由于其沉积过程中急剧增长的电阻已不能满足现代制造工艺的需求,可使用电阻率较低(6.63μΩ·cm)的新型插塞金属钴(Co)代替。化学机械平坦化(CMP)是集成电路制造工艺的关键步骤之一,是到目前为止实现晶圆表面部分或全局平坦化最有效的手段。阻挡层CMP是多层铜布线的最后一道工序,阻
光伏电池片中的裂纹缺陷会造成电池片失效,影响电池组件的正常使用,也不利于光伏发电系统维持稳定。光伏电池片电致发光(Electroluminescence,EL)图像呈现非均匀复杂表面,随机分布的晶粒和缺陷目标之间的对比度低,缺陷形状、尺度不一等特点,给利用传统方法对裂纹缺陷的准确性和鲁棒性检测带来很大的挑战。因此本文提出了多个深度学习模型,有效地解决了复杂背景对裂纹缺陷识别的影响,最终形成了一套有
化学机械平坦化(CMP)是集成电路(IC)制造的关键工艺之一,是实现多层铜布线局部和全局平坦化的核心技术。阻挡层平坦化是铜互连CMP制程中的最后一步,决定着IC器件的良率和可靠性。钽(Ta)具有较高的电导率和抗电迁移性,并与Cu有很好的粘附性,被广泛用作铜互连的阻挡层材料。在阻挡层CMP过程中,由于Cu/Ta两种金属活性的不同,会形成电偶腐蚀,而且CMP抛光液中部分组分也会对铜表面造成腐蚀,影响器
模式匹配是计算机领域中对字符串的一种基本运算,目的是在较长的序列中找出与给定模式相同或相似的所有子串。模式匹配在诸多领域中具有广泛的应用,如搜索引擎,金融分析,数据挖掘等。与传统模式匹配相比,带有间隙约束的模式匹配更具灵活性,其允许模式中包含指定范围的通配符数量,具有重要的研究意义。在一次性条件下的模式匹配中,模式中包含间隙约束且序列中同一位置的字符最多允许被模式使用一次,这种方法在生物信息学和序
根据世界卫生组织国际癌症研究机构发布的权威报告显示,肺癌现如今已经成为世界上发病率和死亡率最高的癌症,是危害人类生命健康的头号元凶。肺结节作为肺癌早期的重要表现形式,其有可能发展为肺癌的几率约为40%,因此精准检测和分割并且对CT图像中的肺结节准确定性成为挽救肺癌患者的关键。近年来,随着人工智能、深度学习等新兴技术的兴起,越来越多基于深度学习的模型迁移到医学图像分割上来,为肺癌的早期诊断提供了新的
风电机组具有故障率高的特点。为提高风电机组运行可靠性,论文以风电集控中心的SCADA系统作为数据来源,将某公司生产的风电机组作为研究对象,采用基于数据驱动的方法进行风电机组的故障预测与识别研究,为风电场的智能化运维提供参考信息。论文详细研究工作如下:首先,论文对风电机组的故障现象进行分析,通过SCADA系统中的风机状态码筛选风电机组处于运行状态的数据。采用数据库操作对零值、空值等系统异常值及风功率
近年来,随着我国智慧校园建设的快速发展,信息技术与教育教学深度融合成为必然趋势。在课堂教学中,学生的行为状态能够反映学生的课堂参与度和教学效果,对于教学质量评估及改进教学方式具有借鉴意义。同时,随着人工智能的发展,深度学习在语音、图像识别,自然语言处理等多个领域都取得了大量成果,新的框架模型不断涌现。其中,卷积神经网络(CNN)因其结构简单、训练参数少和适应性强等特点成为众多科学领域的研究热点之一
编辑:自您担任本刊编委起,行业对您的印象都是"暖通人",请问是什么机缘您开始把研究方向由"暖通"转向了"电气"?Editor:Your major "HV&AC"has been impressive for us since you served as our editorial board member of the Journal of Building Energy Efficien