基于关联规则的数据挖掘技术研究及其在药物不良反应监测中的应用

来源 :第二军医大学 | 被引量 : 0次 | 上传用户:MyLoverQLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物不良反应(Adverse Drug Reaction,ADR)监测是药品上市后监测的一项重要内容。运用数据挖掘技术从海量的监测数据中提取出安全性问题的信号,已成为药物流行病学和药物警戒专业人员研究的热点。目前,各国主要采用ROR、MHRA、BCPNN、MGPS等方法进行ADR信号检测。从国内外文献来看,这些方法均存在一些不足,主要表现在以下三个方面:①测量指标极易受极小值影响;②对联合用药产生ADR分析能力不足:③存在较高的假阳性率和假阴性率。 关联规则挖掘是一种广泛应用于商业、工程等领域的数据挖掘技术,目的是发现数据库中各种属性及属性组合之间的潜在联系。它以数据中项或项组合协同出现的频率为基础,以形如A=>B的规则来表现数据中蕴涵的信息。对ADR信号检测来讲,主要考察的对象是药物与不良反应两个属性之间的联系,即药物与不良反应在监测数据库中组合出现的规律。因此,关联规则挖掘特别适用于ADR监测数据的信号检测。 本研究利用数据库技术对2007年上海市上报国家的15728份ADR报表进行了规范化整理,并根据实际数据库的统计学特征,进行了数据模拟和模拟性实验研究。在此基础上,本研究利用关联规则挖掘对实际数据库进行信号检测。 模拟性实验研究是进行方法学上的探索等创新性研究的一个有力工具。本研究以目前各国常用的信号检测方法的基本理论为依据,模拟对象为药物和不良反应两个变量,其中包括对联合用药的模拟。结果表明,模拟数据中,药物-不良反应组合出现的频数服从Poisson分布(拟合优度检验P=0.85278),这与ADR监测领域的不相称性测定所要求的数据特征相一致。以模拟数据为研究资料,本研究探索了关联规则挖掘在ADR信号检测中的可行性及实现步骤,并根据ADR信号产生的特点,建立了冗余规则剪除的两个准则:①具有包含关系的两条规则,若支持度相同,则项数少的规则服从项数多的规则;②具有包含关系的两项规则,若项数少的规则支持度高于项数多的规则,则项数多的规则服从项数少的规则。 在实际监测数据的信号检测中,通过对产生信号的分析,建立了冗余规则剪除的第三个准则:目标规则被包含于多个规则中,其支持度均来自包含它的各母规则,若这些母规则中其它子规则有来自子规则本身单独的ADR可疑报告为支持,则目标规则以及母规则服从具有单独的ADR可疑报告为支持的其它子规则。通过以上三个准则,可以实现对联合用药产生的ADR信号的分析,能够有效剪除因联合用药而产生的可疑程度较低的假阳性信号。最终,本研究共发现了1101个可疑程度较高的药物-不良反应组合。此外,本研究还以ADR监测数据中的省中心评价为标准,将被“肯定”评价1次以上、被“很可能”评价2次以上和被“可能”评价3次以上的药物-不良反应组合视为阳性对照(可疑程度较高对照);将被“可能”评价仅1次和被“可能无关”评价1次以上的药物-不良反应组合视为阴性对照(可疑程度较低对照)。 在此基础上,本研究从以下两个方面对关联规则与其它各种信号检测方法(ROR、MHRA、BCPNN)进行了平行比较:①采用同一组信号,对各种信号检测方法度量指标的灵敏度和特异度进行ROC曲线分析。结果表明,关联规则的度量指标Sup的曲线下面积明显大于其它各种信号检测方法的度量指标,且95%可信区间无重叠。②采用同一监测数据,用各种信号检测方法分别进行信号检测,并将检测结果与省中心评价进行比较。结果表明,关联规则挖掘的信号可疑程度与省中心评价的一致性优于其它各种信号检测方法。 综上所述,在模拟性实验研究和实际监测数据的信号检测中,关联规则挖掘能够及时发现可疑程度较高的ADR信号,具有良好的灵敏度和特异度,值得在药物警戒领域进一步推广应用。
其他文献
研究背景: 石棉因具有保温、绝缘、耐高温等性能而广泛应用于各个领域。由于石棉已是国际公认的职业病危害因素,可诱发石棉肺和恶性肿瘤(如支气管肺癌、间皮瘤等)石棉相关疾