解决多中心药品安全性研究中变量丰度不同的策略及应用概述-在线期刊

解决多中心药品安全性研究中变量丰度不同的策略及应用概述

更新时间：2023年05月30日阅读：2317次下载：804次 下载 手机版

作者单位： 1. 北京大学公共卫生学院流行病与卫生统计学系（北京 100191） 2. 北京大学第三医院临床流行病学研究中心（北京 100191）

DOI： 10.19960/j.issn.1005-0698.202305012

基金项目：国家自然科学基金面上项目（81973146、82173616）

引用格式：吴昀效, 许璐, 卓琳, 王胜锋, 詹思延.解决多中心药品安全性研究中变量丰度不同的策略及应用概述[J]. 药物流行病学杂志,2023, 32(5): 575-581.DOI: 10.19960/j.issn.1005-0698.202305012.  已复制

Yun-Xiao WU, Lu XU, Lin ZHUO, Sheng-Feng WANG, Si-Yan ZHAN.Strategies and applications to address variable abundance differences in multicenter drug safety studies[J].Yaowu Liuxingbingxue Zazhi,2023, 32(5): 575-581.DOI: 10.19960/j.issn.1005-0698.202305012.[Article in Chinese]  已复制

摘要|Abstract
全文|Full-text
参考文献|References

摘要| Abstract

当药品上市后安全性研究所关注的不良结局事件较为罕见时，开展多中心研究是解决此问题的必要措施。但多中心研究常受困于不同中心变量丰富程度不同的问题，尤其是分中心关键变量的完全缺失，导致研究无法在调整混杂时充分利用各中心的全部信息。近年提出的倾向性评分校正和迁移学习是处理分中心某些变量完全缺失的可用策略，其中倾向性评分校正已应用于药物流行病学领域，但尚未见迁移学习在该领域的报道。本文将概述两种方法的特点及应用，并重点梳理可用于解决此类问题的几类迁移学习方法，为迁移学习在多中心药品安全性评价的深入研究提供参考。

全文| Full-text

药品安全是全球备受关注的公共卫生问题，药品上市后安全性评价可以发现人群用药的不良反应并快速应对，从而确保药品安全性，提升公众信任[1]。严重的药品不良反应（adverse drug reaction，ADR）发生率较低（＜1/1 000），单中心研究难以发现安全信号，近年来各个国家开始尝试构建多中心ADR监测网络，以提高监测罕见ADR的能力[2]。但多中心研究常会存在多中心变量丰富程度不同的问题，主要指两种情形：①不同中心具有相同的变量，但各变量观测值存在不同程度的不完全缺失；②不同中心变量的数量不相同，即分中心某变量的观测值完全缺失。由于药品安全性研究的各类研究设计均需调整混杂偏倚，上述两种情形会导致研究无法充分利用现有样本量或难以调整全部的协变量，从而影响研究结果的准确性。

目前对第一种情形已有多种填补方法可供选择，但对后者关注仍较为有限。本综述主要围绕后者，针对近些年提出的倾向性评分校正（propensity score calibration，PSC）和迁移学习（transfer learning）的原理、优缺点及应用进行梳理和归纳，为研究者处理此类问题提供思路，并对相关方法的发展提出展望。

1 倾向性评分校正

PSC结合了倾向性评分（propensity score，PS）和回归校正的思想，利用内部或外部验证研究估计的PS对残余混杂进行回归校正[3]。然而，该方法的适用场景受到限制，其有效性取决于回归校正的关键假设，需要定义有错误倾向PS（只利用变量缺失中心的协变量估计的PS）和金标准PS（同时利用变量缺失中心的协变量和变量不缺失中心额外包含的协变量估计的PS）。在对两种PS估计出的变量缺失中心的测量误差实施回归校准时，金标准PS为因变量，有错误倾向PS和暴露因素为自变量；在评估暴露与结局关联的观察性研究中，如图1所示，给定金标准PS和暴露变量的情况下，有错误倾向PS应独立于结局变量[4]，在进行外部验证研究时若无结局变量信息，则无法检验这种强假设是否成立[5]。另外，外部验证研究还存在不同中心的研究对象可比性差等问题[6]；有研究[4]表明，当缺失变量与已知协变量的混杂偏倚方向不同时，会违背这种强假设，从而使控制偏倚的效果大打折扣。

图1 倾向性评分校正法估计暴露对结局影响的有向无环图

Figure 1.Directed acyclic graph illustrating the use of propensity score calibration to estimate the effect of exposure on outcome

注：PS：倾向性评分（propensity score）；当调整金标准PS时，协变量与缺失变量之间将产生相关性，但两者本身并不存在相关关系，因此采用虚线连接


目前已有药物流行病学研究应用PSC进行敏感性分析，以消除协变量缺失对结果造成的影响（表1）。Stürmer等[5, 7]在2005年首次利用PSC评估了大型老年人群队列非甾体类抗炎药与死亡率的关联，结果表明经PSC调整后的RR值更为合理。还有两项药物流行病学研究[8-9]尝试在敏感性分析时利用PSC，结果均显示，使用PSC调整后更偏向无效假设。此外，利用PSC进行外部验证时不要求验证研究中包含结局信息，适用于罕见不良反应的药物安全性研究，但外部调整效果依赖于验证数据的质量[10]。利用PSC进行外部验证提示了该方法用于多中心研究的潜力，但由于PSC需要基于一定的强假设，且缺少对其可靠性和准确性的验证，在药物安全性研究中的应用还不成熟，评估PSC效果的研究还需深入开展。

表格1 PSC在药物流行病学研究中的应用现状

Table 1.Current status of the application of PSC in pharmacoepidemiological studies


2 迁移学习

多中心分布式网络提供了海量的健康医疗大数据，而人工智能技术近年来逐渐兴起以适应大数据的飞速发展，因此机器学习是解决分中心某变量完全缺失问题的新思路。迁移学习是机器学习的一种新范式，其摆脱了传统机器学习方法需要基于独立同分布假设的限制，通过迁移一个或多个源域（sorce domain）的知识来提升目标域（target domain）的学习表现[11]，换句话说就是将已学习的知识转移到相似数据环境中[12]，理论上其在解决分中心变量系统缺失上也具有一定潜力，但尚未见相关报道。迁移学习技术在目标域数据集规模小或标签有限的情况下，将源域的知识转移到目标域上，适用场景更加多元，没有严格的假设和要求限制，还避免了耗时耗力的数据标记工作，且无需从零开始学习每一个目标任务，提升了学习性能[13]，因此十分适合基于大数据的多中心药品安全性研究。根据解决的实际问题类型，迁移学习方法可分为四类，即基于特征的、基于样本的、基于模型的和基于关系的迁移学习[13]。大部分真实世界研究主要采用基于样本、基于特征和基于模型的迁移学习方法，大致的工作机制如图2所示，其中基于样本和特征的迁移学习均以数据为基础，基于模型的方法旨在参数或模型层面迁移知识；而基于关系的迁移学习更多关注逻辑关系或规则的转换[14]，在实际应用中较少。

2.1 基于样本的迁移学习

基于样本的迁移学习是在源域和目标域数据具有相同特征空间但分布不同的情况下，从源域中筛选出与目标域数据分布相似的样本进行重新加权（instance reweighting），再将这部分共享样本迁移至目标域以补充目标任务的训练集[15]，工作机制如图2-A所示。在实际应用该方法时需要源域具有一定规模且较高质量的标记数据，在医疗保健领域通常被用于解决目标域训练数据不足的问题。如Mei等[16]采用基于多源样本的迁移学习方法来重建病原体和人体的蛋白质相互作用网络以探究沙门菌的致病机制，由于蛋白质相互作用的信息数量少且不完整，因此通过转移具有大量标记信息的同源知识来增强学习效果，并结合样本重加权技术抵消迁移训练数据的噪声，研究表明该方法优于既往模型，预测结果得到了相关文献的验证。Wang等[17]采用基于样本的迁移学习，将多源领域学到的有效知识转移到慢性阻塞性肺疾病领域，解决了疾病预测时数据稀疏的问题，并提高了疾病诊断和预测的准确性。此外，Xu等[18]利用全国脑卒中筛查大数据和有限的电子病历数据开发了基于样本过滤和权重调整的分类模型，来预测两年内缺血性脑血管事件复发风险，结果证实该方法可用更少的数据提高复发风险的预测能力，避免了电子诊疗记录标记不足的局限性。

综上，样本加权的迁移学习方法对于解决目标域数据规模小和可用性差的问题非常有效，在进行多中心药品与不良反应的关联研究时，基于样本的迁移学习方法能将变量不缺失中心的数据通过样本重加权策略纠正协变量偏移（covariate shift）并进行领域适应[19]，从而补充变量缺失中心的变量信息，更加准确地估计效应值，但应用前需要比较分中心数据的相似性，避免“负迁移”现象。

图2 迁移学习的工作机制

Figure 2.Working mechanism of transfer learning

注：A和B中的“▲”是各中心的某一例样本；A中心是源域，B中心是目标域，即知识从A中心迁移至B中心的场景，f(·)是模型的非线性函数，X是输入样本，Y是输出结果，S是源域，T是目标域


2.2 基于特征的迁移学习

基于特征的迁移学习主要关注特征转换策略，致力于在源域和目标域之间寻找共同的潜在特征，如图2-B所示，该方法通过设计合适的映射函数或寻找两个特征空间的转换器实现特征转换，从而最小化边际和条件分布差异，找到特征之间的对应关系[11]。目前医学领域基于特征的迁移学习多用于解决多中心数据有特征重叠的情况，但分布和特征均存在较大差异的问题[20]。Wiens等[21]开展三家医院联合的多中心研究，对超过13万例入院患者进行疾病风险预测，采用寻找各中心的公共特征空间进行特征映射的迁移学习方法，将另外两家医院的数据进行特征转换，整合到目标医院的特征空间用于训练院内感染预测模型，结果表明采用迁移学习方法，相比单中心研究有效提高了预测模型的性能，当目标训练集规模小、与外部数据共享特征数量较多且特征空间存在显著重叠时，利用外部辅助数据进行知识迁移具有突出优势。此外，医学文本实体识别研究也常利用迁移学习进行医学语料特征的迁移。国内有学者采用迁移学习对大规模未标记的医疗健康数据进行特征提取以此来扩充训练集，提升了中文医学文献实体识别效果，实现多中心医学知识的有效利用与协同共享[22]。

基于特征的迁移学习适用范围较广，无论源域和目标域是否具有标记数据均可应用，因此可以进行无监督迁移学习[13]，通过聚类、降维和密度估计等方式完成目标域中的无监督学习任务。在药物安全性研究的实际应用中往往很难获得大量准确可用的标签数据，因此需要有效的迁移学习方法在无人工标记的情况下开展真实世界研究[23]；当利用标记数据很少甚至没有且各中心变量个数和类型不同的健康医疗大数据进行药品安全性评价时，可以通过特征转换策略和无监督学习算法将变量不缺失中心的特征空间映射到缺失中心，从而补全变量缺失中心的数据集。

2.3 基于模型的迁移学习

基于模型的方法旨在参数或模型层面迁移知识，如图2-C所示，要求源任务和目标任务共享某些参数或先验分布模型的超参数，该方法首先使用源域数据进行模型的预训练，然后传递源模型的结构和参数，并使用少量的目标数据集微调并训练目标模型[24]。基于模型的迁移学习主要任务是在目标域得出准确的预测结果，如分类或聚类，因此在医学领域常用于医学图像分析疾病分类或构建预测模型的研究。Alzubaidi等[25]将深度学习模型与迁移学习相结合，首先在源域预训练深度卷积神经网络，然后根据目标任务进行参数微调，通过分析医学图像进行皮肤癌和乳腺癌的分类，解决了医学成像任务中缺乏训练数据的问题，并且分类训练均达到了95%以上的准确率。有研究[26]利用深度迁移学习模型和时间序列数据预测未来一段时间内国家新型冠状病毒肺炎的确诊和死亡人数，结果显示其准确性高且预测效果很好，尤其适用于处理小规模且质量不佳的数据集。在临床风险评估方面，有研究[27]在已有的风险评估模型基础上利用迁移学习开发个性化模型，以适应住院患者临床表现的异质性，从而改善急性肾损伤风险评估效果。另外，开展多中心研究有时需要对患者的隐私数据进行保护，基于模型的迁移学习在这方面发挥着重要作用，Papernot等[28]提出一种进行深度学习的半监督知识迁移方法来对训练数据进行隐私保护，该方法组合了多个模型对不同参与方的数据进行独立训练，然后迁移隐私数据的知识并建立新的学习模型，这种隐私保护思路可以用于各个医疗机构拒绝共享患者疾病史等隐私数据的场景中。

综上，基于模型的迁移学习无需在数据层面进行繁琐的处理，而是在模型层面更直接地获取知识，大幅减少训练时间，适用于多中心数据分布和特征有差异但共享部分模型结构或参数的场景，是医学领域早期常用的迁移学习算法。在多中心ADR监测的场景中，若利用变量不缺失中心的数据可以构建普适的因果关联评估模型，则利用迁移学习微调模型和参数优化该模型有望实现在变量缺失中心进行更准确的关联评估。

2.4 在药品安全性研究多中心场景下应用面临的挑战

根据对以上3种方法的机制、优缺点和适用场景的整理归纳（表2），迁移学习有望解决多中心药品安全性研究中变量完全缺失的问题，但在实践前应注意以下几点：①在应用基于样本的迁移学习方法时，虽然对变量缺失中心（目标域）的数据要求不高，但对变量不缺失中心（源域）的数据质量、数据规模和数据分布方面要求较高，药品安全性研究通常应用电子病历、注册登记等真实世界数据进行，而这些数据在不同中心的特征和分布往往有很大差别，因此迁移学习的效果取决于研究前期对分布式数据的协调统一和标准化处理；②在应用基于特征的迁移学习方法时，需要考虑变量缺失中心和不缺失中心的数据特征重叠程度对学习效果的影响；③在应用基于模型的迁移学习方法时，需要预先进行多中心数据的相似性度量，确保不会发生负迁移现象，并在变量不缺失中心构建有效的关联评估模型；④当根据方法的适用范围、变量的缺失情况和数据分布特征判断多种方法均可应用的情况时，需要选出最优方法，但同时进行若干种算法的计算成本高，并且不能保证是否还存在其他更优解，最近有学者提出了自动迁移学习方法，可以从既往经验中自动筛选机器学习算法，但目前还缺少实践验证，或许未来在实际应用时可以解决算法选择问题，必要时研究还可尝试联合多种迁移学习方法，从多方面提升训练效果。

表格2 真实世界研究中三种常用的迁移学习方法

Table 2.Three common transfer learning methods in real-world studies


3 总结与展望

鉴于罕见ADR对药品安全的影响，多中心研究是药品上市后安全性评价的必要措施，但多中心研究常面临变量完全缺失的问题，本研究系统梳理了现有可以解决变量完全缺失的策略及其应用前景，发现已有药物安全性研究应用PSC解决该问题，但需满足强假设条件，适用场景十分受限，而迁移学习具有更广泛的适用范围和更灵活的适用条件，可以利用跨域的多源异构数据为变量缺失中心构建有效模型，为研究者带来极大便利。目前迁移学习已在医学、金融和航天等领域中得到了广泛运用，并在解决数据分布特征不一致等问题上取得了显著的成果，适用场景广泛且模型具有较好的准确性和稳健性。未来如何选择最合适多中心药品安全性研究场景的迁移学习算法是亟待解决的问题，进一步探究跨中心利用所有变量的技术条件是进行有效迁移学习的重中之重。

利益冲突：无

参考文献| References

1.Li L, Yin J. Drug safety evaluation in China[J]. Curr Allergy Asthma Rep, 2019, 19(9): 39. DOI: 10.1007/s11882-019-0872-4.

2.StÜbner S, Grohmann R, Greil W, et al. Suicidal ideation and suicidal behavior as rare adverse events of antidepressant medication: current report from the AMSP multicenter drug safety surveillance pro-ject[J]. Int J Neuropsychopharmacol, 2018, 21(9): 814-821. DOI: 10.1093/ijnp/pyy048.

3.Van Domelen DR, Lyles RH. A look at the unique identifiability of propensity score calibration[J]. Am J Epidemiol, 2019, 188(7): 1397-1399. DOI: 10.1093/aje/kwz072.

4.Lunt M, Glynn RJ, Rothman KJ, et al. Propensity score calibration in the absence of surrogacy[J]. Am J Epidemiol, 2012, 175(12): 1294-1302. DOI: 10.1093/aje/kwr463.

5.Stürmer T, Schneeweiss S, Avorn J, et al. Adjusting effect estimates for unmeasured confounding with validation data using propensity score calibration[J]. Am J Epidemiol, 2005, 162(3): 279-289. DOI: 10.1093/aje/kwi192.

6.Han P. A further study of propensity score calibration in missing data analysis[J]. Statistica Sinica, 2018, 28(3): 1307-1332. DOI: 10.5705/ss.202016.0185.

7.Stürmer T, Glynn RJ, Rothman KJ, et al. Adjustments for unmeasured confounders in pharmacoepide-miologic database studies using external information[J]. Med Care, 2007, 45(10 Supl 2): S158-165. DOI: 10.1097/MLR.0b013e318070c045.

8.Wood ME, Frazier JA, Nordeng HM, et al. Prenatal triptan exposure and parent-reported early child-hood neurodevelopmental outcomes: an application of propensity score calibration to adjust for un-measured confounding by migraine severity[J]. Pharmacoepidemiol Drug Saf, 2016, 25(5): 493-502. DOI: 10.1002/pds.3902.

9.Thygesen LC, Pottegård A, Ersbøll AK, et al. External adjustment of unmeasured confounders in a case-control study of benzodiazepine use and cancer risk[J]. Br J Clin Pharmacol, 2017, 83(11): 2517-2527. DOI: 10.1111/bcp.13342.

10.Schneeweiss S. Sensitivity analysis and external adjustment for unmeasured confounders in epidemio-logic database studies of therapeutics[J]. Pharmacoepidemiol Drug Saf, 2006, 15(5): 291-303. DOI: 10.1002/pds.1200.

11.Zhuang F, Qi Z, Duan K, et al. A comprehensive survey on transfer learning[J]. Proceedings of the IEEE, 2021, 109(1): 43-76. DOI: 10.1109/JPROC.2020.3004555.

12.Chen D, Yang S, Zhou F. Transfer learning based fault diagnosis with missing data due to multi-rate sampling[J]. Sensors (Basel), 2019, 19(8): 1826. DOI: 10.3390/s19081826.

13.Pan SJ, Yang Q. A survey on transfer learning[J]. IEEE Trans Knowl Data Eng, 2010, 22(10): 1345-1359. DOI: 10.1109/TKDE.2009.191.

14.Atasever S, Azginoglu N, Terzi DS, et al. A comprehensive survey of deep learning research on medical image analysis with focus on transfer learning[J]. Clin Imaging, 2023, 94: 18-41. DOI: 10.1016/j.clinimag.2022.11.003.

15.黎英. 迁移学习在医学图像分析中的应用研究综述 [J]. 计算机工程与应用, 2021, 57(20): 42-52. [Li Y. Review of application of transfer learning in medical image analysis[J]. Computer Engineering and Applications, 2021, 57(20): 42-52.] DOI: 10.3778/j.issn.1002-8331.2106-0103.

16.Mei S, Zhu H. AdaBoost based multi-instance transfer learning for predicting proteome-wide interac-tions between Salmonella and human proteins[J]. PLoS One, 2014, 9(10): e110488. DOI: 10.1371/journal.pone.0110488.

17.Wang Q, Wang H, Wang L, et al. Diagnosis of chronic obstructive pulmonary disease based on trans-fer learning[J]. IEEE Access, 2020, 8: 47370-47383. DOI: 10.1109/ACCESS.2020.2979218.

18.Xu H, Pang J, Zhang W, et al. Predicting recurrence for patients with ischemic cerebrovascular events based on process discovery and transfer learning[J]. IEEE J Biomed Health Inform, 2021, 25(7): 2445-2453. DOI: 10.1109/JBHI.2021.3065427.

19.Sugiyama M, Suzuki T, Nakajima S, et al. Direct importance estimation for covariate shift adaptation[J]. Ann Inst Stat Math, 2008, 60(4): 699-746. DOI: 10.1007/s10463-008-0197-x.

20.Niu S, Hu Y, Wang J, et al. Feature-based distant domain transfer learning[A] //2020 IEEE International Conference on Big Data (Big Data)[C]. IEEE, 2020: 5164-5171.

21.Wiens J, Guttag J, Horvitz E. A study in transfer learning: leveraging data from multiple hospitals to enhance hospital-specific predictions[J]. J Am Med Inform Assoc, 2014, 21(4): 699-706. DOI: 10.1136/amiajnl-2013-002162.

22.韩普, 顾亮, 叶东宇, 等. 基于多任务和迁移学习的中文医学文献实体识别研究 [J/OL]. 数据分析与知识发现: 1-14. [2023-01-19] [Han P, Gu L, Ye DY, et al. Research on Chinese medical literature entity recognition based on multi-task and transfer learning[J]. Data Analysis and Knowledge Discovery: 1-14.] http://kns.cnki.net/kcms/detail/10.1478.G2.20221223.1648.011.html.

23.Puttagunta M, Ravi S. Medical image analysis based on deep learning approach[J]. Multimed Tools Appl, 2021, 80(16): 24365-24398. DOI: 10.1007/s11042-021-10707-4.

24.高爽, 徐巧枝. 迁移学习方法在医学图像领域的应用综述[J]. 计算机工程与应用, 2021, 57(24): 39-50. [Gao S, Xu QZ. Review of application of transfer learning in medical image field[J]. Computer Engineering and Applications, 2021, 57(24): 39-50.] DOI: 10.3778/j.issn.1002-8331.2107-0300.

25.Alzubaidi L, Al-Amidie M, Al-Asadi A, et al. Novel transfer learning approach for medical imaging with limited labeled data[J]. Cancers (Basel), 2021, 13(7): 1590. DOI: 10.3390/cancers13071590.

26.Hasib KM, Sakib S, Al Mahmud J, et al. Covid-19 prediction based on infected cases and deaths of bangladesh using deep transfer learning[A]//2022 IEEE World AI IoT Congress (AIIoT)[C]. IEEE, 2022: 296-302.

27.Liu K, Zhang X, Chen W, et al. Development and validation of a personalized model with transfer learning for acute kidney injury risk estimation using electronic health records[J]. JAMA Netw Open, 2022, 5(7): e2219776. DOI: 10.1001/jamanetworkopen.2022.19776.

28.Papernot N, Abadi M, Erlingsson U, et al. Semi-supervised knowledge transfer for deep learning from private training data[A] // 5th International Conference on Learning Representations[C]. IEEE, 2016. DOI: 10.48550/arXiv.1610.05755.