最小临床重要差异值计算方法统计性能比较研究-在线期刊

最小临床重要差异值计算方法统计性能比较研究

更新时间：2026年05月28日阅读：1674次下载：407次 下载 手机版

作者单位： 1.北京大学公共卫生学院生物统计学系（北京 100191） 2.北京大学肿瘤医院（北京 100142） 3.北京大学临床研究所（北京 100191）

DOI： 10.12173/j.issn.1005-0698.202512063

基金项目：国家自然科学基金面上项目（82173615、82373682）

引用格式：全旭源, 宋佳丽, 侯艳. 最小临床重要差异值计算方法统计性能比较研究[J]. 药物流行病学杂志, 2026, 35(5): 508-516. DOI: 10.12173/j.issn.1005-0698.202512063.  已复制

Quan XY, Song JL, Hou Y. A comparative study on the statistical performance of methods for estimating the minimal clinically important difference[J]. Chinese Journal of Pharmacoepidemiology, 2026, 35(5): 508-516. DOI: 10.12173/j.issn.1005-0698.202512063.[Article in Chinese]  已复制

摘要|Abstract
全文|Full-text
参考文献|References

摘要| Abstract

最小临床重要差异（MCID）指对患者有实际意义的最小疗效变化，是监管机构评估药物或治疗方法临床价值的关键指标。其以患者为中心，既体现了病情改善程度，也体现了患者对变化的重视。然而各MCID计算方法在不同临床场景下的适用性尚缺乏系统比较，临床研究中存在方法选择标准不一、估计结果差异显著等问题。既往研究表明MCID方法的选择需综合考虑样本量和治疗效果等特征，不同场景下方法选择不当可能导致MCID估计出现严重偏倚，影响临床研究结论的稳健性与监管决策的科学性。因此，合理选择统计学方法是获取准确和可靠MCID值的关键环节。本文系统地阐述了临床研究中常用的MCID计算方法，基于模拟实验比较多种锚定法和分布法的统计性能，为MCID方法选择提供合理依据。

全文| Full-text

最小临床重要差异（minimal clinically important difference，MCID）最早由Jacschke等［1］研究者提出，指在不考虑不良反应和成本的前提下，被患者认可的最小临床疗效评价问卷得分变化值。该定义注重以患者为中心，既体现了改善的幅度，也体现了患者对变化的重视［2-3］。随着时间的推移，MCID概念采用了多种不同的定义，如最小重要差异、最小重要变化、最小可检测变化等［4-5］。例如，Caroline等［6］认为，最小重要变化强调患者感知到的重要的最小变化阈值，即在一段时间内，患者主观感受到自己发生了重要变化的最小值；不应与最小重要差异混淆，最小重要差异关注的是不同患者群体之间的最小重要差异，而非个体变化。但所有这些变体都有一个共同的目标，即从患者角度量化具有临床实际意义的改变。从监管的角度看，是否具有统计学意义与样本量有关，也就是说只要样本足够大，即使无临床意义，也可能出现有统计学意义的结果。而MCID值利用了对临床实际意义的量化界定，克服仅从统计学差异下结论的缺点，可为监管决策提供更科学的依据［7］。

目前，MCID计算主要采用锚定法和分布法［8-9］。锚定法将患者报告的得分变化与外部锚点联系起来确定MCID值，这里锚点通常指患者整体变化评分（patient global rating of change，PGRC），其是一种单一项目评分，要求患者评价自基线以来的整体或特定健康状况的变化［10-11］。分布法根据样本的分布特征进行计算，主要基于描述变化程度的指标，如标准差、效应量或测量的标准误等获得标准数值，检测基线和不同时间点之间的变化超过变化预期的程度［12-13］。然而，现有研究未对各方法的统计性能进行深入研究，即不熟悉各方法估计值在不同样本量和改善程度等条件下的准确性和可靠性，存在方法选择标准不一等问题。因此，本研究基于模拟实验系统评估多种MCID计算方法在不同临床情景下的统计性能，并以均方根误差（root mean square error，RMSE）为主要评价指标比较其准确性与稳健性，旨在明确各方法的适用范围与优选策略，为临床研究中MCID方法选择提供依据，从而为临床决策及监管评价提供更可靠的支持。

1 原理与方法

1.1 MCID概念模型

为计算MCID并研究不同方法的统计性能，需深入理解MCID值的定义和构建过程。2022年，Vanier等［14］在健康相关生活质量变化模型基础上，结合调查响应心理学理论，进一步对MCID概念模型进行扩展。最终建立的MCID概念模型见图1。基于该概念模型，将MCID定义为患者的最小感知变化（minimal perceived change，MPC）。感知变化（perceived change，PC）主要指患者主观感受到的症状缓解或生活质量改善等变化，通常用于患者主观指标的评估，如疼痛、焦虑等。PC在患者报告结局（patient-reported outcomes，PRO）得分或指数上体现为两次测量时量表得分或指数差异。当患者认为已产生对其有重要意义的最小变化时，对应的量表得分或指数差值即为MCID值。此外，该模型描述了研究对象在两个时间点回答PRO条目以及在第二个时间点测量PGRC时，相关变量之间的关系，从而用于后续感知变化等建模。本研究探索了几种MCID计算方法在不同场景下的准确性和可靠性，为MCID方法应用提供参考。

图1 MCID概念模型

Figure 1.MCID conceptual model

注：SCt1.患者i在t1时的特征水平；SCt2.患者i在t2时的特征水平；SCt1mem.患者i在t2时记忆中的t1时研究特征水平；PC.感知变化。


1.2 拟比较的MCID方法

1.2.1 锚定法

（1）基于ROC分析的方法

基于受试者工作特征（receiver operating characteristic，ROC）分析方法的核心是利用ROC曲线基于灵敏度（sensitivity，Se）和特异度（specificity，Sp）来计算MCID值。包括最佳临界点法和约登指数最大法。

①最佳临界点法，公式如下［15］：

注：d为ROC曲线上的某点与坐标系中（1-Sp=1，Se=1）对应的点之间的欧几里得距离，为该距离最短时对应的临界值。

②约登指数最大法，公式如下［15］：

注：为灵敏度和特异度达到最大值，为约登指数最大时对应的临界值。

（2）基于均值变化的方法

基于均值变化法的核心思想是基于锚点中自评为“稍微变好”或“稳定”患者的平均变化值计算MCID值。包括最小变化组平均值法和最小变化组与稳定组平均值差法。

①最小变化组平均值法，公式如下［16］：

注：y² =1为最小改善组对应的人群，为两次测量过程中各研究对象差值的平均值。

②最小变化组与稳定组平均值差法，公式如下［17］：

注：y²=1和y²=0为最小改善组和最小稳定组对应的人群，为两次测量过程中各研究对象差值的平均值。

（3）预测建模法

预测建模法利用逻辑回归来估计患者发生临床重要变化的概率。研究者以患者是否报告重要变化为因变量，以PRO量表得分变化值为自变量，建立预测模型并得到截距和回归系数，公式如下：

注：为量表得分变化，b₀为截距，b₁为得分变化的回归系数。

随后，通过求解使预测改善概率等于样本总体改善率的分数变化值，即可得到MCID的估计值。公式如下［18］：

注：z=1为发生最小改善的研究对象，b₀为截距，b₁为得分变化的回归系数。

1.2.2 分布法

（1）基于样本变异性的方法—Cohen's d方法

Cohen's d方法是从效应量角度考虑。小、中、大效应量对应的Cohen's d界值分别为0.2、0.5和0.8。在没有合理先验选择d值的情况下，有统计学意义的差异通常认为至少为中等效应量，即本研究选择d=0.5，该取值源自Cohen对效应量的经典划分，是当前MCID方法学研究中的常用基准，为本研究提供了与同类研究可比的参照［19］。公式如下：

注：∆x为两个时间点测量的均值差，为第一次测量时的标准差。

（2）基于测量工具精确性的方法—1倍测量标准误法

根据经典测量理论，PRO得分的测量标准误（standard error of measurement，SEM）源于评估工具的信度，可视为其测量学特征之一，因此具有较好的应用普适性［20］。公式如下：

注：为第一次测量时的标准差，α_Cronbach为第一次测量时量表的Cronbach􀆳s α值。

2 模拟实验

为探索MCID值的几种计算方法的统计学特性，本研究需模拟出n个研究对象在2个时间点对PRO条目的回答，以及在t₂时刻对PGRC的回答。数据生成机制如下（关键参数设置依据见附件1）：

2.1 PRO条目数据

在2个测量时间点上，基于已知潜在特征θ的分布，模拟研究对象对PRO各条目的回答。需满足：①已知θ在总体中的分布；②模拟的PRO数据要具备足够的可靠性和结构效度，且前提假设为单维性。

公式（9）模拟出个体在时间点t对某条目j某选项h的回答概率。其将研究对象i在t时间点，对条目j回答h类别的概率建模为“潜在特征的水平”和“项目阈值参数”的函数。

注：N为患者i（i=1；…；N）；J为PRO条目j（j=1；…；J）；t为测量时间点t（t=1；2）；h为对PRO第j项条目的具体选择类别；为患者i在t时刻的潜在特征水平，代表患者i在t时刻的某种心理或能力水平；为PRO第j项条目的项目阈值j（l=1；...；mj），代表了条目j在不同回答类别h的难度或区分度即潜在特征均服从正态分布，且两个时间的潜在特征具有相关性；

2.2 个体感知变化

公式（10）模拟生成患者PC数据。其为患者在第2次测量时潜在特征水平减去记忆的基线时潜在特征θ⁽²⁾水平。

注：θ^(t)为潜在特征θ在t时间点的水平，如生活质量，疼痛等在t时刻的水平；θ⁽²⁾为第2次测量时潜在特征的水平；θ^pc(2)为感知到的潜在特征θ的变化水平；θ^r(2)为为在第2次测量时，记忆的基线时潜在特征θ水平。

对θ^r(2)进行建模，如公式（11）：

其中，β₁反映个体对基线状态的真实记忆能力，高β₁意味着能独立于当前感受回顾过去，β₂反映个体用当前状态重构过去的倾向，高β₂意味着个体对基线状态的回忆显著受到当前状态的影响，体现了记忆建构过程中现时信息对过往体验的重塑作用。二者共同刻画了自传体记忆中记忆保持与现时重构的过程。β₃反映其他偶然因素对回忆的影响。当β₁高时，PGRC更能反映真实变化；当β₂高时，PGRC与真实变化脱节，锚定法可能出现偏倚。

2.3 PGRC数据

PGRC阈值（Ts）是将连续的PC转换为PGRC中不同类别之间的分界点。Ts公式如下：

注：T_S是PGRC的类别边界（阈值），即将连续的感知变化（PC）划分为PGRC不同类别之间的分界点；D为离散因子，控制PGRC阈值（Ts）分布范围，即决定不同患者变化敏感度的差异有多大；λs是PGRC阈值T_S在人群中的均值，即某个特定类别边界在人群中的平均水平。

在确定PGRC阈值分布的基础上，假设：①阈值围绕0点（即PC为零的点）对称分布；②从0点开始，PC分布的同一侧上，相邻阈值之间间隔相等；③阈值的分布是PGRC响应类别数量K的函数，K是一个至少等于3的奇数自然数；④给定的K值下，每个阈值的方差相同。

可得MPC，如公式（13）：

对于患者i，在第2次测量时对PGRC的反应如下：

注：τ_s,i是K在不同取值下（如K"=" 3时，S=｛-1，1｝），患者i的PGRC阈值。

2.4 真实MCID值

通过模拟100 000个个体样本在两次测量时对PRO量表的回答，且在限制真实变化等于潜在特征θ度量中模拟的真实MCID值的前提下，即将MCID真实值建模为基于K、J、M、β₁和β₂的函数，满足公式（14）：

然后，计算该模拟数据集中的PRO总分平均值。每次测量时PRO总分分数的平均差异是分数度量中真实MCID值的估计值。对各参数组合下的每一组重复此过程，以获得相应参数组合下的真实MCID值。公式（14）本质上是将MCID值定义为人群中从“稳定”感知状态跨越到“轻微变化”感知状态所需的变化阈值之均值。在数据生成过程中，通过设定整体变化评分的类别边界在人群中的分布参数，使真实MCID成为由感知变异幅度和PGRC中类别数共同决定的已知参数，从而为评价不同估计方法的偏倚提供了具有理论锚点的评价基准。

2.5 真数据标准化

真实MCID值是基于潜在特征θ的度量表示，MCID估计值是基于PRO量表得分表示，非同一度量尺度。因此需统一两者的度量标准。PRO总分需标准化为0到100的尺度。此外，需将真实MCID值映射到与PRO总分相同的度量标准上。

3 模拟结果

3.1 样本量对统计性能的影响

该模拟实验是研究样本量n对RMSE值的影响（n取值包括50、100、200、500）；以及不同样本量n下，最佳的MCID方法。具体而言，在一个量表条目数J=20、选项类别数M=4、PGRC类别数K=5的数据库中，研究相同β₁、β₂、α^（2）、D的参数组合下，n与RMSE值的关系。图2描述了在4个样本量的情景下，不同MCID计算方法的RMSE值。其中，最佳临界值法、约登指数最大法、最小变化组平均值法、最小变化组与稳定组平均值差法和预测建模法的5种锚定法均呈现出随着n的增大，RMSE值连续降低的趋势。

图2 相同参数组合下不同样本对MCID方法RMSE值的影响

Figure 2.Influence of different sample sizes on the RMSE of MCID estimation methods under identical parameter settings

注：Min-EDTL. 最佳临界点法；Max. YI. 约登指数最大法；Mean-LCG. 最小变化组平均值法；MLC-MS. 最小变化组与稳定组平均值差法；Pre-Model. 预测建模法。


3.2 改善程度对统计性能的影响

该模拟实验是研究改善程度α^（2）对RMSE值的影响（其中α^（2）取值包括0、0.2、0.5），以及不同改善程度α^（2）下，最佳的MCID方法。具体而言，1个量表条目数J=20、选项类别数M=4、PGRC类别数K=5数据库中，研究相同β₁、β₂、n、D的参数组合下，α^（2）与RMSE值的关系。图3描述了在3个改善程度的情景下，不同MCID计算方法的RMSE值。在改善程度α^（2）=0.5时，预测建模法和SEM法具有较好的准确性和可靠性，M（P₂₅，P₇₅）分别为3.16（1.45，3.91）和1.56（0.86，3.07）。

3.3 PGRC类别数K对统计性能的影响

该模拟实验是研究K对RMSE值的影响（其中K取值包括3、5、7）。具体而言，在一个量表条目数J=20、选项类别数M=4、样本量n=200的数据库中，研究相同β₁、β₂、α^（2）、D的参数组合下，K与RMSE值的关系。图4描述了在PGRC中不同类别数K的情景下，不同MCID计算方法的RMSE值。最佳临界值法、预测建模法、Cohen's d法和SEM法在各种情景下呈现出，K=7对应的RMSE值普遍小于K=5和3的RMSE值；约登指数最大法、最小变化组平均值法、最小变化组与稳定组平均值差法中，K与RMSE值的关系在各种情景下未呈现出明显的规律或一致的趋势。

3.4 统计性能比较

在临床中，n反映样本量的大小，α^（2）反映治疗的改善程度。因此，可根据n和α^（2）对临床场景进行分类，并在每类场景下对比各方法的RMSE值。基于n和α^（2）划分出的4种临床场景。其中，n=200或500，α^（2）=0代表了治疗无效且大样本的场景；n=200或500，α^（2）=0.2或0.5代表了治疗改善或有效，且大样本的场景；n=50，α^（2）=0代表了治疗无效且小样本的场景；n=50，α^（2）=0.2或0.5代表了治疗改善或有效，且小样本的场景。治疗无效指t₁和t₂时间点PRO得分差异无统计学意义，治疗改善或有效则指有统计学意义。在一个量表条目数J=20、选项类别数M=4、K=7、D=1的模拟数据库中，相同n、β₁、β₂、α^（2）参数组合下，比较各MCID方法的RMSE值。

图5展示了4种临床场景下，不同MCID方法比较结果。在n=200或500，α^（2）=0的临床场景中，SEM法的RMSE中位数最小［1.93（0.71，3.47）］，其次为最小变化组平均值法［4.90（2.76，5.56）］和最小变化组与稳定组平均值差法［5.01（3.45，5.96）］。在n=200或500，α^（2）=0.2或0.5的临床场景中，预测建模法和SEM法的RMSE值普遍较低，M（P25，P75）分别为2.51（1.46，4.41）和1.89（0.73，3.41）。在n=50，α^（2）=0的临床场景中，SEM法的RMSE值的M（P25，P75）为2.67（1.33，4.23）。在n=50，α^（2）=0.2或0.5的临床场景中，SEM法的RMSE值普遍较低，M（P25，P75）为2.62（1.24，4.18）；预测建模法、Cohen's d法在β₁=0.5和β₂=0.3，以及β₁=1和β₂=0的参数组合下RMSE值亦普遍较低，M（P25，P75）分别为4.01（2.78，5.63）和3.99（2.51，5.28）。不同方法的偏倚值（真实MCID值与模拟MCID值差值）和模型MCID值的方差结果与RMSE结果基本一致，详见附件2“模拟实验汇总结果”。

图3 相同参数组合下不同改善程度对MCID方法RMSE值的影响

Figure 3.Influence of varying degrees of improvement on the RMSE of MCID estimation methods under identical parameter settings

注：Min-EDTL. 最佳临界点法；Max. YI. 约登指数最大法；Mean-LCG. 最小变化组平均值法；MLC-MS. 最小变化组与稳定组平均值差法；Pre-Model. 预测建模法。


图4 相同参数组合下不同类别数对MCID方法RMSE值的影响

Figure 4.Influence of different numbers of categories on the RMSE of MCID estimation methods under identical parameter settings

注：Min-EDTL. 最佳临界点法；Max. YI. 约登指数最大法；Mean-LCG. 最小变化组平均值法；MLC-MS. 最小变化组与稳定组平均值差法；Pre-Model. 预测建模法。


图5 相同参数组合下不同MCID方法RMSE值比较

Figure 5.Comparison of RMSE across different MCID estimation methods under identical parameter settings

注：Min-EDTL. 最佳临界点法；Max. YI. 约登指数最大法；Mean-LCG. 最小变化组平均值法；MLC-MS. 最小变化组与稳定组平均值差法；Pre-Model. 预测建模法。


4 实例分析

4.1 背景介绍

术前焦虑是指患者在接受手术前，由于对手术过程、麻醉风险等因素产生的一种紧张、恐惧和担忧的情绪状态［21］。术前焦虑与信息需求量表（Amsterdam Preoperative Anxiety and Information Scale，APAIS）因其简便高效的特点被广泛应用于术前焦虑评估，该量表由Moerman等研究者［22］开发。2025年，Salzmann等研究者［23］基于单中心前瞻性随机对照研究，比较个性化信息干预联合标准麻醉咨询与单纯标准咨询的效果。结果显示，干预组的麻醉及手术相关焦虑评分显著低于对照组，差异具有统计学及临床意义，其MCID分别为1.03分和1.13分。

术前焦虑患者APAIS的MCID值研究的实例分析共包含314名患者，在术前不同时点调查患者的麻醉和手术相关焦虑条目，以及针对麻醉和手术的PGRC（K=7）回答。

4.2 分析结果

表1展示了314名患者麻醉和手术相关条目的得分统计。表2展示了患者在麻醉和手术相关的焦虑方面对PGRC的回答。两个维度中t1和t2时间点比较差异均有统计学意义，且属于大样本。因此，选择预测建模法和SEM法计算MCID值（表3展示了MCID值计算结果）。经计算，预测建模法中，麻醉和手术两个维度的Bias绝对值分别为0.05和0.03；SEM法中，麻醉和手术两个维度的Bias绝对值分别为0.02和0.10。

表格1 患者治疗前后得分统计

Table 1.Statistics of patient scores before and after treatment


表格2 患者在麻醉和手术相关的焦虑方面对PGRC回答

Table 2.Patient responses to the PGRC regarding anesthesia- and surgery-related anxiety


表格3 不同方法计算得到的MCID值

Table 3.MCID values calculated using different methods


5 讨论

本研究通过模拟比较了多种MCID计算方法在不同临床场景下的统计性能，结果显示，在大样本且治疗无效的情境下，最小变化组平均值法、最小变化组与稳定组平均值差法以及SEM方法的RMSE相对较低；在大样本且治疗改善或有效的情境下，预测建模法与SEM方法的表现更佳；在小样本场景中，无论治疗是否有效，SEM方法均表现出较好的稳健性。SEM法主要依赖于量表的信度和标准差，与外部锚点无关，因此受样本量和改善率的影响相对较小，表现出跨场景的稳定性。预测建模法在样本量充足且存在显著分数变化时，能够通过logistic回归有效区分有或无改善的个体，因此在大样本有效场景中更具优势。而均值类锚定法依托“稍微变好”或“稳定”患者群体的分布特征，在治疗无效的情境下与真实MCID值更为接近，因此其主要评价指标RMSE、偏倚值和方差均表现较好。

本研究的模拟结果与既往方法学研究相互印证并有所拓展。Terluin等［24］通过模拟研究发现，在变化分数方差相等且数据分布满足一定条件时，预测建模法与ROC分析法估计的最小重要变化值相比，前者具有更高的精度，表现为更窄的置信区间。本研究在大样本治疗有效场景中同样观察到预测建模法的优异表现，其RMSE中位数仅为2.51，优于多数锚定法，验证了该方法在样本量充足且存在真实变化时的优势。Terluin等［25］进一步发现改善患者比例偏离50%时，最小重要变化估计会出现系统性偏差，并提出了基于预测模型的校正公式。本研究中预测建模法在治疗有效场景下的稳定表现，间接支持了该方法通过纳入变化分数与锚定关系进行校正的合理性。

与上述研究不同的是，本研究引入MPC概念，通过设置β₁和β₂参数控制回忆偏倚的程度。结果显示，在β₁和β₂较高的情境下，即回忆受当前状态影响较大时，锚定法的RMSE普遍升高，而SEM法仍保持稳健。这从模拟角度印证了回忆偏倚对锚定法估计效度的影响机制。此外，本研究发现SEM法在各类场景下均表现稳健，尤其在小样本条件下优势明显。这与Wyrwich等［26］基于经典测量理论提出的“SEM法可作为个体重要变化判断依据”的观点一致，也为分布法在样本受限研究中的应用提供了实证支持。

本研究聚焦于MCID方法的统计性能，而不仅仅是报告估计值的差异。已有文献多从理论或经验角度探讨锚定法与分布法的优缺点，而较少通过大规模模拟系统性比较方法间的准确性与可靠性。本研究结果在一定程度上验证了SEM方法在文献中被认为具有“普适性”的观点，同时也提示预测建模法在特定场景下具有潜在优势。值得注意的是，预测建模法在理论上存在一定的争议，例如其估计逻辑可能被质疑为依赖于总体改善比例，但本研究的模拟结果显示，在大样本且治疗有效时，其RMSE依然优于其他方法。总的来说，临床研究中大样本治疗改善或有效时，SEM法与预测建模法可作为首选，以提高MCID估计的准确性和可靠性；在小样本研究中，SEM方法因其稳健性更值得推荐；在治疗无效的大样本情境下，均值类锚定法仍然具有实用价值。

附件见《药物流行病学杂志》官网附录（https://ywlxbx.whuznhmedj.com/futureApi/storage/appendix/202512063.zip）

利益冲突声明：作者声明本研究不存在任何经济或非经济利益冲突。

参考文献| References

1.Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference[J]. Control Clin Trials, 1989, 10(4): 407-415. DOI: 10.1016/0197-2456(89)90005-6.

2.Ameer B. Patient-reported outcomes: listening for what is most important in clinical care and patient-focused drug development [J]. J Clin Pharmacol, 2021, 61(7): 845-847. DOI: 10.1002/jcph.1867.

3.Crawford LS, Matczak GJ, Moore EM, et al. Patient-centered drug development and the Learning Health System[J]. Learn Health Syst, 2017, 1(3): e10027. DOI: 10.1002/lrh2.10027.

4.King MT. A point of minimal important difference (MID): a critique of terminology and methods[J]. Expert Rev Pharmacoecon Outcomes Res, 2011, 11(2): 171-184. DOI: 10.1586/erp.11.9.

5.Beaton DE, Boers M, Wells GA. Many faces of the minimal clinically important difference (MCID): a literature review and directions for future research[J]. Curr Opin Rheumatol, 2002, 14(2): 109-114. DOI: 10.1097/00002281-200203000-00006.

6.Terwee CB, PeipertE JD, Champman R, et al. Minimal important change (MIC): a conceptual clarification and systematic review of MIC estimates of PROMIS measures[J]. Qual Life Res, 2021, 30(10): 2729-2754. DOI: 10.1007/s11136-021-02925-y.

7.Arciero V, Delos Santos S, Koshy L, et al. Assessment of food and drug administration- and european medicines agency-approved systemic oncology therapies and clinically meaningful improvements in quality of life: a systematic review[J]. JAMA Netw Open, 2021, 4(2): e2033004. DOI: 10.1001/jamanetwo-rkopen.2020.33004.

8.Mcglothlin AE, Lewis RJ. Minimal clinically important difference: defining what really matters to patients[J]. JAMA, 2014, 312(13): 1342-1343. DOI: 10.1001/jama.2014.13128.

9.Zhang HY, Xi X, Huang Y. The anchor design of anchor-based method to determine the minimal clinically important difference: a systematic review[J]. Health Qual Life Outcomes, 2023, 21(1): 74. DOI: 10.1186/s12955-023-02157-3.

10.Devji T, Carrasco-Labra A, Qasim A, et al. Credibility of anchor-based minimal important differences for patient-reported outcomes: instrument development and reliability study[J]. BMJ, 2020, 369: m1714. DOI: 10.1136/bmj.m1714.

11.Kamper SJ, Maher CG, Mackay G. Global rating of change scales: a review of strengths and weaknesses and considerations for design[J]. J Man Manip Ther, 2009, 17(3): 163-670. DOI: 10.1179/jmt.2009.17.3.163.

12.Copay AG, Subach BR, Glassman SD, et al. Understanding the minimum clinically important difference: a review of concepts and methods[J]. Spine J, 2007, 7(5): 541-546. DOI: 10.1016/j.spinee.2007.01.008.

13.Revicki D, Hays RD, Cella D, et al. Recommended methods for determining responsiveness and minimally important differences for patient-reported outcomes[J]. J Clin Epidemiol, 2008, 61(2): 102-109. DOI: 10.1016/j.jclinepi.2007.03.012.

14.Vanier A, Leroy M, Hardouin J B. Toward a rigorous assessment of the statistical performances of methods to estimate the minimal important difference of patient-reported outcomes: a protocol for a large-scale simulation study[J]. Methods, 2022, 204: 396-409. DOI: 10.1016/j.ymeth.2022.02.006.

15.The WHOQOL Group. Development of the World Health Organization WHOQOL-BREF quality of life assessment[J]. Psychol Med, 1998, 28(3): 551-558. DOI: 10.1017/s003329179 8006667.

16.Wang D, Willis DR, Yih Y. The pneumonia severity index: assessment and comparison to popular machine learning classifiers[J]. Int J Med Inform, 2022, 163: 104778. DOI: 10.1016/j.ijmedinf.2022.104778.

17.Francis CY, Morris J, Whorwell PJ. The irritable bowel severity scoring system: a simple method of monitoring irritable bowel syndrome and its progress[J]. Aliment Pharmacol Ther, 1997, 11(2): 395-402. DOI: 10.1046/j.1365-2036.1997.142318000.x.

18.Rector TS, Cohn JN. Assessment of patient outcome with the Minnesota Living with Heart Failure questionnaire: reliability and validity during a randomized, double-blind, placebo-controlled trial of pimobendan[J]. Am Heart J, 1992, 124(4): 1017-1025. DOI: 10.1016/0002-8703(92)90986-6.

19.Cohen J. A power primer[J]. Psychol Bull, 1992, 112(1): 155-159. DOI: 10.1037//0033-2909.112.1.155.

20.Altman DG, Bland JM. Standard deviations and standard errors [J]. BMJ, 2005, 331(7521): 903. DOI: 10.1136/bmj.331.7521.903.

21.Karpecki PM, Nichols KK, Sheppard JD. Addressing excessive evaporation: an unmet need in dry eye disease[J]. Am J Manag Care, 2023, 29(13 Suppl): S239-S247. DOI: 10.37765/ajmc. 2023.89448.

22.Moerman N, Vandam FS, Muller MJ, et al. The amsterdam preoperative anxiety and information scale (APAIS)[J]. Anesth Analg, 1996, 82(3): 445-451. DOI: 10.1097/00000539-199603000-00002.

23.Salzmann S, Kikker L, Tosberg E, et al. Impact of a personalized intervention on preoperative anxiety and determination of the minimal clinically important difference in anxiety levels: a randomized clinical trial[J]. Anesthesiology, 2025, 142(4): 680-691. DOI: 10.1097/aln.0000000000005351.

24.Terluin B, Eekhout I, Terwee CB, et al. Minimal important change (MIC) based on a predictive modeling approach was more precise than MIC based on ROC analysis[J]. J Clin Epidemiol, 2015, 68(12): 1388-1396. DOI: 10.1016/j.jclinepi.2015.03.015.

25.Terluin B, Eekhout I, Terwee CB. The anchor-based minimal important change, based on receiver operating characteristic analysis or predictive modeling, may need to be adjusted for the proportion of improved patients[J]. J Clin Epidemiol, 2017, 83: 90-100. DOI: 10.1016/j.jclinepi.2016.12.015.

26.Wyrwich KW, Tierney WM, Wolinsky FD. Further evidence supporting an SEM-based criterion for identifying meaningful intra-individual changes in health-related quality of life[J]. J Clin Epidemiol, 1999, 52(9): 861-873. DOI: 10.1016/s0895-4356(99)00071-2.