【原创】诊断类临床试验简介（二）

2019-05-08 10:39 阅读数：5653 标签：

诊断类临床试验的关键要点

定性还是定量

在设计诊断类临床试验前，首先需要弄清楚的问题是申报产品是属于定性诊断还是定量诊断。若申报产品既可以定性诊断，也可以定量诊断时，则要分清楚是以哪一种情况为准。因为不同的诊断类型对研究目的、评价指标、“金标准”的选择等都会有重大影响。

此处的定性诊断指的是申报产品的最终结果是以分类结果形式出具，如“有病/无病”、“轻/中/重”等；而定量诊断指的是申报产品的最终结果是以连续性数值变量出现，如血压计的mmHg、肺结节的直径、血氧饱和度等，定量诊断结果一般是有计量单位的。

需要指出的是，在有“分界点”条件下，定量结果可以转换为定性结果，如收缩压大于140mmHg和/或舒张压大于90mmHg时（分界点），可以将患者分为高血压和非高血压。

配对设计

绝大多数诊断类临床试验是采用配对设计。即如上所述，同一名受试者或同一份样本分别由申报产品或“金标准”进行测量，然后比较两者之间的差异，以此来判断申报产品的“正确”或“准确”。这是由于这类产品本身的特性所决定的，只有配对设计才是评价诊断类医疗器械最佳的设计类型。然而对于有创诊断，配对设计常常存在伦理问题，对于这类特殊情况，我们在下文进行论述。

“金标准”

诊断类临床试验是判断申报产品最终诊断结果是否正确/准确，因此“金标准”对结果判断至关重要。“金标准”就好比标准参考答案，如果“金标准”选择错误，无论临床试验怎么做都不可能科学地判断申报产品的价值。“金标准”是指在现有条件下，公认的、可靠的、权威的诊断方法。临床上常用的“金标准”有组织病理学检查、影像学检查、病原体分离培养鉴定、长期随访所得的结论及临床常用的其他确认方法等。

一般而言“金标准”的研究成本是比较高的，如近期比较热门的AI诊断类产品，为判断AI诊断结果是否准确，最佳的“金标准”是临床医生的判读结果，而临床医生的人工成本是比较高的。为避免选择“金标准”造成的高研究成本，在有同类产品的情况下，可以选择经“金标准”校准的同类产品代替“金标准”。如选择经有创血氧法验证的无创血氧仪作为标准器械，以验证拟申报的无血氧仪检测结果准确性。

疾病谱的覆盖

诊断类医疗器械主要是用于疾病的诊断，在验证诊断类医疗器械是否有临床价值时，需要对它分辨和检测疾病的能力进行判断。由于在实际的诊疗过程中，诊断类医疗器械除了要有能力发现“病人”外，还需要具有排除“非病人”的能力。因此，临床试验过程中除了入选阳性病例外，更为重要的是入选阴性病例，特别是易于与阳性病例混淆的疾病，只有这样才能更多客观的评价产品的临床价值。

如产品宣称可以用于诊断糖尿病视网膜病变，那么受试者除了要纳入糖网患者外，还需要纳入其他眼底疾病患者；又如验证血压计时，除需纳入高血压患者外，还要纳入血压偏低的患者。此外，疾病谱的覆盖范围需要与产品的预期使用范围相匹配，如果产品宣称用于“肺结节”的良恶性判断，则疾病谱应覆盖各种存在“肺结节”体征的患者；如果产品宣称对于“肺CT片的辅助诊断”，则疾病谱应覆盖各种肺部疾病患者。由此可见，产品在研发初期就应明确产品的预期使用范围，如果产品的预期使用范围超过了产品的诊断能力，反而无法体现出产品的临床价值。

在日常工作，我们发现部分注册申请人在进行诊断类器械临床试验时常常忽视阴性病例的选择。如某肿瘤标记物检测试剂盒进行临床试验时，注册申请人选择健康人，或纳入很多健康人作为阴性病例。这样做的结果将导致阴性病例的疾病谱分布与实际情况产生严重偏差，从而导致特异度被高估。因此选择阴性病例时，最重要的是要纳入一定量的干扰样本，这样才能合理的评价产品的临床价值。

诊断类临床试验的评价指标

如上所述。诊断类医疗器械主要分为定性诊断和定量诊断两大类，每一类都有自己的评价指标，每一个评价指标都有其内在含义。下面就对定性和定量诊断常见的几个指标进行介绍。

定性指标

灵敏度，指的是实际有病（或存在某物质）而按申报器械的标准被正确地判为有病（或存在某物质）的百分比。它反应申报器械发现病人（或存在某物质）的能力。例如，有100个已经被医生诊断为糖网患者使用申报器械进行判断，结果正确判断出90个患者患有糖网，那么该申报器械的灵敏度是90%。需要说明的是，灵敏度是申报产品的内在属性，它的检测结果高低并不会随着患者数量的增加而发生改变，它只与申报产品的检测能力有关，检测能力越强，灵敏度也就越高。灵敏度计算的前提是需要有已经被“金标准”诊断为阳性的患者存在，这也再次说明了“金标准”选择的重要性。

特异度，指的是实际无病（或不存在某物质）而按申报器械的标准被正确地判为无病（或不存在某物质）的百分比。它反映申报器械发现非病人（或不存在某物质）的能力。例如，有100个已经被医生诊断为未患有糖网的患者使用申报器械进行判断，结果正确判断出90个患者未患有糖网，那么该申报器械的特异度是90%。它与灵敏度类似，它是申报产品的内在属性，也需要有已经被“金标准”诊断为阴性的患者存在，它的计算结果高低与灵敏度不存在关联性。灵敏度和特异度是评价申报产品诊断价值的核心基础指标。

符合率，指的是申报器械判定的结果与标准诊断（如同类器械、“金标准”）的结果相同的数占总受检人数的比例。例如，有100个已经被医生诊断为糖网患者（阳性）和有100个已经被医生诊断为不存在糖网的患者（阴性）使用申报器械进行判断，阳性患者正确判断出90个，阴性患者正确判断出90个，那么该申报器械的符合率是90%。符合率也是申报产品的内在属性，它的计算结果高低与灵敏度和特异度存在关联性，灵敏度和特异度越高，它的计算结果也越高。

阳性预测值，指的是申报器械检出的全部阳性例数中，真正“有病”的例数所占的比例，反映申报器械结果阳性者患目标疾病的可能性。阳性预测值是一个比较特殊的指标，它的高低并不完全取决于申报器械本身，还与目标人群的患病率密切相关。一般来说，越灵敏的器械，其阴性预测值越高；反之特异度越高的器械，其阳性预测值越高。不同临床情况下，患病率有时相差甚大。这也就解释了为什么临床试验中的阳性预测值较高，但实际应用过程中阳性预测值却很低。例如，在糖网诊断软件临床试验中，分别纳入100例阳性患者和阴性患者，在该临床试验中糖网的患病率是50%，假定软件的灵敏度和特异度都是90%，则阳性预测值是90%。而当纳入230例阳性患者，770例阴性患者时，在该临床试验中糖网的患病率是23%，假定软件的灵敏度和特异度还是90%，阳性预测值则下降为72.89%。阳性预测值的计算公式如下：

阴性预测值，指的是申报器械检出的全部阴性例数中，真正“无病”的例数所占的比例，反映申报器械结果阴性者不患目标疾病的可能性。该指标与阳性预测值类似，计算结果的高低与目标人群的患病率密切相关。例如，在糖网诊断软件临床试验中，分别纳入100例阳性患者和阴性患者，在该临床试验中糖网的患病率是50%，假定软件的灵敏度和特异度都是90%，阴性预测值是90%。而当纳入230例阳性患者，770例阴性患者时，在该临床试验中糖网的患病率是23%，假定软件的灵敏度和特异度还是90%，阴性预测值则上升为96.79%。阴性预测值的计算公式如下：

由此可知：第一，不考虑患病率的影响，单纯讨论预测值的高低是没有意义的；第二，在高危人群中使用诊断器械比在普通人群中使用诊断器械更有临床价值；第三，不能为了追求宽泛的适用范围而不顾患病率，会对临床诊断结果的正确性造成影响；第四，申报器械用于普通人群还是高危人群主要是从诊断结果对疾病管理是否有临床价值进行考虑。例如，HIV诊断试剂盒的灵敏度和特异度都非常高，但普通人群的HIV患病率其实非常低，其阳性预测值也非常低，因此发现1例患者所需要的筛选成本会急剧上升，故HIV诊断试剂盒并不适应于普通人群。

其他定性指标还有Kappa值、阳性似然比、阴性似然比、正确指数等，这些指标的含义读者可以自行查询资料了解。

需要说明的是，配对卡方检验的意义仅用于比较两种方法阳性率是否存在差异，而不是比较两种方法是否一致。。如果要比较两种检测方法的一致性，应进行Kappa一致性分析。

定量指标

离群点，用以判断某一个检测结果异常的情况。理论上，如果两个医疗器械的检测结果是一致的或十分接近的，则两者的结果之间的差值应是在0附近细微波动。如果有个别测量结果之间的差值超过一定的允许界限时，该点就是离群点。如果离群点的占比大于允许的比例时，则说明检测结果不稳定。

回归直线方程。将两个医疗器械的检测结果绘制在直线坐标轴上时，会形成检测结果散点图。理论上，当两个医疗器械的检测结果是一致或十分接近时，散点图呈直线分布，当斜率b接近1，截距a接近0。

Pearson相关系数。分析两个医疗器械间是否确有直线相关关系。相关系数没有单位，其值为-1≤r≤1。r值为正表示正相关；r值为负表示负相关；r的绝对值等于1为完全相关；Pearson相关系数越接近1，两定量资料线性相关关系越密切，但并不代表二者的一致性越好。

Bland-Altman图。以对同一样本申报器械与“金标准”检测结果的均值为X，检测结果的差值或差值百分比为Y轴作散点图，并标注申报器械与“金标准”检测结果的差值或差值百分比的均值、一致性界限。

需要说明的是，上述指标只是对定量结果某一方面进行评价，并不能覆盖定量结果的各各方面。如，离群点只是发现是否有异常结果，不能评价结果是否一致及相关性；只有当两结果之间存在明显的直线关系，采用回归直线方程才可以拟合出合适的直线方程，才可判断两结果之间的一致性。但如果两者之间直线关系（如曲线关系）不显著时，即便强行进行直线拟合，但拟合出的直线对判断两结果之间的一致性是没有意义的。而Pearson相关系数用于判断两结果之间是否存在直线相关，而不能判断两者之间的结果是否是一一对应的，如当直线方程为y=x和y=2x时，Pearson相关系数都是1，但两者的斜率不一样，不能说明y与x的测量结果一致。

此外，配对t检测只能说明两组的差异是否有统计学意义，并不能说明两者的结果是否一致的。下表中两器械的测量结果，配对t检验显示差异无统计学意义，p=1，但二者的测量结果显然是不一致的。

Cut-off值

对于定量诊断试验，若诊断结果存在一个区分阴阳性的临界点（cut-off值）时，则可以将定量结果转换为定性结果。如收缩压大于140mmHg和/或舒张压大于90mmHg时（分界点），可以将患者分为高血压和非高血压。由于cut-off值是划分阴阳性的关键点，它对随后的灵敏度和特异度有直接影响。理论上，最佳的cut-off值是灵敏度和特异度最接近100%时。

临床实践中可通过以下途径选择cut-off值：一是，可利用受试者工作曲线（Receiver Operating Characteristic Curve，简称ROC曲线）寻找合适的cut-off值，以避免过多的假阳性和假阴性；二是，根据临床需要或临床指南设置cut-off值，如高血压诊断标准、糖尿病诊断标准等。

由于cut-off值是划分阴阳性的关键点，但检测结果在cut-off值附近的波动性过大时，可能会影响到最终的试验结果。因此，有必要对cut-off值（医学决定水平处）偏倚进行统计学检验，观察差别是否有统计学意义。

作者：广州奥咨达医疗器械技术股份有限公司临床研究事业部

专题回顾

【原创】诊断类临床试验简介（一）