【原创】诊断类临床试验简介（三）

2019-05-09 09:19 阅读数：7414 标签：

诊断类临床试验的特殊情况

有创诊断器械

部分诊断类医疗器械属于有创诊断，如有创颅内压监测仪、有创压力传感器、心内标测电极导管等。这类医疗器械若采用常规的配对设计，临床试验将面临严重的伦理问题。因为不可能对受试者同时使用两种有创诊断仪器进行临床试验，因此配对设计是不可行的。若这类医疗器械进行临床试验，则需要通过分析检测结果与疾病预后、诊断、治疗之间的关系，以便对产品的安全性和有效性进行论述。

比如，若要评价有创颅内压监测仪的产品安全性和有效性，可分析监测结果与疾病症状之间的相关性。当颅内压升高或降低时，患者是否也出现了与之对应的症状。若存在这类相关性，则有理由认为检测结果是可靠的。当然，这类有创诊断类医疗器械的非临床数据对佐证产品的安全性和有效性也是十分重要的。

再如，若要评价有创血压监测仪的产品安全性和有效性，可同时对同一受试者进行有创和无创血压监测。通过比较同一检测时点的有创和无创血压值的相关性对有创血压监测仪进行评价。

影像类诊断器械

影像类诊断器械是比较特殊的一类诊断类医疗器械，此类诊断器械的结果往往是图像，而并不是某一个具体的数值或结果，对其安全性和有效性的评价并不能采用常规的定量或定性评价指标。影像类诊断器械的评价指标往往都是“图像质量优良率”，因为提供清晰的图像是这类器械发挥正常作用的关键。由于“图像质量优良率”判断带有很明显的人为主观因素影响，此类诊断器械进行临床试验时一般都会采用第三方盲态阅片的方式对图像质量进行客观评价。

影像类诊断器械也分为有创或无创，有创影像类诊断器械包括X射线机、CT、CBCT、支气管镜、冠状动脉OCT等。无创影像类诊断包括超声类设备、眼科OCT、皮肤镜等。对于有创影像类诊断器械从伦理角度考虑，一般采用单组目标值法，而对于无创影像类诊断器械一般采用配对设计。

若影像类诊断器械为大型医疗器械，如磁共振成像仪。从临床试验可行性角度出发，也可以采用单组目标值法。

创新类诊断器械

创新类诊断器械进行临床试验时最大的问题在于“金标准”不存在，无法从客观角度上判断器械的诊断结果是否正确。如，新型定量肿瘤标记物检测试剂盒、新型呼吸道OCT诊断设备、新型血管内皮功能检测仪。创新类诊断器械临床试验的解决策略主要可以从以下几方面考虑：

第一，若定量结果可以转换为定性结果，而定性结果有“金标准”时。此时可以分析定性结果与“金标准”相比性时的灵敏度和特异度，当从临床角度认为灵敏度和特异度是可接受时，则该产品的安全性和有效性得到初步验证。对于其定量结果，可以采用临床随访的方式观察定量数值变化与疾病转归之间的关系。

第二，对于创新的影像类诊断器械，则可以采用单组目标值法，以“图像质量优良率”为评价指标。但需要考虑是否有专家会识别创新影像类诊断器械的图像质量。若没有人可以识别图像，则无法判断影像结果的临床价值，所以这类产品的前期研究十分重要。当然，若创新影像类诊断器械与某些已上市影像类诊断器械在图像结果上存在某种关联性，则可以采用已上市影像类诊断器械作为参考器械。

第三，某些创新类诊断器械虽然没有同类产品，也没有“金标准”，但它的检测结果与某些已上市诊断器械的结果存在关联性时，此时可以对这种关联性进行临床试验，若最终验证指标之间存在关联性，且这种关联性具是有临床意义时，则可认为该创新诊断器械是有临床价值的。如，采用PAV法测量血管内皮功能的检测仪器是创新器械，但已有采用血流介导的血管舒张功能原理的已上市器械。二者的检测结果虽然不同，但其内在含义和数值上存在相关性。临床试验就可以以验证这种相关性作为试验目的。

第四，对于定性结果创新类诊断器械，主要验证的是各个分类之间的临床结局、临床预后、临床效果等之间是否存在统计学差异和临床意义。如，用于评价流产风险的产品，其将流产风险分为高、中、低水平。可通过随访不同分类间的流产率，以分析不同分类间的流产率是否存在统计学差异来评价产品的临床价值。

多分类诊断器械

多数定性诊断器械出具的诊断结果是二分类，如阳性或阴性。但有一些定性诊断器械出具的诊断结果是多分类，如轻度非增生型DR、中度非增生型DR、重度非增生型DR、增生型DR。对于多分类诊断器械，在样本量计算时，理论上需要根据每一种分类的灵敏度和特异度计算样本量，从而使每一个分类上都会有阳性病例数和阴性病例数。因此分类数越多，总样本量就越多。

对于这类多分类诊断器械，其实只需计算阳性病例数和理论上最大的阴性病例数，只要总的阳性病例数大于理论最大阴性病例数即可。因为当以某一分类为研究对象时，其他分类的患者可以作为阴性病例。当然为了合理评价多分类诊断器械的临床价值，还应根据目标疾病的流行病学特征有意的纳入干扰样本。

此外，对于多数定性诊断器械还有一种特殊情况，即虽然诊断结果是多分类的，但产品只是宣称了总体的灵敏度和特异度，并不强调各个分类的灵敏度和特异度。虽然此时样本量计算只能依据总体的灵敏度和特异度，但为每一个分类分配样本量时应考虑流行病学特征、检验效能等问题。

强调单一分类（阳性）诊断器械

某些定性诊断器械只强调对单一分类的诊断性能，如某些AI软件强调对阳性肺结节的检出率。当对有阳性肺结节的CT片进行判读时，其检出率很高，而对没有阳性肺结节的CT片进行判读时，其误诊的可能性会增加。此类产品进行临床试验时，更多的应从产品定位的角度出发。若只是强调肺结节的检出率，那么入组患者则都是存在肺结节的患者，而产品最终的临床适用范围可能就会被限定在“肺结节的辅助诊断”，而不是“肺疾病的辅助诊断”，产品的禁忌症上可能会增加“禁止用于不存在肺结节的患者”。但这样的适用范围对产品是否有临床价值就需要企业进行深入的思考，因为在真实的临床应用环境中，产品会遇到各种各样的情况，各种各样的分类。

对精密度的评价

诊断类医疗器械除了保证诊断结果准确外，还需要确保诊断结果的稳定性。即对同一受试者同一时刻的多个样本进行检测时，其检测结果是否一致。企业在对产品进行临床试验，应该考虑是否要加入精密度的评价，以便更加全面的评价产品的性能。

样本量

定性指标样本量计算

抽样调查公式

单组目标值

如果要求诊断设备的灵敏度和特异度需要达到某一标准（即目标值），考虑使用单组目标值法计算样本量。

设定参数单侧α=0.025，power=0.8，考核设备灵敏度目标值为95%，根据预试验结果，预期本试验灵敏度可达到98%，则估计最低阳性样本量为：

同理可以计算阴性样本量。

预期筛选样本量

定量指标样本量计算

定量诊断设备的临床试验通常是验证考核设备检测数值的准确程度，评价时考虑使用回归系数、线性回归、Bland-Altman图等方法。这类临床试验大多数情况下采用配对设计，且评价的标准与等效性检验有相似之处，故考虑采用配对设计、等效性检验的方法计算样本量。等效界值是判断需要在方案设计时由临床专家确定，是临床上能接受的考核、参比设备检测值的最大差值。设定参数单侧α=0.025，power=0.9，等效界值为0.1，考核、参比设备差值均值为0，差值标准差为0.2，采用PASS软件计算得样本量为54例。在统计分析时，两设备差值的95%置信区间在范围（-0.1,0.1）内可以认为两设备检测值等效，否则不等效。

作者：广州奥咨达医疗器械技术股份有限公司临床研究事业部

专题回顾

【原创】诊断类临床试验简介（一）

【原创】诊断类临床试验简介（二）