【原创】细说人工智能科技

2018-11-07 09:30 阅读数：6519 标签：

什么是人工智能

人工智能（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。

人工智能主要是基于一系列的统计算法对数据进行处理，包括主成分分析、独立成分分析、偏最小二乘、线性判别分析、支持向量机、K-均值聚类、K最近邻分类算法等，以及采用这些基本算法所进行的算法扩展[1]。

目前，人工智能分为弱人工智能、强人工智能及超级智能。弱人工智能只不过看起来像是智能的，但并不真正拥有智能，也不会有自主意识，只是帮助人类完成某些任务的工具或助理[2]。

强人工智能是基于心智的计算模型，以通用数字计算机为载体的AI程序可以像人类一样认知和思考，达到或者超过人类智能水平。强人工智能分为两类：①类人的人工智能，即机器的思考和推理像人的思维一样；②非类人的人工智能，即机器与人有完全不一样的知觉、意识及推理方式。而强人工智能的研究仍然在不断探索中[2]。

在目前的医疗器械领域，人工智能主要是通过机器获取相应的数据，然后对数据进行优化处理并进行分析，最终得出定性或定量的结论。比如，用于诊断的医生专家系统可以得出患者是否患者有某种疾病的结论；用于肿瘤放射计划的自动计算系统可以根据患者肿瘤大小设置合理的放射剂量。

因此，目前的医疗器械所使用的人工智能为弱人工智能，它只能根据已经给定的判断规则对既定的数据进行分析处理。当遇到新的突发情况或超出人工智能的计算范围时，它的结果就会出现错误。

人工智能机器学习理论主要包括监督学习和非监督学习两大类，以及它们的结合，两者的主要区别在于是否需要训练集。

监督学习利用已知类别的样本集（训练集）调整分类器的参数，使其达到所要求性能。非监督学习不需要训练集，而是根据样本间的相似性寻找样本集的规律，对样本集进行分类（例如聚类），分类的依据是类内差距的最小化和类间差距的最大化。上述两种方法在医疗器械中都有广泛应用[1]。

人工智能在医学中的发展历史

早在1954年，美国的钱家其已将计算机应用于放射治疗，计算剂量分布和制定治疗计划；1959年，美国的Ledley等首次将数学模型引入临床医学，提出了可将布尔代数和Bayes定理作为计算机诊断的数学模型，并以此诊断了一组肺癌病例，开创了计算机辅助诊断的先例；1966年，Ledley首次提出“计算机辅助诊断”（computer aided diagnosis，CAD），形成了计量医学；1976年，美国斯坦福大学的Shortliffe等研制成功了著名的用于鉴别细菌感染及治疗的医学专家系统———MYCIN，建立了一整套专家系统的开发理论；1982年，美国匹兹堡大学的Miller等发表了著名的Internist-I内科计算机辅助诊断系统，其知识库中包含了572种疾病，约4500种症状；1991年美国哈佛医学院Barnett等开发的“解释”软件，包含有2200种疾病和5000种症状。由此可见，人工智能其实很早以前就应用于医学领域，但由于理论算法以及相关政策的滞后，人工智能在医学领域的发展一直处于自我生长阶段。

但随着人工智能应用范围越来越广泛、新的理论算法的不断提出、技术的不断提高人工智能越来越受到重视。在2015年5月我国提出《中国制造2025》，2016年5月提出的《“互联网＋”人工智能三年行动实施方案》，以及2017年11月在北京召开“新一代人工智能发展规划暨重大科技项目”启动会，这些都标志着新一代AI发展规划和重大科技项目进入了全面启动实施阶段。2017年12月我国工业和信息化部提出了《促进新一代人工智能产业发展三年行动计划（2018―2020年）》，明确指出对医疗影像辅助诊断系统的具体要求。

因此，随着国家政策的利好，技术的不断革新，人工智能在医学领域的应用也成为大家关注的重点，越来越多的IT企业开始利用自身技术优势与临床医生一起探讨人工智能在医学领域的应用。本文主要是对人工智能所涉及的相关问题进行讨论，希望能抛砖引玉引发大家的深度思考。

人工智能在医学领域的应用

目前人工智能在医学领域的应用场景多种多样，主要的应用场景为：“需要重复学习才能掌握的技术，且诊疗技术已经固定的医疗情景”。其目的主要是减少医生的重复劳动。但总体上可以分为以下几大类：

疾病诊断：人工智能在疾病诊断中的应用主要表现在医疗专家系统，它主要通过让机器学习海量的医学数据和专业知识，模拟医生的思维的诊断方式，综可以让人工智能具备医生的诊断能力。

健康管理：通过对患者的医疗健康大数据的收集，对患者的日常生活习惯以及用药行为进行监测，将收集到的数据交给人工智能进行计算，从而对患者的健康进行管理。比如，人工智能可以在血糖管理、血压管理、用药提醒等方面给予精准的指导。但收集患者的健康数据需要搭配特定的硬件设备，这样才可能更加准确的采集数据。

图像分析：图像分析类人工智能是目前比较火热的领域。其主要特点是对特定的图像进行分析，从而分析出图像所包括的信息，以提示读片的准确性，降低读片误差。比如，用于分析眼底病变、阳性肺结节、病理切片。这类产品根据最终的诊断结论分为两大类：一类是只对图像进行分析不给出明确的诊断意见。如，仅对肺结节的大小进行测量，数据仅供研究者诊断时参考，对患者是否需要进一步转诊不提供意见；另一类是对图像进行分析从而给出诊断意见。如对眼病病变进行分析，根据分析结果判断患者是否需要进一步转诊治疗。根据新版《医疗器械分类目录》，前一种情形为II类医疗器械，后一种情形为III类医疗器械。

手术引导：人工智能在手术引导中最常见的应用是各类导航系统，如牙科种植体导航系统、骨科导航系统、达芬奇手术机器人、放疗导航系统。这类人工智能产品常常软硬件配合使用，两者缺一不可。通过软件对手术进行规划，然后诊疗计划交由硬件进行执行，最后软件再对硬件执行结果进行确认。

诊疗规划：这类产品常见的是放射治疗计划、肿瘤用药管理等。它主要是根据已经获得的临床数据，对患者的治疗方案进行合理的规划，以指导临床医生用药，减少用药过程的毒副反应。

虽然目前人工智能可以大体上分为以上几大类，但需要认识到这几类人工智能并不是独立存在的，它们有时是相互联合，共同发挥临床用途。比如一些健康管理系统不仅可以用患者的健康数据进行管理，同时还会提出诊疗意见。而一些手术引导类产品除了可以在手术过程中使用外，还可以对图像进行分析。因此，我们可以看到人工智能在医学领域的应用还是很广泛的，不仅仅限于软件，有时它还需要与硬件相关结合。

人工智能目前存在的问题

虽然人工智能在医学领域的应用越来越多，但我们应该清楚的认识到这些产品还存在一些不成熟的地方，正是这些不成熟可能会影响人工智能未来在医学领域的应用。技术开发人员应对这些问题有一个合理的认识，这样才能对产品的开发做到心中有数，避免存在夸大和误判产品技术水平的情况。

人工智能目前存在的问题主要是以下几大类。

1. 数据质量

人工智能的研发是基于大量的诊疗数据，数据质量直接决定了产品开发以及它的结果运算。虽然每天都有大量的医疗数据产生，但医疗数据并不见得是可以使用的。例如，对一个疾病，不同医生可能受制于自己水平所限，可能会存在漏诊和误诊的情况。如果医生对患者是否存在眼底病变都不能做出正确的判断，又怎么能期待基于此类数据所研发的产品也能做出正确的判断呢？如果产品研发阶段没有对数据质量进行识别，一味的追求大数据，可能会导致数据库的数据质量不高，甚至出现错误的地方，进而最终影响产品的结果输出。因此，人工智能追求大数据的前提是大数据质量可靠，没有质量保障的大数据没有实际意义，反而会让产品越来越糟糕。

目前绝大多数人工智能类产品利用已知类别的样本集（训练集）调整分类器的参数，使其达到所要求性能。此时，训练数据集的质量直接关系到产品最终的整体性能。可以试想，如果一开始的“老师”都存在问题，那么它教出来的“学生”也会存在问题，即便训练数据集采用大数据也可能很难纠正质量问题。目前企业研发人工智能类产品都是使用已经标记好的数据进行建模，而这些标记好的数据一般是医院既往的临床数据。但我们需要清楚的认识到，临床诊疗过程中总是存在漏诊和误诊的，如果只是一味追求大数据而不鉴别数据的质量，这些错误的数据会纳入到训练数据集中，可能会对算法模型产生灾难性的后果。特别是当数据来自于一些诊疗条件较差的医疗机构时，这种问题可能就愈加明显。

2. 数据标准化

医院所产品的诊疗数据大体分为两大类，一类是定量数据，一类是定性数据。所谓定量数据指的是有具体数值和单位的数据，比如身高、体重、血压、血氧饱和度等等。这类数据容易量化、容易计算。所谓定性数据指的是对患者症状、体征、诊断、治疗、预后等的一系列文字性描述，相对定量数据，其描述过程具有较大的自由度，不同的医生对同一情况可能会存在不同种说法。对于人工智能开发，定性数据的标准化是很大的难点，因为目前的人工智能对于识别自然语言还是不及人脑，有时定性数据的标准化还需要人脑的协助。但如果都采用人脑识别自然语言其工作量可想而知，因此未来如果人工智能要有长足的发展，医疗数据的标准化是一个极其重要的基础工程，需要花费大量的人力物力进行建设。

3. 数据采集硬件存在差别

诊疗数据有时需要基于一定的硬件设备才能采集，比如血压计、CT影像设备、心电图、血液成分分析仪等等。由于每家硬件设备生产商的技术路线、原材料、质量控制、器械原理等各不相同。所以同一类数据由于采样设备的不同，可能其内部会存在系统误差，而采用这种存在系统误差的诊疗数据进行产品开发可能会导致结果出现难以解释的混乱。比如，同为血压值，水银血压计测量出的结果可能与电子血压计的测量结果存在系统误差。不同名牌的眼底镜所拍摄的眼底图像质量可能是存在差别的。真实的医疗环境中，每个医疗机构的医疗设备都不可能是一样的，这就为人工智能产品的硬件适配性带来了很大的挑战。

4. 患者隐私信息的保护

目前的人工智能产品都逐渐采用云平台和云计算的数据管理方式。此时患者数据的储存和分析都在医院的监控范围之外，如何保证这些数据的安全以及不被非法利用是人工智能产品在未来需要首要解决的合法性问题，只有过程的合法，才能保证结果的合法。

5. 法规监管不完善

目前中国还没有专门针对人工智能产品的法规，特别是针对机器学习、神经网络模型等这种新技术、新方法，以及应用在自动诊断、药物管理等产品。类似的法规只有《医疗器械软件注册技术审查指导原则》和《医学图像存储传输软件（PACS）注册技术审查指导原则》，但这两份指导原则无法应对目前人工智能产品申报注册所面临的一系列挑战。而FDA相关的法规也只有《Clinical PerformanceAssessment:Considerations for Computer-Assisted Detection Devices Applied toRadiology Images and Radiology Device Data -Premarket Approval (PMA) andPremarket Notification [510(k)] Submissions》和《Computer-AssistedDetection Devices Applied to Radiology Images and Radiology Device Data – Premarket Notification [510(k)] Submissions》这两份指导原则也仅仅只能作为类似产品的参考。配套监管法规的缺失，给这类产品的注册检测和临床试验都带来了不小的挑战。使用这类产品的申报注册存在一定的不确定性，因此企业在研发这类产品时应对法规变化有充分的心理预期。

6. 软件的更新迭代

一般从事人工智能医学产品研发的企业以前绝大多数是从事IT开发的。对于IT类产品，其软件的更新迭代是非常快而且频繁的。但人工智能产品用于诊疗后，其更新迭代就成为需要考虑的问题。诊疗产品最关键的首要问题不是算法创新、算法优化、界面美观、使用体验，它最再意的是准确性。它计算结果的准确性可能会影响医生后面的诊疗措施，一旦出现错误可能是难以挽回的。可以预测，审评机构对产品的迭代更新是非常重视的，每一次软件迭代更新，特别是核心算法的迭代更新都将是产品的许可变更事项，都有可能导致需要重新评估产品的风险受益比。

此外，有些人工智能产品随着其计算数据量的不断提升，其算法的准确性可能会不断改变，这种改变是正向的还是负向的可能不得而知。特别是，如果产品上市后，其算法的准确性会随着应用数据量不断增加而发生变化时，审评机构可能会要求企业定期提交产品相关数据，以评估这种变化对产品的风险受益比的影响。因此，企业应做好产品的上市后研究结果的收集，以备不时之需。

7. 医学伦理问题

人工智能类产品主要涉及疾病诊断、健康管理、图像分析、手术引导、诊疗规划。但人工智能是否可以真的替代医生，谁将对其诊疗结果承担法规责任，如果是算法出现问题人工智能研发公司是否要承担全部责任；如果医生依靠人工智能出现诊疗错误，医生应该承担什么的责任；这将是需要讨论的问题。根据目前的情况，显然人工智能研发公司是不太可能对人工智能的诊疗结果承担全部责任，目前的人工智能只是辅助医生进行诊疗，最终的诊疗结果还是应由医生做出。但人工智能的“误导”可能成为医院与企业未来的纠纷点。

8. 商业模式的选择

企业研发人工智能产品需要获得盈利才可持续发展。人工智能需要相关人士对其产品的目标用户、付费模式、关系渠道等不断的摸索和探寻。当诊疗过程是由人工智能参与时，诊疗费用如何收取，医生在这个过程中因获得多少报酬，企业又能获得多少利润。如果人工智能只是单纯增加诊疗费用，其技术优势可能无法发挥出现。只有形成了可盈利的商业模式，才能真正走到社会中，实现它的价值。

人工智能产品的临床验证

目前图像分析类人工智能产品逐渐火热，其主要原因可能是：①图像类人工智能产品所处理的数据相对单一，一般只对图像数据进行处理和分析；②图像类人工智能产品对硬件的要求相对不高，并不需要像手术导航系统一样，需要与专门的硬件进行配合使用；③图像类人工智能产品的算法成熟，它的算法已经很早被应用于人脸识别等日常的图像识别中；④临床诊疗过程中，对图像分析的需求量巨大，CT、MRI、眼底照片、病理切片等都可以进行人工智能图像分析。

鉴于目前图像分析类人工智能产品开始越来越多的进行临床试验，本文就对这类人工智能产品进行分析论述，希望可以引发大家对这类产品临床试验设计的思考。

人工智能产品的本质

常规条件下，医生读片存在一些难以避免的问题。如，①由于人在判断结果时，常常受环境、工作压力、经验等的影响。读片结果不够精确，特别是对于小病灶数量、长度、体积、颜色、性状等；②医生在判断图像时易产生疲劳，随着疲劳的加深，出错的概率也不断增加。这是人工判读相对于人工智能最大的劣势；③熟练的图像判读医生需要长时间的培养，而人工智能由于不存在疲劳，其学习能力是非常强大的。

图像分析主要目的是为医生提供辅助诊断结果，而人工智能图像分析类产品主要就是解决上述问题，为医生提供更好的诊疗服务，保证辅助诊断结果的可靠性。因此，虽然目前人工智能图像分析类产品各种各样，但如果将其各种预期用途简化，其本质就是“诊断产品”。那么临床试验设计思路就需要按诊断试验的方法进行，而诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。

设计类型

对于诊断类临床试验，常用的设计类型一般是配对设计、同步盲法比对、横断面研究。

所谓配对设计是指将受试对象按照某些重要特征（如性别等可疑混杂因素）配成对子，再将每对中的两个受试对象随机分配到两处理组。对于诊断试验，其配成的对子是同一受试者的两幅相同的医学图像，这两幅医学图像分别由人工智能与“金标准”或参考方法对其进行分析。

同步盲法比对是指两幅医学图像各自独立的由人工智能与“金标准”或参考方法对其进行分析。由于图像分析存在一定的人为主观性，为避免这种主观性，两者在进行图像分析时互不讨论结果，各自独立的作出最终判断。其主要目的是保证结果的客观独立，这样才能保证结果的可靠。

横断面研究是指通过对特定时点（或期间）和特定范围内人群中的有关变量与疾病或健康的状况关系的描述。由于诊断试验仅仅只是对试验那一刻的情况进行分析，极少存在临床随访的情况，一般而言绝大多数诊断试验是横断面研究。但对于一些全新的诊断项目，由于没有可靠的方法对其诊断准确性进行判断，此时全新的诊断项目的临床价值就需要通过长期的临床随访进行验证，以分析诊断结果与临床结局之间的相关性。当然由于人工智能产品主要的应用场景为：“需要重复学习才能掌握的技术，且诊疗技术已经固定的医疗情景”。这种情况较少出现。

定量还是定性诊断

在进行诊断试验设计前，企业首先要明确的问题的产品属于定量诊断还是定性诊断。

所谓定量诊断就是：产品主要是用于测量图像中靶病灶的相关参数，比如数量、长度、体积等。其特点是：这些指标的数值都是连续性变量、基本上是有单位的。

所谓定性诊断就是：产品主要是根据图像分析结果对疾病、诊断、预后进行分类，如是否有患病、是否需要转诊、是否需要干预等。其特点是：这些指标都是分类变量、基本上没有单位、常常计算其比例。

需要说明的是：在某些条件下，定量指标是可以转换为定性指标。如，以1cm为分界点（cutoff值），当CT图像中发现大于1cm的结节时可认为存在“阳性”结节，当CT图像中发现小于1cm的结节时可认为存在“阴性”结节。此时根据分界点就可以将定量指标转换为定性指标。

由于定量和定性诊断的评价指标并不一样，评价的重点也不一样，特别是对于即可以定量也可以定性诊断的产品。此时，企业需要考虑该产品的侧重点在定量还定性。建议企业根据产品的适应证或适用范围进行取舍，如果产品的适应证或适用范围是以区分是否需要转诊、是否需要干预，而定量诊断只是辅助时，则应以定性诊断试验为主。反之亦然。

适应证或适用范围

适应证或适用范围是指产品所针对的疾病、症状、人群或使用条件。产品的适应证或适用范围如何定位直接关系到临床试验入组人群的选择，也直接影响最终产品说明书的批准。因此，企业在撰写适应证或适用范围应仔细斟酌用词，应结合产品的特点，客观的描述产品的适应证或适用范围，切忌不要为了突出产品特点而有意夸大适应证或适用范围。

根据目前图像分析类产品的的研发规律、所存在的问题以及医学伦理等，建议企业在撰写适应证或适用范围时应选择“辅助诊断”的描述，而谨慎使用“诊断”的描述。因为现阶段的人工智能产品还不能完全替代医生的诊断，或者其临床价值还没有得到真正的认可。

在撰写产品所涉及的疾病或症状时，要区分针对的是某种特定的疾病还是某种特定的症状。如“用于视网膜眼底病变的筛查”还是“用于糖尿病视网膜眼底病变的筛查”。由于导致视网膜病变的疾病主要有糖尿病、青光病、老年黄斑变性、病理性近视等，前一种描述所涵盖的目标人群比后一种要多。又如“用于阳性肺结节的筛查”还是“用于肺癌的筛查”，虽然阳性肺结节是判断肺癌的重要影像类指标，但并不是诊断肺癌的唯一标准。如果产品适用范围写“用于肺癌的筛查”，那么势必超出产品的技术性能，也会超出常规的临床认知。将会导致最终试验结果难以达到预期所设定的目的，也会导致在入选阳性病例时只能选择已经明确诊断为肺癌的患者。

因此，企业在描述产品的适应证或适用范围时，应结合产品的研发数据，判断产品的研发数据是针对于“疾病”还是“症状或体征”，如果研发数据是针对“症状或体征”的判断，那么在适应证或适用范围就不要夸大为针对某种“疾病”。

同时，根据现有的临床诊断标准，目前只有很少的疾病诊断只是单纯依靠影像学数据就可以作出判断，所以企业在撰写适应证或适用范围还应该结合临床常识。

金标准的的选择

诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。因此，“金标准”或参考方法选择就至关重要。

所谓“金标准”指的是指在现有条件下，公认的、可靠的、权威的诊断方法。临床上常用的“金标准”有组织病理学检查、影像学检查、病原体分离培养鉴定、长期随访所得的结论及临床常用的其他确认方法等。需要说明的是，受医疗技术条件所限，“金标准”是相对的概念，即便是“金标准”也存在漏诊或误诊的情况。

而参考方法指的是与待评价方法具体可比性的已上市产品。所谓可比性指的是适应证或适用范围、基础算法、使用条件基本相似的同类产品。但由于目前图像分析类人工智能产品的算法各不相同，且已上市的同类产品很少，所以目前图像分析类人工智能产品还是选择“金标准”作对照。

图像分析类人工智能产品主要是对医学图像进行分析，因此这类产品的“金标准”一般都是医生判读结果。但在选择医生判读结果作为“金标准”应注意以下问题：①一般而言，图像数据是相对难以量化的，在结果判断时存在一定的主观影响。如果影像数据的判断标准不统一时，其“金标准”的可靠性是难以让人信服的，所以在进行临床试验前“金标准”的判断标准需统一，最好是采用公认的判断标准。如果是采用量表作为“金标准”，需要保证量表的信度和效度是经过检验的；②在图像数据结果判断时，不同中心间研究者技术水平、临床经验可能存在差别，即便统一“金标准”的判断标准，也可能存在不同中心间的判断结果存在系统性误差。为解决这类系统性误差，图像数据可以采用中心化阅片的方式进行。即所有图像数据都统一交给有资质的第三方机构进行分析，并以第三方机构的判读结果为准；③由于图像数据的判断存在人为主观性，在采用“统一的“金标准”判断标准”和“中心化阅片后”，第三方机构的判读结果也可能存在内部不一致的情况。比如不同时刻、不同研究者对同一图像的判读可能存在不一样的情况。这类问题可采用设置3名图像分析人员的方法来解决。先由前两名研究者对同一图像进行独立的分析，当结果一致时则采纳；当结果不一致时，则由第三名研究者作出判断或三名研究者坐在一起讨论。

目标人群的考虑

对图像分析类人工智能产品的临床价值判断，除了要了解其发现目标疾病的能力，还要了解其排除非目标疾病的能力。因此，在受试者选择时既要包括“阳性”患者，也要包括“阴性”患者；既要包括有阳性体征的患者，也要包括阴性体征患者；既要包括有病情较轻的患者，也要包括病情较重的患者；既要包括有典型的患者，也要包括非典型的患者或易混疾病患者。

总体上，临床试验应有两个组别。其中一个为病例组，该组的受试者应：①全部为“阳性”患者或有相关体征的患者；②这些患者疾病应覆盖疾病各阶段，轻、中、重病人都应该有。另一个为对照组，该组的受试者应：①全部为“阴性”患者或没有相关体征的患者；②阴性病例多选择易于与阳性病例混淆的疾病。此外，对于定量检测，保证一定比例的受试者测量结果在正常参考值范围以外。

受试者的选择直接决定了临床试验的临床价值，如果受试者选择的代表性出现问题，特别是对照组患者选择不当，其临床结果将是不可靠的，结果也难以在一般人群中进行推断。

评价指标选择

根据图像分析类人工智能产品的最终分析结果，其评价指标主要为定性指标和定量指标。定性指标主要有：灵敏度、特异度、符合率和Kappa值。定量指标主要有：离群点检查、回归拟合方程、Pearson相关系数、Bland-Altman图、医学决定水平处偏倚。以往的医疗器械临床试验都会设置主要评价指标，但由于诊断试验的特殊性，上述评价指标对产品的评价都是很重要，而且各自的侧重点常常不一样，所以有时图像分析类人工智能产品很难确定主要评价指标。

灵敏度指的是：实际有病（或存在某物质）而被正确地判为有病（或存在某物质）的百分比。它反映待评价方法发现病人（或存在某物质）的能力。多用于有“金标准”做参比的临床试验，多用于两分类的诊断试验，1-灵敏度=假阴性率，常于“特异度”配合使用。

特异度指的是：实际无病（或不存在某物质）而被正确地判为无病（或不存在某物质）的百分比。它反映待评价方法发现病人（或不存在某物质）的能力，多用于有“金标准”做参比的临床试验，多用于两分类的诊断试验，1-特异度=假阳性率，常与“灵敏度”配合使用。

符合率指的是：待评价方法判定的结果与标准诊断（如同类产品）的结果相同的数占总受检人数的比例。定性诊断临床试验普遍适用，包括总符合率，以及各分类的符合率。

Kappa值为综合分析考虑机遇因素对结果一致性的影响。当k>0.8，待考核试剂和参比试剂的检测结果高度一致；当0.40≤k≤0.8，基本一致；当k<0.40为不一致。定性诊断临床试验普遍适用。

离群点检查用以判断某一个检测结果异常的情况；回归拟合方程依据最小二乘法，以待评价方法检测结果y对“金标准”或同类产品检测结果x拟合直线方程，通过对斜率与截距的计算，考察待评价方法的系统误差；Pearson相关系数分析待评价方法与“金标准”或同类产品是否确有直线相关关系；Bland-Altman图直观判断待评价方法与“金标准”或同类产品的一致性；医学决定水平处偏倚判断在分界点（Cut off）测量的可靠性。

样本量的计算

由于定量诊断可在一定条件下转换为定性诊断，定性诊断为较为固定的样本量估算公式。因此，人工智能样本量一般采用定性诊断样本量计算公式。下文以定性诊断样本量计算公式为例，来讲解样本量计算过程。

根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式，定性的样本量估算需要分阳性受试者和阴性受试者两部分，分别按照诊断试验样本量估算公式(1)进行计算。

Z_1-_α/2为正态分布分位数，V（θ̂）为方差函数，通常V（θ̂）=θ（1-θ），θ为灵敏度或特异度，为估计误差，可以取参考文献报道的置信区间宽度的1/2以下。

以灵敏度为例，某诊断眼底病变的人工智能软件预期灵敏度为89%，规定双侧α=0.05（Z_1-_α/2=1.96），灵敏度估计误差为±0.05计算得阳性受试者为151例。考虑合适的脱落率（通常不超过20%）来使样本量达到189例，以保证纳入分析的阳性受试者至少为151例。

然而，根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式算出的阳性病例数和阴性病例数是理论数值，但是实际的诊断试验过程中，由于我们无法提前预知目标人群的阴阳性比例，所以在分组前必须先用“金标准”或其他方法先将患者的阴阳性区分出来，然后再从这些患者中选择阴阳性受试者。由于实际目标人群中的阴阳性比例与理论值的比例不一样，这就导致实际参与筛选的患者要多于理论值，且这个筛选的患者数量与目标人群中的阳性率相关，阳性率越高，需筛患者就越少。

为了有更高的概率获得阳性受试者，可以考虑在眼科专科医院进行试验，假设来该专科医院就诊的病人有50%机会患有眼底病变，则可以通过公式(2)计算阳性受试者和阴性受试者总数N_total_。

假设P_rev=50%，n=189，Z_1-_β取正态分布曲线下95%对应的界值1.645，计算得至少纳入412例病人。因此，我们可以有95%的把握认为412例病人中至少有189例受试者患眼底病变。

因此，样本量估算时会看到两组数据，一组是阴阳性患者理论值，一组是受试者筛选数量。

预期灵敏度、特异度受核心算法、软件学习所使用的影像资料等各方面因素的影响而不同，故文献资料报道的灵敏度和特异度可能并不适用于各人工智能研发公司的软件。建议各公司将影像资料分为训练数据集、测试数据集两部分。训练数据集用于软件学习，数量占较大的比例。测试数据集用于测试软件的诊断性能，类似于小样本试验。初步测试人工智能软件的灵敏度和特异度，并提供参数给统计师进行样本量估算。

需要注意的是，不建议将训练所用的影像数据作为测试数据集进行性能测试。正如我们记下了几道数学题的解题过程，反过来去解答这几道数学题，这样可能不能真实反映软件的诊断性能。

试验流程

在确定待评价方法为定性还是定量、评价对象是何种情况后，就可以根据下列技术路线设计临床试验。技术路线一般都是同一份影像数据分别用两种方法进行评价，最后判断结果的一致性。对于定性诊断，最为关键的是根据结果绘制四格表，当四格表绘制出来，相关结果也就可以统计出来。对于定量诊断，最为关键是的分别测量出同一参数的结果。

其他注意事项

图像分析类人工智能产品进行临床试验时除了考虑上述问题外，还有一些问题是需要注意的。

1.重复使用受试者数据。由于这类产品只是对患者的图像数据进行分析，有时可能存在重复使用同一名患者不同时期的图像数据。从临床试验质量角度看，这种情况应避免出现，当然如果是有意对测量结果的可重复性进行分析时除外。建议企业在收集图像时应对受试者的个人信息进行标注；

2.受试者知情同意签署。一般来说，这类产品的临床试验都是对患者图像数据进行被动采集，即使用医院已经保存的图像数据进行分析，并不涉及与受试者的直接接触。但由于临床试验不能在受试者不知情的情况下开展，此时受试者知情同意签署将是这类临床试验面试的首要伦理问题。建议企业与研究机构对这个问题进行深入探讨；

3.“金标准”与人工智能算法的一致性。如果“金标准”与人工智能算法天生的存在不一致的情况，特别是产品研发时没有采用“金标准”标注的数据，其算法结果与临床试验结果的差异需要企业认真考虑；

4.高质量图像获取率。图像分析类人工智能产品的计算成功率有赖于图像质量，如何获取高质量的图像可能是临床试验前需要企业关注的一个重点，在必要的时候可能需要对图像拍摄者进行培训；

5.图像采集设备的适配性。由于图像分析类人工智能产品研发一般是基于一些特定的数据格式或者特定的影像设备，在进行临床试验前企业前考虑参研单位硬件条件是否可以满足试验要求；

6.精密度分析。为客观评价产品的性能，企业可能需要对分析结果的测量精密度进行分析，以判断产品测量的稳定性。即，同一个人同一个时期内的多幅照片进行分析时，结果的一致性；

7.“金标准”评价者培训。“金标准”是判断产品临床价值的核心，对于主观性较强的“金标准”，建议参研单位对其进行统一的培训，必要时可以选择一些高年资的医生参与“金标准”判断。

人工智能产品临床应用举例

以目前流行的肺结节自动筛查软件为例，分析一下这类产品的方案设计要点。

试验目的：评价申报软件诊断软件用于辅助医生进行CT影像的肺部结节筛查的准确性及可用性。

试验设计：前瞻性、多中心、横断面研究、数据盲态评价、诊断试验。

样本量：参考上述样本量计算过程（当筛选到足够的阴阳性病例后停止筛选）。

随访周期：0天。

访视时间点：筛选期（窗口7~14天）、检查当天。

“金标准”：图片统一交第三方进行独立阅片。

入选标准：1.年龄18周岁以上，性别年龄不限；2.疑似存在肺部病变的患者；3.受试者及其监护人签署知情同意书。

排除标准：1.诊断信息不明确的受试者；2.正在参加其他临床试验的受试者；3.依从性差难以配合的受试者；4.有严重疾病需要紧急抢救的受试者。

检查项目：无需要特殊检查。

评价指标：灵敏度、特异度、不良事件、器械缺陷。

试验流程：先在日常的检查过程中对受试者进行初筛，当发现符合方案的受试者时获取其知情同意。然后按照软件检测要求收集相关影像学数据并进行分析，分析结果填写在CRF中，接着将影像学数据传给第三方进行独立阅片中心进行统一分析。最后将软件判读结果和人工判读结果汇总分析。

人工智能临床试验现状

目前人工智能影像类临床试验在中国许多地方开展，适应证有胃癌、下肢深静脉血栓、紫绀型先心病、胰腺癌、急性缺血性脑卒中、糖尿病视网膜病变、股骨头坏死、髋关节炎、发育性髋关节发育不良、肺结节、呼吸道疾病等。设计类型包括诊断试验、前瞻性队列研究、回顾性研究等等。有单纯观察软件的诊断效果，有观察软件的临床价值。

相关临床试验注册号如下，如有兴趣可以上中国临床试验注册中心查询（http://www.chictr.org.cn/index.aspx）。

ChiCTR1800018403、ChiCTR1800018173、ChiCTR1800018153、ChiCTR1800017542、ChiCTR1800017426、ChiCTR1800017169、ChiCTR1800016912、ChiCTR1800016785、ChiCTR1800016296、ChiCTR1800016226、ChiCTR1800016136、ChiCTR1800015607、ChiCTR1800015204、ChiCTR1800015092、ChiCTR1800014891、ChiCTR-DDD-17014131、ChiCTR-DDD-17013842、ChiCTR-DRD-17012005、ChiCTR-SON-17010692、ChiCTR-DPD-16009424。

作者：孙嘉伟 / 卢坤明（5.8部分）

参考文献

[1] 王浩，孟祥峰，刘艳珍，等. 医疗器械中人工智能方法检验策略的研究[J]. 中国医疗设备， 2016，31(10):67-70.

[2] 王锡山. 未来医学时代——人工智能诊疗[J]. 中华结直肠疾病电子杂志， 2017，6(04):349-352.