本指導原則旨在指導注冊申請人建立人工智能醫(yī)療器械生存周期過程和準備人工智能醫(yī)療器械注冊申報資料,同時規(guī)范人工智能醫(yī)療器械的技術審評要求,為人工智能醫(yī)療器械、質量管理軟件的體系核查提供參考。
本指導原則是對人工智能醫(yī)療器械的一般要求。注冊申請人需根據(jù)產(chǎn)品特性和風險程度確定本指導原則具體內容的適用性,若不適用詳述理由。注冊申請人也可采用其他滿足法規(guī)要求的替代方法,但需提供詳盡的支持資料。
本指導原則是在現(xiàn)行法規(guī)、強制性標準體系以及當前科技能力、認知水平下制定的,隨著法規(guī)、強制性標準體系的不斷完善以及科技能力、認知水平的不斷發(fā)展,本指導原則相關內容也將適時調整。
本指導原則是供注冊申請人、審評人員和檢查人員使用的指導文件,不涉及行政審批事項,亦不作為法規(guī)強制執(zhí)行,應在遵循相關法規(guī)的前提下使用本指導原則。
本指導原則作為數(shù)字醫(yī)療(Digital Health)指導原則體系的重要組成部分,采用和遵循醫(yī)療器械軟件、醫(yī)療器械網(wǎng)絡安全、移動醫(yī)療器械、醫(yī)療器械人因設計、醫(yī)療器械獨立軟件生產(chǎn)質量現(xiàn)場檢查等相關指導原則的概念和要求。
本指導原則是人工智能醫(yī)療器械的通用指導原則[1],其他含有或涉及人工智能技術的醫(yī)療器械指導原則可在本指導原則基礎上結合具體情況進行有針對性的調整、修改和完善。
本指導原則適用于人工智能醫(yī)療器械的注冊申報,包括第二類、第三類人工智能獨立軟件和含有人工智能軟件組件的醫(yī)療器械(包括體外診斷醫(yī)療器械);適用于自研軟件的注冊申報,現(xiàn)成軟件組件參照執(zhí)行,不適用于外部軟件環(huán)境。
本指導原則也可用作人工智能醫(yī)療器械的體系核查參考。質量管理軟件若采用人工智能技術實現(xiàn)其功能或用途,亦可參考本指導原則的適用要求。
本指導原則所述人工智能醫(yī)療器械是指基于“醫(yī)療器械數(shù)據(jù)”,采用人工智能技術實現(xiàn)其預期用途(即醫(yī)療用途)的醫(yī)療器械。
醫(yī)療器械數(shù)據(jù)是指醫(yī)療器械產(chǎn)生的用于醫(yī)療用途的客觀數(shù)據(jù),如醫(yī)學影像設備產(chǎn)生的醫(yī)學圖像數(shù)據(jù)(如X射線、CT、MRI、超聲、內窺鏡、光學等圖像)、醫(yī)用電子設備產(chǎn)生的生理參數(shù)數(shù)據(jù)(如心電、腦電、血壓、無創(chuàng)血糖、心音等波形數(shù)據(jù))、體外診斷設備產(chǎn)生的體外診斷數(shù)據(jù)(如病理圖像、顯微圖像、有創(chuàng)血糖波形數(shù)據(jù)等);在特殊情形下,通用設備(非監(jiān)管對象)產(chǎn)生的用于醫(yī)療用途的客觀數(shù)據(jù)亦屬于醫(yī)療器械數(shù)據(jù),如數(shù)碼相機拍攝的用于皮膚疾病診斷的皮膚照片、健康電子產(chǎn)品采集的用于心臟疾病預警的心電數(shù)據(jù)等。基于醫(yī)療器械數(shù)據(jù)包括醫(yī)療器械數(shù)據(jù)的生成、使用等情況,其中使用情況含單獨使用醫(yī)療器械數(shù)據(jù),或者以醫(yī)療器械數(shù)據(jù)為主聯(lián)合使用非醫(yī)療器械數(shù)據(jù)(如患者主訴信息、檢驗檢查報告結論、電子病歷、醫(yī)學文獻等)。
人工智能是指機器表現(xiàn)出與人類智能相關行為的能力,通常是指通過感知周圍環(huán)境做出合理行動以達到預期目標的計算機軟件或系統(tǒng)。機器學習是指與人類學習行為相關的人工智能,通常是指通過整理現(xiàn)有數(shù)據(jù)和/或獲取新數(shù)據(jù)以提升性能的計算機軟件或系統(tǒng)。機器學習雖是人工智能的子集,但卻為人工智能的核心領域,當前二者對于醫(yī)療器械而言含義基本相同,故本指導原則從醫(yī)療器械安全有效性評價角度出發(fā)對二者不做嚴格區(qū)分,統(tǒng)一采用人工智能進行表述。
基于非醫(yī)療器械數(shù)據(jù)的醫(yī)學人工智能產(chǎn)品,或者采用人工智能技術實現(xiàn)非醫(yī)療用途和非醫(yī)療器械功能(詳見醫(yī)療器械軟件指導原則)的醫(yī)療器械均非人工智能醫(yī)療器械。醫(yī)學人工智能產(chǎn)品是否按醫(yī)療器械管理,根據(jù)相應分類界定指導原則進行判定,必要時申請醫(yī)療器械分類界定。
從醫(yī)療器械軟件角度,人工智能醫(yī)療器械可分為人工智能獨立軟件和人工智能軟件組件,故其類型劃分可參考醫(yī)療器械軟件指導原則相關維度。
人工智能醫(yī)療器械從用途角度可分為輔助決策類和非輔助決策類。其中,輔助決策是指通過提供診療活動建議輔助用戶(如醫(yī)務人員、患者)進行醫(yī)療決策,如通過病灶特征識別、病灶性質判定、用藥指導、治療計劃制定進行輔助分診、輔助檢測、輔助診斷、輔助治療等,相當于用戶的“助手”。反之,僅提供醫(yī)療參考信息而不進行醫(yī)療決策即為非輔助決策,包括流程優(yōu)化、診療驅動,前者如成像流程簡化、診療流程簡化等,后者如成像質量改善、成像速度提高、自動測量、自動分割、三維重建等,相當于用戶的“工具”。此外,輔助決策和非輔助決策從實時性角度均可細分為實時和非實時,前者風險通常高于后者。
人工智能醫(yī)療器械從功能角度大體上可分為處理功能、控制功能、安全功能。其中,處理功能又可分為前處理功能和后處理功能,前處理功能是指采集人體解剖、生理信息生成醫(yī)療器械數(shù)據(jù)過程的處理功能,如成像流程簡化、成像質量改善、成像速度提高等;后處理功能是指利用醫(yī)療器械數(shù)據(jù)生成診療信息或進行醫(yī)療干預過程的處理功能,如診療流程簡化、自動測量、自動分割、三維重建、病灶特征識別、病灶性質判定、用藥指導、治療計劃制定等?刂乒δ苁侵缚刂/驅動醫(yī)療器械硬件運行的功能,如閉環(huán)控制、機械臂運動控制等。安全功能是指保證醫(yī)療器械安全性的功能,如風險預警、急?刂频。
人工智能醫(yī)療器械從算法角度具有多種類型劃分維度。從學習策略角度可分為有監(jiān)督學習和無監(jiān)督學習,前者需要對訓練數(shù)據(jù)進行標注,如線性回歸、邏輯回歸、決策樹、樸素貝葉斯、K近鄰、支持向量機等經(jīng)典回歸、分類算法,后者無需對訓練數(shù)據(jù)進行標注,如K均值、主成分分析等經(jīng)典聚類、降維算法,前者對于數(shù)據(jù)標注的要求高于后者。從學習方法角度可分為基于模型的算法和基于數(shù)據(jù)的算法,前者采用統(tǒng)計模型、規(guī)則推理等方法,后者主要采用大數(shù)據(jù)方法,前者對于訓練數(shù)據(jù)量的要求低于后者。從可解釋性角度可分為白盒算法和黑盒算法,前者特征提取需要人為干預,可與現(xiàn)有醫(yī)學知識建立關聯(lián),后者自動完成特征提取,難與現(xiàn)有醫(yī)學知識建立關聯(lián),前者可解釋性優(yōu)于后者。
上述類型劃分維度相互交叉,例如:前處理和后處理均可采用不同類型的人工智能算法實現(xiàn)輔助決策、非輔助決策用途,有監(jiān)督學習和無監(jiān)督學習既可采用基于模型的算法、基于數(shù)據(jù)的算法,又可采用黑盒算法、白盒算法。同時,同一維度亦不存在嚴格的劃分界線,例如:在用途方面,通過圖像識別技術進行流程優(yōu)化則需考慮診療驅動相關要求,自動測量結果若為醫(yī)療決策重要指標(如血流儲備分數(shù)FFR)則屬于輔助決策范疇;在功能方面,控制功能、安全功能可與處理功能相結合,前處理過程可包含后處理功能;在算法方面,某些算法既可用于有監(jiān)督學習又可用于無監(jiān)督學習,有監(jiān)督學習和無監(jiān)督學習可結合為半監(jiān)督學習;基于模型的算法亦需數(shù)據(jù)的支持,基于數(shù)據(jù)的算法亦可生成模型;白盒算法和黑盒算法可組合使用成為灰盒算法。
同樣,人工智能醫(yī)療器械從成熟度角度可分為成熟和全新兩種類型,其中成熟是指安全有效性已在醫(yī)療實踐中得到充分證實的情形,全新是指未上市或安全有效性尚未在醫(yī)療實踐中得到充分證實的情形。人工智能醫(yī)療器械的算法、功能、用途若有一項為全新則屬于全新類型,反之屬于成熟類型。
人工智能醫(yī)療器械可同時采用多種、多個人工智能算法,在前處理、后處理過程中實現(xiàn)輔助決策、非輔助決策用途。因此,注冊申請人需結合人工智能醫(yī)療器械的預期用途、使用場景、核心功能以及所用算法的類型特點、技術特征、組合形式開展相應產(chǎn)品質控工作,以保證產(chǎn)品的安全有效性。
人工智能算法特別是基于數(shù)據(jù)的算法,具有快速迭代更新的特性。人工智能算法更新屬于軟件更新范疇,故遵循軟件更新的基本原則及要求:人工智能算法更新若影響到人工智能醫(yī)療器械的安全性或有效性則屬于重大軟件更新,應申請變更注冊;反之,人工智能算法更新若未影響到人工智能醫(yī)療器械的安全性和有效性則屬于輕微軟件更新,通過質量管理體系進行控制,無需申請變更注冊,待下次變更注冊時提交相應注冊申報資料。
人工智能算法更新可分為算法驅動型更新和數(shù)據(jù)驅動型更新。其中,算法驅動型更新是指人工智能醫(yī)療器械所用算法、算法結構、算法流程、算法編程框架(詳見后文)、輸入輸出數(shù)據(jù)類型等發(fā)生改變,通常屬于重大軟件更新。此外,算法重新訓練即棄用原有訓練數(shù)據(jù)而采用全新訓練數(shù)據(jù)進行算法訓練,亦屬于算法驅動型更新。
數(shù)據(jù)驅動型更新是指僅由訓練數(shù)據(jù)量增加而發(fā)生的算法更新。數(shù)據(jù)驅動型更新是否屬于重大軟件更新原則上以算法性能評估結果(基于相同的測試集和算法性能評估指標)為準,算法性能評估結果若發(fā)生顯著性改變則屬于重大軟件更新,即算法性能評估結果與前次注冊(而非前次更新)相比存在統(tǒng)計學差異,反之屬于輕微軟件更新。
人工智能醫(yī)療器械其他類型的算法更新、軟件更新以及重大軟件更新判定原則詳見醫(yī)療器械軟件指導原則、醫(yī)療器械網(wǎng)絡安全指導原則。
軟件版本命名規(guī)則原則上應涵蓋算法驅動型更新和數(shù)據(jù)驅動型更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見典型情況。軟件版本命名規(guī)則的基本要求詳見醫(yī)療器械軟件指導原則、醫(yī)療器械網(wǎng)絡安全指導原則。
人工智能技術從發(fā)展驅動要素角度是基于模型/數(shù)據(jù)和算力的算法,其中模型/數(shù)據(jù)是人工智能技術的基礎,算力是人工智能技術的保證,算法是人工智能技術的核心。
由于算力所用計算資源本身不屬于監(jiān)管對象,計算資源的監(jiān)管要求取決于其所屬的計算平臺類型。故從監(jiān)管角度出發(fā),人工智能醫(yī)療器械安全有效性評價基于其預期用途、使用場景、核心功能,以算法特性為核心重點關注其泛化能力,以模型/數(shù)據(jù)為基礎重點關注其質控情況,同時從風險管理角度兼顧算力不足與失效的影響。
人工智能算法的類型不同,其算法特性、適用場景也不同,評價重點亦有所側重;同時,不同類型的人工智能算法可組合使用,需結合各算法特性和算法組合形式進行整體評價。因此,注冊申請人需結合人工智能醫(yī)療器械的預期用途、使用場景、核心功能選擇與之相適宜的人工智能算法或算法組合,基于算法特性并結合風險管理開展相應驗證與確認工作。
以深度學習為例,其是指通過訓練具有多個隱層的神經(jīng)網(wǎng)絡而獲得輸入輸出映射關系的人工智能算法,亦是基于海量數(shù)據(jù)和高算力的黑盒算法,既可用于有監(jiān)督學習又可用于無監(jiān)督學習。因此,對于采用深度學習技術的人工智能醫(yī)療器械,基于其預期用途、使用場景、核心功能,重點關注其算法泛化能力、數(shù)據(jù)質控、可解釋性等問題,同時,深度學習若與其他類型的人工智能算法組合使用,還需基于各算法特性重點關注算法組合的整體評價問題。
人工智能新算法研究處于深入發(fā)展階段,如基于小樣本數(shù)據(jù)、基于弱標注數(shù)據(jù)、基于非結構化數(shù)據(jù)、黑盒算法透明化等算法。人工智能醫(yī)療器械若使用人工智能新算法,亦需基于算法特性并結合風險管理開展相應驗證與確認工作,以保證產(chǎn)品的安全有效性。
人工智能醫(yī)療器械的風險水平亦可用軟件安全性級別進行表述,軟件安全性級別越高,其生存周期質控要求越嚴格,注冊申報資料越詳盡,同時由于全新類型的潛在未知風險多于成熟類型,故需結合成熟度予以綜合考慮,具體要求詳見醫(yī)療器械軟件指導原則。
人工智能醫(yī)療器械的軟件安全性級別可基于產(chǎn)品的預期用途、使用場景、核心功能進行綜合判定,其中預期用途主要考慮用途類型、重要程度、緊迫程度等因素,使用場景主要考慮使用場合、疾病特征、適用人群、目標用戶等因素,核心功能主要考慮功能類型、核心算法、輸入輸出、接口等因素。亦可根據(jù)風險管理所確定的風險等級進行判定,軟件安全性級別與風險等級的分級可以不同,但二者存在對應關系,因此可根據(jù)風險等級來判定軟件安全性級別,但應在采取風險控制措施之前進行判定。
人工智能醫(yī)療器械的主要風險從算法角度包括過擬合和欠擬合,其中過擬合是指算法對于訓練數(shù)據(jù)過度學習而將非普遍規(guī)律作為重要特征,欠擬合是算法對于訓練數(shù)據(jù)學習不充分而遺漏重要特征,均會降低算法泛化能力。從用途角度,輔助決策主要包括假陰性和假陽性,其中假陰性即漏診,可能導致后續(xù)診療活動延誤,特別是要考慮快速進展疾病的診療活動延誤風險,而假陽性即誤診,可能導致后續(xù)不必要的診療活動;非輔助決策從算法設計目標能否得以實現(xiàn)角度,亦可參考輔助決策分為假陰性和假陽性。此外,進口人工智能醫(yī)療器械還需考慮中外差異風險,如人種、流行病學特征、臨床診療規(guī)范等差異。
注冊申請人應結合人工智能醫(yī)療器械的預期用途、使用場景、核心功能開展風險管理活動,采取風險控制措施將風險降至可接受水平,并貫穿于人工智能醫(yī)療器械全生命周期過程。
注冊申請人應結合質量管理體系要求,參考軟件、人工智能相關標準和良好工程實踐,建立人工智能醫(yī)療器械生存周期過程,開展與軟件安全性級別相匹配的產(chǎn)品質量保證工作,將風險管理、可追溯分析貫穿于生存周期全程,形成記錄以供體系核查。
上市前開展充分、適宜、有效的驗證與確認活動,保證算法泛化能力滿足用戶需求,識別可預見風險并將其降至可接受水平,明確產(chǎn)品使用限制(含技術限制,下同)和必要警示提示信息。上市后持續(xù)開展算法泛化能力研究,同時結合用戶投訴、不良事件和召回等情況識別前期未預見的風險,并采取有效的風險控制措施將風險降至可接受水平。此外,根據(jù)產(chǎn)品更新需求,經(jīng)評估后實施更新活動,開展與之相適宜的驗證與確認活動,保證算法泛化能力持續(xù)滿足用戶需求。
人工智能醫(yī)療器械生存周期(又稱生命周期)過程可基于軟件生存周期過程予以建立,具體要求詳見醫(yī)療器械獨立軟件生產(chǎn)質量管理規(guī)范及其現(xiàn)場檢查指導原則。
考慮到有監(jiān)督深度學習是當前人工智能醫(yī)療器械的主流算法,故本指導原則以有監(jiān)督深度學習為例詳述人工智能醫(yī)療器械生存周期過程質控要求,主要包括需求分析、數(shù)據(jù)收集、算法設計、驗證與確認、更新控制等階段。其他類型的人工智能算法可參照執(zhí)行,不適用內容詳述理由并予以記錄。
需求分析以用戶需求與風險為導向,結合產(chǎn)品的預期用途、使用場景、核心功能,綜合考慮法規(guī)、標準、用戶、產(chǎn)品、數(shù)據(jù)、功能、性能、接口、用戶界面、網(wǎng)絡安全、警示提示等需求,重點考慮數(shù)據(jù)收集、算法性能、使用限制等要求。
為保證數(shù)據(jù)質量和控制數(shù)據(jù)偏倚,數(shù)據(jù)收集需考慮數(shù)據(jù)來源的合規(guī)性、充分性和多樣性,數(shù)據(jù)分布的科學性和合理性,數(shù)據(jù)質控的充分性、有效性和準確性。數(shù)據(jù)來源在合規(guī)性(如個人信息保護法)基礎上保證充分性和多樣性,以提高算法泛化能力,例如:根據(jù)產(chǎn)品的預期用途和使用場景盡可能多采集數(shù)據(jù),如來源于多家、多地域、多層級的代表性臨床機構,以及多家、多種、多參數(shù)的代表性采集設備。數(shù)據(jù)分布的科學性和合理性需結合目標疾病流行病學特征予以考慮,包括但不限于疾病構成(如分型、分級、分期)、人群分布(如健康、患者,性別、年齡、職業(yè)、地域、生活方式)、統(tǒng)計指標(如發(fā)病率、患病率、治愈率、死亡率、生存率)等情況,以及目標疾病并發(fā)癥與類似疾病的影響情況。數(shù)據(jù)質控的充分性、有效性和準確性需結合數(shù)據(jù)采集與數(shù)據(jù)標注的人員、設備、過程等影響因素予以考慮,具體要求詳見后文。
算法性能需結合醫(yī)療實際和產(chǎn)品定位,綜合考慮假陰性與假陽性、重復性與再現(xiàn)性、魯棒性/健壯性、實時性等性能指標的適用性及其要求,兼顧不同性能指標的制約關系,如假陰性與假陽性等。同時,結合當前醫(yī)療水平情況,考慮金標準或參考標準的確定依據(jù)、實現(xiàn)方法和質控要求,以保證算法性能評估的準確性,必要時納入數(shù)據(jù)收集過程。
使用限制需考慮產(chǎn)品禁用、慎用等場景,準確表述產(chǎn)品使用場景,提供必要警示提示信息。
數(shù)據(jù)收集基于合規(guī)性要求,主要考慮數(shù)據(jù)采集、數(shù)據(jù)整理、數(shù)據(jù)標注、數(shù)據(jù)集構建等活動的質控要求,以保證數(shù)據(jù)質量和算法訓練效果。
1.數(shù)據(jù)采集
數(shù)據(jù)采集需考慮采集設備、采集過程、數(shù)據(jù)脫敏等質控要求,并建立數(shù)據(jù)采集操作規(guī)范。數(shù)據(jù)采集亦可使用歷史數(shù)據(jù),需結合樣本規(guī)模、采集難度等影響因素合理選擇數(shù)據(jù)采集方式。若適用,數(shù)據(jù)采集需經(jīng)倫理委員會批準。
采集設備質控包括采集設備的兼容性和采集特征等要求。兼容性基于數(shù)據(jù)生成方式(直接生成、間接生成)考慮采集設備的兼容性要求,如采集設備的名稱、型號規(guī)格、制造商、性能指標等要求,若無需考慮兼容性要求詳述理由并予以記錄。采集特征考慮采集設備的采集方式(如常規(guī)成像、增強成像)、采集協(xié)議(如MRI成像序列)、采集參數(shù)(如CT加載電壓、加載電流、加載時間、層厚)、采集精度(如分辨率、采樣率)等要求。
采集過程質控包括人員管理、采集流程、采集質量評估等要求。人員管理考慮采集人員、審核人員的選拔(如職稱、工作年限、工作經(jīng)驗、所在機構,若有國外人員則需明確其資質要求)、培訓(如培訓材料、培訓方案)、考核(如方法、頻次、指標、通過準則、一致性)等要求。采集流程考慮人員職責、采集步驟、結果審核等要求。采集質量評估考慮評估人員、評估方法、評估指標、通過準則等要求,并記錄評估結果。
數(shù)據(jù)采集若使用歷史數(shù)據(jù),需列明采集設備及采集特征要求,并開展數(shù)據(jù)采集質量評估工作。
采集的數(shù)據(jù)應進行數(shù)據(jù)脫敏以保護患者隱私,數(shù)據(jù)脫敏需明確脫敏的類型(靜態(tài)、動態(tài))、規(guī)則、方法以及脫敏內容的確定依據(jù)。
脫敏數(shù)據(jù)匯總形成原始數(shù)據(jù)庫,不同模態(tài)的數(shù)據(jù)在原始數(shù)據(jù)庫中需加以區(qū)分(下同)。原始數(shù)據(jù)庫需考慮樣本規(guī)模的充分性、樣本多樣性等問題。
2.數(shù)據(jù)整理
數(shù)據(jù)整理基于原始數(shù)據(jù)庫考慮數(shù)據(jù)清洗、數(shù)據(jù)預處理的質控要求。數(shù)據(jù)清洗需明確清洗的規(guī)則、方法、結果,數(shù)據(jù)預處理需明確處理的方法(如濾波、增強、重采樣、尺寸裁剪、均一化等)、結果。數(shù)據(jù)整理所用軟件工具(含腳本,下同)均需明確名稱、型號規(guī)格、完整版本、制造商、運行環(huán)境,并進行軟件確認。
數(shù)據(jù)經(jīng)整理后形成基礎數(shù)據(jù)庫,需明確樣本類型、樣本量、樣本分布等信息。樣本類型以適用人群為單位可分為單一數(shù)據(jù)、數(shù)據(jù)序列(由多個單一數(shù)據(jù)組成,如結構序列、功能序列、時間序列)。樣本量需考慮樣本規(guī)模的充分性,明確樣本總量及其確定依據(jù)。樣本分布需考慮樣本的科學性和合理性,依據(jù)適用人群、數(shù)據(jù)來源機構、采集設備、樣本類型等因素明確疾病構成的數(shù)據(jù)分布情況。
3.數(shù)據(jù)標注
數(shù)據(jù)標注作為有監(jiān)督學習數(shù)據(jù)質控的關鍵環(huán)節(jié),需建立數(shù)據(jù)標注操作規(guī)范,明確標注資源管理、標注過程質控、標注質量評估等要求。
標注資源管理包括人員管理和基礎設施管理。人員管理考慮標注人員、審核人員和仲裁人員的選拔(如職稱、工作年限、工作經(jīng)驗、所在機構,若有國外人員則需明確其資質要求)、培訓(如培訓材料、培訓方案)、考核(如方法、頻次、指標、通過準則、一致性)等要求;A設施管理考慮標注場所(真實場所或模擬場所,模擬場所可根據(jù)產(chǎn)品實際情況調整模擬程度,詳述調整理由并予以記錄)、標注環(huán)境條件(如空間、照明、溫度、濕度、氣壓)、標注軟件(名稱、型號規(guī)格、完整版本、制造商、運行環(huán)境、軟件確認)等要求。
標注過程質控包括人員職責(如人員資質、人員數(shù)量、職責分工)、標注規(guī)則(如臨床指南、專家共識、專家評議、文獻分析)、標注流程(如標注對象、標注形式、標注輪次、標注步驟、結果審核)、分歧處理(如仲裁人員、仲裁方式)、可追溯性(如數(shù)據(jù)、操作)等要求。
標注質量評估包括評估人員、評估方法、評估指標、通過準則等要求,并記錄評估結果。
數(shù)據(jù)經(jīng)標注后形成標注數(shù)據(jù)庫,樣本類型可分為數(shù)據(jù)塊(如圖像區(qū)域、數(shù)據(jù)片段)、單一數(shù)據(jù)(由多個數(shù)據(jù)塊組成)、數(shù)據(jù)序列(由多個單一數(shù)據(jù)組成)。標注數(shù)據(jù)庫的樣本量、樣本分布等要求及風險考量與基礎數(shù)據(jù)庫相同。
數(shù)據(jù)標注可使用自動標注軟件,但自動標注結果不得直接使用,應由標注人員審核后方可使用;同時,自動標注軟件亦需明確名稱、型號規(guī)格、完整版本、制造商、運行環(huán)境等信息,并進行軟件確認。
4.數(shù)據(jù)集構建
基于標注數(shù)據(jù)庫構建訓練集(用于算法訓練)、調優(yōu)集[2](若有,用于算法超參數(shù)調優(yōu))、測試集(用于算法性能評估),明確訓練集、調優(yōu)集、測試集的劃分方法、劃分依據(jù)、數(shù)據(jù)分配比例。訓練集原則上需保證樣本分布具有均衡性,測試集、調優(yōu)集原則上需保證樣本分布符合真實情況,訓練集、調優(yōu)集、測試集的樣本應兩兩無交集并通過查重予以驗證。
為解決樣本分布不滿足預期的問題,可對訓練集、調優(yōu)集小樣本量數(shù)據(jù)進行擴增,原則上不得對測試集進行數(shù)據(jù)擴增,對抗測試(詳見后文)除外。數(shù)據(jù)擴增需明確擴增的對象、范圍、方式(離線、在線)、方法(如翻轉、旋轉、鏡像、平移、縮放、濾波、生成對抗網(wǎng)絡等)、倍數(shù),在線擴增亦需予以記錄,擴增需考慮數(shù)據(jù)偏倚的影響及風險,如部分數(shù)據(jù)擴增倍數(shù)過大、數(shù)據(jù)擴增倍數(shù)不均衡等。若采用生成對抗網(wǎng)絡(詳見后文)進行數(shù)據(jù)擴增,需明確算法基本信息以及算法選用依據(jù)。
數(shù)據(jù)經(jīng)擴增后形成擴增數(shù)據(jù)庫,需列表對比擴增數(shù)據(jù)庫與標注數(shù)據(jù)庫在樣本量、樣本分布(注明擴增倍數(shù))等差異,以證實擴增數(shù)據(jù)庫樣本量的充分性以及樣本分布的合理性。
人工智能算法作為人工智能醫(yī)療器械的核心,其設計主要考慮算法選擇、算法訓練、算法性能評估等要求。對于黑盒算法,算法設計應開展算法性能影響因素分析,同時建議與現(xiàn)有醫(yī)學知識[3]建立關聯(lián),以提升算法可解釋性。
1.算法選擇
算法選擇提供所用算法的名稱、類型(如有監(jiān)督學習、無監(jiān)督學習,基于模型、基于數(shù)據(jù),白盒、黑盒)、結構(如層數(shù)、參數(shù)規(guī)模)、輸入輸出數(shù)據(jù)類型、流程圖、算法編程框架、運行環(huán)境等基本信息,并明確算法選用依據(jù),包括選用的理由和基本原則。
若組合使用集成學習、遷移學習、強化學習等,亦需提供算法基本信息以及算法選用依據(jù),詳見后文。
2.算法訓練
算法訓練需基于訓練集、調優(yōu)集進行訓練和調優(yōu),考慮評估指標、訓練方式、訓練目標、調優(yōu)方式、訓練數(shù)據(jù)量-評估指標曲線等要求。
評估指標建議根據(jù)用戶需求進行選擇,輔助決策可選擇敏感性、特異性等指標,非輔助決策可選擇圖像質量、測量準確性等指標。訓練方式包括但不限于留出法和交叉驗證法,若組合使用聯(lián)邦學習(詳見后文)亦需明確算法選用依據(jù),并提供算法基本信息。訓練目標根據(jù)醫(yī)療情況詳述目標確定依據(jù),提供受試者工作特征(ROC)曲線或其衍生曲線、混淆矩陣及其衍生參數(shù)等證據(jù)予以證實。調優(yōu)方式明確優(yōu)化策略和實現(xiàn)方法。訓練數(shù)據(jù)量-評估指標曲線用于證實算法訓練的充分性和有效性,若無法提供則需詳述理由并提供替代證據(jù)。
3.算法性能評估
算法性能評估作為軟件驗證的重要組成部分,需基于測試集對算法設計結果進行評估,綜合考慮假陰性與假陽性、重復性與再現(xiàn)性、魯棒性/健壯性、實時性等適用評估要求,以證實算法性能滿足算法設計目標,并作為軟件驗證、軟件確認的基礎。亦可基于第三方數(shù)據(jù)庫(詳見后文)開展算法性能評估。
同時,開展算法性能影響因素分析以提升算法可解釋性,詳述影響算法性能的主要因素及其影響程度,如采集設備、采集參數(shù)、疾病構成、病變特征等因素,基于分析結果明確產(chǎn)品使用限制和必要警示提示信息。
此外,根據(jù)產(chǎn)品實際情況開展壓力測試(詳見后文)、對抗測試等測試,以全面深入評估算法性能。
1.軟件驗證
軟件驗證是指通過提供客觀證據(jù)認定軟件開發(fā)、軟件更新某一階段的輸出滿足輸入要求,包括軟件驗證測試(單元測試、集成測試、系統(tǒng)測試)、設計評審等系列活動。
軟件驗證基于軟件需求予以開展,保證軟件的安全有效性,并作為軟件確認的基礎。
2.軟件確認
軟件確認是指通過提供客觀證據(jù)認定軟件滿足用戶需求和預期目的,包括軟件確認測試(用戶測試)、臨床評價、設計評審等系列活動。根據(jù)產(chǎn)品實際情況,軟件確認方式可單一使用,亦可組合使用。
軟件確認測試基于用戶需求,由預期用戶在真實或模擬使用場景下予以開展,亦可基于測評數(shù)據(jù)庫(詳見后文)予以開展。
臨床評價基本原則詳見醫(yī)療器械軟件指導原則,基于核心功能或核心算法,結合預期用途和成熟度予以綜合考慮:非輔助決策類功能基于核心功能開展同品種醫(yī)療器械比對,全新的功能、算法和用途原則上均需開展臨床評價;輔助決策類功能基于核心算法開展同品種醫(yī)療器械比對,所選同品種醫(yī)療器械的臨床證據(jù)原則上需基于臨床試驗(含回顧性研究,下同),全新的功能、算法和用途原則上均需開展臨床試驗。具體要求詳見醫(yī)療器械臨床評價等通用指導原則,以及人工智能醫(yī)療器械臨床評價等專用指導原則。
同時,開展算法性能比較分析,若各類測試場景(含臨床評價)算法性能變異度較大,詳述原因并基于分析結果明確產(chǎn)品使用限制和必要警示提示信息。
最后,結合算法訓練、算法性能評估、臨床評價等結果開展算法性能綜合評價,針對訓練樣本量和測試樣本量過少、測試結果明顯低于算法設計目標、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制。
人工智能醫(yī)療器械若發(fā)生算法更新、軟件更新,均應當按照質量管理體系的要求,開展與算法更新、軟件更新的類型、內容和程度相適宜的驗證與確認活動,將風險管理、可追溯分析貫穿于更新全程,形成記錄以供體系核查。
對于算法更新,無論算法驅動型更新還是數(shù)據(jù)驅動型更新,均應開展相應驗證與確認活動,如算法性能評估、臨床評價等,以保證算法更新的安全有效性。對于軟件更新,具體要求詳見醫(yī)療器械軟件指導原則、醫(yī)療器械獨立軟件生產(chǎn)質量現(xiàn)場檢查指導原則。
此外,算法更新、軟件更新均需考慮引入回滾機制,以保證醫(yī)療業(yè)務的連續(xù)性,特別是對風險較高的軟件。
總之,人工智能醫(yī)療器械所含的每個人工智能算法或算法組合,均需獨立開展需求分析、數(shù)據(jù)收集、算法設計、驗證與確認、更新控制等活動,同時考慮人工智能算法組合的整體評價要求,以保證產(chǎn)品的安全有效性。
前期已開發(fā)的人工智能醫(yī)療器械若不滿足本指導原則的適用要求,應開展差距分析并予以記錄,明確產(chǎn)品使用限制和必要警示提示信息。必要時采取補救措施,以滿足質量管理體系要求,并保證產(chǎn)品的安全有效性。
人工智能醫(yī)療器械的注冊單元與檢測單元劃分原則詳見醫(yī)療器械軟件指導原則,人工智能獨立軟件、人工智能軟件組件分別參照獨立軟件、軟件組件的要求。
若軟件核心功能(即軟件在預期使用場景完成預期用途所必需的功能)相同,但核心算法(即實現(xiàn)軟件核心功能所必需的算法)類型不同,則每類核心算法所對應的核心功能均需檢測,即檢測對象為核心功能而非核心算法。
人工智能醫(yī)療器械需結合預期用途、使用場景、核心功能,基于保密性、完整性、可得性等網(wǎng)絡安全特性,確定網(wǎng)絡安全能力建設要求,以應對網(wǎng)絡攻擊和數(shù)據(jù)竊取等網(wǎng)絡威脅,如算法編程框架漏洞攻擊、數(shù)據(jù)污染等。具體要求詳見醫(yī)療器械網(wǎng)絡安全指導原則。
除此之外,還需在人工智能醫(yī)療器械全生命周期過程中考慮數(shù)據(jù)安全問題,包括上市前設計開發(fā)階段和上市后使用階段。數(shù)據(jù)轉移需明確轉移方法、數(shù)據(jù)污染防護措施、數(shù)據(jù)銷毀等要求。數(shù)據(jù)整理、數(shù)據(jù)集構建、算法訓練、算法性能評估、軟件驗證等內部活動需在封閉或受控的網(wǎng)絡環(huán)境下開展以防止數(shù)據(jù)污染。數(shù)據(jù)標注、軟件確認等涉及外方的活動需明確數(shù)據(jù)污染防護措施,特別是在開放網(wǎng)絡環(huán)境下。各數(shù)據(jù)庫(集)均需進行數(shù)據(jù)備份,明確備份的方法、頻次、數(shù)據(jù)恢復方法。數(shù)據(jù)采集、上市后使用需考慮醫(yī)療機構關于網(wǎng)絡安全與數(shù)據(jù)安全的接口要求。
人工智能醫(yī)療器械若使用移動計算、云計算等技術,則遵循相關指導原則要求。具體而言,移動計算相關要求詳見移動醫(yī)療器械指導原則,云計算相關要求詳見醫(yī)療器械軟件指導原則,移動計算與云計算的網(wǎng)絡安全相關要求詳見醫(yī)療器械網(wǎng)絡安全指導原則。
建議加強人工智能醫(yī)療器械的人因設計以提升可用性,將用戶錯誤使用的風險降至可接受水平,特別是軟件用戶界面。具體要求詳見醫(yī)療器械人因設計相關指導原則。
本指導原則所述壓力測試[4]是指采用罕見或特殊的真實數(shù)據(jù)樣本開展的算法性能測試,側重于評估算法泛化能力的極限。
注冊申請人需根據(jù)產(chǎn)品實際情況開展壓力測試,以全面深入評估算法性能,必要時可引入對抗樣本開展對抗壓力測試。若未開展相應測試或測試結果不佳,均需對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制,并在說明書中明確產(chǎn)品使用限制和必要警示提示信息。
本指導原則所述對抗測試是指基于真實數(shù)據(jù)樣本利用數(shù)據(jù)擾動、生成對抗網(wǎng)絡等技術產(chǎn)生對抗樣本,并采用對抗樣本開展的算法性能測試,側重于評估算法的魯棒性/健壯性。
若條件具備,建議注冊申請人開展對抗測試,以全面深入評估算法性能。若未開展相應測試或測試結果不佳,均需明確產(chǎn)品使用限制和必要警示提示信息。
第三方數(shù)據(jù)庫可用于算法性能評估,但其類型、用途等情況各不相同,未必能夠完全滿足軟件確認測試的要求。因此,使用第三方數(shù)據(jù)庫進行軟件確認測試,需評估其滿足軟件確認測試的充分性、適宜性和有效性。
可用于軟件確認測試的第三方數(shù)據(jù)庫即為測評數(shù)據(jù)庫。測評數(shù)據(jù)庫除滿足數(shù)據(jù)庫通用要求(如數(shù)據(jù)管理、網(wǎng)絡安全與數(shù)據(jù)安全、可擴展性)外,還應滿足以下專用要求。
1.權威性:測評數(shù)據(jù)庫的數(shù)據(jù)采集、數(shù)據(jù)標注及其質控工作由相應臨床專業(yè)領域的權威機構(如國家臨床醫(yī)學研究中心等)負責,以保證數(shù)據(jù)準確性;標注人員、審核人員、仲裁人員需具備與其崗位職責相匹配的臨床實踐經(jīng)驗,以保證數(shù)據(jù)質量。
2.科學性:測評數(shù)據(jù)庫的數(shù)據(jù)樣本均為臨床真實數(shù)據(jù),不得進行數(shù)據(jù)擴增;樣本分布符合目標疾病流行病學特征情況,樣本總量基于目標疾病流行病學統(tǒng)計指標、測試抽樣誤差控制要求,通過統(tǒng)計學計算予以確定;單次測試原則上根據(jù)測評數(shù)據(jù)庫樣本分布情況等比例隨機抽取測試樣本,且其樣本量滿足測試抽樣誤差控制要求。
3.規(guī)范性:測評數(shù)據(jù)庫的數(shù)據(jù)采集、數(shù)據(jù)脫敏、數(shù)據(jù)清洗、數(shù)據(jù)預處理、數(shù)據(jù)標注、數(shù)據(jù)更換、數(shù)據(jù)管理、數(shù)據(jù)安全保證、數(shù)據(jù)備份等數(shù)據(jù)治理活動以及測評活動均需建立質控程序文件,并滿足可追溯性要求。
4.多樣性:測評數(shù)據(jù)庫的樣本需來源于多家、多地域、多層級的代表性臨床機構以及多家、多種、多參數(shù)的代表性采集設備,以保證數(shù)據(jù)多樣性能夠滿足算法泛化能力評估要求;若條件具備,測評數(shù)據(jù)庫可包含適當比例的罕見或特殊的臨床真實數(shù)據(jù)樣本,以便開展壓力測試深入評估算法泛化能力的極限。
5.封閉性:測評數(shù)據(jù)庫需封閉管理,樣本總量需遠大于單次測試樣本量,測評活動亦需封閉管理,以保證算法性能評價的客觀性、公正性、公平性。
6.動態(tài)性:測評數(shù)據(jù)庫需定期補充或更換一定比例的數(shù)據(jù)樣本,以保證其具備持續(xù)的科學性、多樣性和封閉性以及數(shù)據(jù)的時效性;數(shù)據(jù)補充或更換的頻率、比例需有確定依據(jù),并滿足規(guī)范性要求。更換出庫的數(shù)據(jù)樣本由測評數(shù)據(jù)庫責任方自行確定其處理方案。
基于測評數(shù)據(jù)庫,利用數(shù)據(jù)擾動、生成對抗網(wǎng)絡等技術,可衍生出對抗測評數(shù)據(jù)庫。若條件具備,建議基于測評數(shù)據(jù)庫建設對抗測評數(shù)據(jù)庫,以全面深入評價算法性能。
注冊申請人可依據(jù)上述專用要求對第三方數(shù)據(jù)庫進行篩選,若第三方數(shù)據(jù)庫能用作測評數(shù)據(jù)庫(含對抗測評數(shù)據(jù)庫,下同)則可用于軟件確認測試,并在產(chǎn)品注冊申報時按醫(yī)療器械主文檔登記事項要求提交測評數(shù)據(jù)庫評估材料。
公開數(shù)據(jù)庫因不具備封閉性而不能用作測評數(shù)據(jù)庫,但可用于算法性能評估,若用于算法訓練需重新進行質量評估。使用公開數(shù)據(jù)庫需根據(jù)其使用情況開展必要評估工作,并在注冊申報資料中予以說明。
其他類型第三方數(shù)據(jù)庫可參照測評數(shù)據(jù)庫和公開數(shù)據(jù)庫的要求予以使用,同時考慮其適用場景、數(shù)據(jù)質量評估、時效性等要求。
白盒算法的特征提取需要人為干預,可與現(xiàn)有醫(yī)學知識建立關聯(lián),可解釋性高,通常為基于模型的算法。
對于此類算法,有監(jiān)督學習的模型/數(shù)據(jù)質控要求參照有監(jiān)督深度學習執(zhí)行,不適用內容詳述理由并予以記錄。同理,無監(jiān)督學習的模型/數(shù)據(jù)質控要求亦參照有監(jiān)督深度學習執(zhí)行,其中數(shù)據(jù)標注不適用,其余不適用內容詳述理由并予以記錄。
此類算法無論有監(jiān)督學習還是無監(jiān)督學習,均需明確特征信息,如特征分類(如人口統(tǒng)計學、生物學、形態(tài)學)、特征屬性(如形態(tài)、紋理、性質、尺寸、邊界)、特征展現(xiàn)方式(如形狀、尺寸、邊界、顏色、數(shù)量)等信息。
集成學習是指產(chǎn)生多個基學習器并以某種結合策略將基學習器進行集成的人工智能算法。集成學習從不同角度具有不同類型劃分維度,如同質和異質的基學習器集成算法、串行和并行的集成算法等,并可與深度學習等人工智能算法組合使用。
人工智能醫(yī)療器械若使用集成學習算法,注冊申報資料需明確算法的名稱、類型、輸入輸出、流程圖、運行環(huán)境等基本信息以及算法選用依據(jù),并根據(jù)集成學習類型及其算法特性提供算法驗證與確認資料。
遷移學習是指將在某領域或任務學習到的模型應用于不同但相關的領域或任務的人工智能算法,如將在自然圖像領域學習形成的模型應用于醫(yī)學圖像領域。遷移學習主要包括基于特征和基于模型的算法,并可與深度學習、聯(lián)邦學習等人工智能算法組合使用。
人工智能醫(yī)療器械若使用遷移學習算法,注冊申報資料需明確算法的名稱、類型、輸入輸出、流程圖、運行環(huán)境等基本信息以及算法選用依據(jù),并根據(jù)遷移學習的類型及其算法特性提供預訓練模型的數(shù)據(jù)集構建、算法測試等資料。
強化學習是指基于行動與環(huán)境的交互,實現(xiàn)行動從環(huán)境所獲累積獎勵最大化的人工智能算法,采用“試錯”的學習策略。強化學習從不同角度具有不同類型劃分維度,如有模型與無模型的算法、基于策略和基于價值的算法等,并可與深度學習等人工智能算法組合使用。
人工智能醫(yī)療器械若使用強化學習算法,注冊申報資料需明確算法的名稱、類型、輸入輸出、流程圖、運行環(huán)境等基本信息以及算法選用依據(jù),并根據(jù)強化學習類型及其算法特性提供算法驗證與確認資料。
聯(lián)邦學習是基于多個數(shù)據(jù)源協(xié)同建立學習模型的人工智能算法,即每個數(shù)據(jù)源獨立進行本地數(shù)據(jù)學習,通過交換數(shù)據(jù)模型共同建立學習模型,實為分布式算法訓練技術,亦屬于隱私計算技術。聯(lián)邦學習主要包括橫向聯(lián)邦(基于樣本)和縱向聯(lián)邦(基于特征)等算法,并可與遷移學習等人工智能算法組合使用。
人工智能醫(yī)療器械若使用聯(lián)邦學習算法等隱私計算技術進行算法訓練,注冊申報資料需明確算法的名稱、類型、輸入輸出、流程圖、運行環(huán)境等基本信息以及算法選用依據(jù),并根據(jù)聯(lián)邦學習等隱私計算技術的算法類型及其算法特性提供算法驗證與確認資料。
生成對抗網(wǎng)絡是通過生成器和判別器的互相博弈學習而產(chǎn)生與真實數(shù)據(jù)類似樣本的人工智能算法,主要用于數(shù)據(jù)擴增、對抗測試的樣本生成(詳見前文),并可與深度學習等人工智能算法組合使用。
人工智能醫(yī)療器械若使用生成對抗網(wǎng)絡進行數(shù)據(jù)擴增、對抗樣本生成,注冊申報資料需明確算法的名稱、類型、輸入輸出、流程圖、運行環(huán)境等基本信息以及算法選用依據(jù),并根據(jù)生成對抗網(wǎng)絡類型及其算法特性提供算法測試資料。此時,建議開展對抗測試。
持續(xù)學習/自適應學習具備自學習能力,部署后可通過持續(xù)學習用戶數(shù)據(jù)而進行產(chǎn)品快速更新。此時,用戶亦成為產(chǎn)品開發(fā)者,與注冊申請人共同承擔產(chǎn)品質量責任和法律責任;同時,此種更新對于產(chǎn)品安全有效性的影響具有高度不確定性,特別是基于數(shù)據(jù)的無監(jiān)督學習。
因此,在當前法律法規(guī)體系和技術水平條件下,持續(xù)學習/自適應學習應關閉自學習功能,或者雖開放自學習功能但不得投入使用,即用戶始終使用產(chǎn)品原有功能,自學習功能僅用于算法訓練或醫(yī)學科研。
注冊申請人應按照質量管理體系要求,對自學習功能所產(chǎn)生的產(chǎn)品更新的安全有效性進行驗證與確認,必要時申請變更注冊,待批準后方能將自學習功能所產(chǎn)生的產(chǎn)品更新投入使用。
人工智能算法編程框架(以下簡稱算法框架)從開發(fā)者角度可分為自研算法框架和現(xiàn)成算法框架,其中自研算法框架即注冊申請人自行研發(fā)的人工智能算法框架,屬于自研軟件;現(xiàn)成算法框架是指注冊申請人所使用的由第三方開發(fā)的人工智能算法框架,視為現(xiàn)成軟件,現(xiàn)成算法框架開發(fā)者視為醫(yī)療器械供應商。
算法框架更新包括產(chǎn)品更新(即更換算法框架)、版本更新、補丁更新,其中產(chǎn)品更新、非效率型版本更新對于人工智能醫(yī)療器械而言屬于重大軟件更新,效率型版本更新(即運算效率單純提高)、補丁更新對于人工智能醫(yī)療器械而言通常屬于輕微軟件更新,除非影響到人工智能醫(yī)療器械的安全性或有效性。算法框架同時發(fā)生多種類型的更新,同樣遵循風險從高原則。
算法框架可參照自研軟件、現(xiàn)成軟件相關要求提交相應注冊申報資料,均需明確算法框架的名稱、類型(自研算法框架、現(xiàn)成算法框架)、型號規(guī)格、完整版本、制造商等信息。算法框架若基于云計算平臺,相關要求詳見前文關于云計算的要求。
人工智能芯片作為計算資源的組成部分,本身不屬于監(jiān)管對象,根據(jù)其所屬的計算平臺類型考慮監(jiān)管要求。對于人工智能獨立軟件,人工智能芯片作為通用計算平臺的組成部分,不屬于產(chǎn)品結構組成,按照運行環(huán)境予以考慮。對于人工智能軟件組件,人工智能芯片作為醫(yī)用計算平臺的組成部分,屬于產(chǎn)品結構組成,與產(chǎn)品進行整體評價。
無論何種情況,使用人工智能芯片均需在注冊申報資料中明確其名稱、型號規(guī)格、制造商、性能指標等信息。
算法研究報告適用于人工智能算法或算法組合的初次發(fā)布和再次發(fā)布,包括算法基本信息、算法風險管理、算法需求規(guī)范、數(shù)據(jù)質控、算法訓練、算法驗證與確認、算法可追溯性分析、結論等內容,不適用內容詳述理由。
1.算法基本信息
明確算法的名稱、類型、結構、輸入輸出、流程圖、算法框架、運行環(huán)境等基本信息以及算法選用依據(jù)。
其中,算法類型從學習策略、學習方法、可解釋性等角度明確算法特性。算法結構明確算法的層數(shù)、參數(shù)規(guī)模等超參數(shù)信息。算法框架明確所用人工智能算法框架的基本信息,包括名稱、類型(自研算法框架、現(xiàn)成算法框架)、型號規(guī)格、完整版本、制造商等信息;若基于云計算平臺,明確云計算的名稱、服務模式、部署模式、配置以及云服務商的名稱、住所、服務資質。運行環(huán)境明確算法正常運行所需的典型運行環(huán)境,包括硬件配置、外部軟件環(huán)境、網(wǎng)絡條件;若使用人工智能芯片需明確其名稱、型號規(guī)格、制造商、性能指標等信息。算法選用依據(jù)詳述人工智能算法或算法組合選用的理由和基本原則。
2.算法風險管理
明確算法的軟件安全性級別(輕微、中等、嚴重)并詳述判定理由。提供算法風險管理資料,明確過擬合與欠擬合、假陰性與假陽性、數(shù)據(jù)污染與數(shù)據(jù)偏倚(如數(shù)據(jù)擴增)等風險的控制措施。若無單獨文檔可提供軟件風險管理資料,并注明算法風險管理所在位置。
3.算法需求規(guī)范
提供算法需求規(guī)范文檔,若無單獨文檔可提供軟件需求規(guī)范,并注明算法需求所在位置。
4.數(shù)據(jù)質控
提供數(shù)據(jù)來源合規(guī)性聲明,列明數(shù)據(jù)來源機構的名稱、所在地域、數(shù)據(jù)收集量、倫理批件(或科研合作協(xié)議)編號等信息。
提供數(shù)據(jù)采集操作規(guī)范文檔,根據(jù)數(shù)據(jù)采集方式明確采集設備、采集過程、數(shù)據(jù)脫敏等質控要求。
概述數(shù)據(jù)整理情況,明確數(shù)據(jù)清洗、數(shù)據(jù)預處理的質控要求。
提供數(shù)據(jù)標注操作規(guī)范文檔,明確標注資源管理、標注過程質控、標注質量評估、數(shù)據(jù)安全保證等要求。
若適用,提供數(shù)據(jù)擴增情況說明,明確擴增的對象、方式、方法、倍數(shù)等信息。
依據(jù)適用人群、數(shù)據(jù)來源機構、采集設備、樣本類型等因素,提供原始數(shù)據(jù)庫、基礎數(shù)據(jù)庫、標注數(shù)據(jù)庫、擴增數(shù)據(jù)庫關于疾病構成的數(shù)據(jù)分布情況。
若數(shù)據(jù)來自公開數(shù)據(jù)庫,提供公開數(shù)據(jù)庫的基本信息(如名稱、創(chuàng)建者、數(shù)據(jù)總量等)和使用情況(如數(shù)據(jù)使用量、數(shù)據(jù)質量評估、數(shù)據(jù)分布等)。
5.算法訓練
依據(jù)適用人群、數(shù)據(jù)來源機構、采集設備、樣本類型等因素,提供訓練集、調優(yōu)集(若有)關于疾病構成的數(shù)據(jù)分布情況。
明確算法訓練所用的評估指標、訓練方式、訓練目標、調優(yōu)方式(若有),提供ROC曲線或混淆矩陣等證據(jù)證明訓練目標滿足醫(yī)療要求,提供訓練數(shù)據(jù)量-評估指標曲線等證據(jù)以證實算法訓練的充分性和有效性。
6.算法驗證與確認
依據(jù)適用人群、數(shù)據(jù)來源機構、采集設備、樣本類型等因素,提供測試集關于疾病構成的數(shù)據(jù)分布情況。
提供假陰性與假陽性、重復性與再現(xiàn)性、魯棒性/健壯性、實時性等適用指標的算法性能評估結果,以證明算法性能滿足算法設計目標。
若使用第三方數(shù)據(jù)庫開展算法性能評估,提供第三方數(shù)據(jù)庫的基本信息(如名稱、創(chuàng)建者、數(shù)據(jù)總量等)和使用情況(如測試數(shù)據(jù)樣本量、評估指標、評估結果等)。
若適用,提供算法性能影響因素分析報告,明確影響算法性能的主要因素及其影響程度,以及產(chǎn)品使用限制和必要警示提示信息。
若適用,提供壓力測試、對抗測試等測試報告。若未開展相應測試或測試結果不佳,均需明確產(chǎn)品使用限制和必要警示提示信息。
若基于測評數(shù)據(jù)庫進行算法確認,提供測評數(shù)據(jù)庫的基本信息(如名稱、創(chuàng)建者、數(shù)據(jù)總量等)、評估情況(如評估方法、評估指標、評估結果等)、使用情況(如評估指標、評估結果等)。若基于臨床評價方式進行算法確認,指向臨床評價資料即可。
提供上述各類測試場景(含臨床評價)下的算法性能評估結果比較分析報告,明確產(chǎn)品使用限制和必要警示提示信息。
7.算法可追溯性分析
提供算法可追溯性分析報告,即追溯算法需求、算法設計、源代碼(明確軟件單元名稱即可)、算法測試、算法風險管理的關系表。
若無單獨文檔可提供軟件可追溯性分析報告,并注明算法可追溯性分析所在位置。
8.結論
簡述算法性能綜合評價結果,明確對產(chǎn)品的適用范圍、使用場景、核心功能所做的必要限制,并判定人工智能算法或算法組合的安全有效性是否滿足要求。
算法更新研究報告僅適用于人工智能算法或算法組合的再次發(fā)布,在算法研究報告相應內容中明確算法更新情況。
其中,算法基本信息描述申報算法情況,若適用詳述與前次注冊相比的變化情況;算法風險管理、算法需求規(guī)范、數(shù)據(jù)質控、算法訓練、算法驗證與確認、算法可追溯性分析描述算法更新的具體情況;結論簡述算法性能綜合評價結果,并判定人工智能算法或算法組合更新的安全有效性是否滿足要求。
考慮到算法更新具有累積效應,算法更新研究報告需涵蓋人工智能醫(yī)療器械自前次注冊(延續(xù)注冊除外)以來算法更新的全部內容。
注冊申報資料在符合醫(yī)療器械注冊申報資料要求等文件要求基礎上,滿足醫(yī)療器械軟件、醫(yī)療器械網(wǎng)絡安全、移動醫(yī)療器械等相關指導原則要求,同時重點關注以下要求。
1.申請表信息
(1)人工智能獨立軟件
產(chǎn)品名稱應符合通用名稱命名規(guī)范要求,通常體現(xiàn)輸入數(shù)據(jù)(如CT圖像、眼底照片)、目標疾。ê∽儭⒓膊〉膶傩裕、預期用途(如輔助分診、輔助評估、輔助檢測、輔助診斷)等特征詞。
結構組成所述功能模塊需保證用語的規(guī)范性,若采用人工智能算法需體現(xiàn)核心算法名稱,如深度學習等。
適用范圍基于預期用途、使用場景、核心功能予以規(guī)范,如處理對象、目標疾病、醫(yī)療用途、適用人群、目標用戶、使用場所、采集設備要求、使用限制等。
(2)人工智能軟件組件
人工智能軟件組件通常無需在注冊證載明信息中體現(xiàn)。其軟件功能名稱可參照人工智能獨立軟件要求。若有輔助決策類軟件功能,結構組成(若適用)和適用范圍需予以體現(xiàn)。
2.算法研究資料
對于軟件安全性級別為中等、嚴重級別的產(chǎn)品,全新類型在軟件研究資料中以算法為單位,提交每個人工智能算法或算法組合的算法研究報告,具體要求詳見第六章;成熟類型在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。
對于軟件安全性級別為輕微級別的產(chǎn)品,在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。
3.用戶培訓方案
對于軟件安全性級別為嚴重級別、預期由患者使用或在基層醫(yī)療機構使用的產(chǎn)品,原則上需單獨提供一份用戶培訓方案,包括用戶培訓的計劃、材料、方式、師資等。
4.產(chǎn)品技術要求
產(chǎn)品技術要求若含有基于測評數(shù)據(jù)庫測試的性能指標,需在“附錄”中明確測評數(shù)據(jù)庫的基本信息(如名稱、型號規(guī)格、完整版本、責任方、主文檔登記編號等)。
基于其他類型第三方數(shù)據(jù)庫測試的性能指標,原則上無需在產(chǎn)品技術要求中體現(xiàn)。
5.說明書
根據(jù)算法性能綜合評價結果,對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制,并在說明書中明確產(chǎn)品使用限制和必要警示提示信息。若適用,明確數(shù)據(jù)采集設備和數(shù)據(jù)采集過程相關要求。
對于輔助決策類產(chǎn)品,說明書需明確人工智能算法的算法性能評估總結(測試集基本信息、評估指標與結果)、臨床評價總結(臨床數(shù)據(jù)基本信息、評價指標與結果)、決策指標定義(或提供決策指標定義所依據(jù)的臨床指南、專家共識等參考文獻)等信息。此時若采用基于數(shù)據(jù)的人工智能算法,說明書還需補充算法訓練總結信息(訓練集基本信息、訓練指標與結果)。
若產(chǎn)品采用人工智能黑盒算法,則需根據(jù)算法影響因素分析報告,在說明書中明確產(chǎn)品使用限制和必要警示提示信息。
1.算法研究資料
對于軟件安全性級別為中等、嚴重級別的產(chǎn)品,全新類型在軟件研究資料中以算法為單位,根據(jù)人工智能算法的更新情況,提交每個人工智能算法或算法組合的算法更新研究報告(或算法研究報告),具體要求詳見第六章;成熟類型在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。
對于軟件安全性級別為輕微級別的產(chǎn)品,在軟件研究資料中明確算法基本信息即可,無需提供算法研究資料。
2.用戶培訓方案
若適用,提交用戶培訓方案變化情況說明。
3.產(chǎn)品技術要求
若適用,產(chǎn)品技術要求變更對比表需體現(xiàn)測評數(shù)據(jù)庫的變化情況[5]。
4.說明書
若適用,提交說明書變化情況說明。
延續(xù)注冊通常無需提交算法相關研究資料。若適用,根據(jù)注冊證“備注”所載明的要求提交相應算法研究資料。
[1] 全國人大. 中華人民共和國個人信息保護法[Z],2021.8
[2] 原國家食品藥品監(jiān)督管理總局.醫(yī)療器械說明書和標簽管理規(guī)定(總局令第6號)[Z],2014.7
[3] 國家市場監(jiān)督管理總局.醫(yī)療器械注冊與備案管理辦法(總局令第47號)[Z],2021.8
[4] 原國家食品藥品監(jiān)督管理總局. 醫(yī)療器械生產(chǎn)質量管理規(guī)范(2014年第64號公告)[Z],2014.12
[5] 國家藥品監(jiān)督管理局.醫(yī)療器械主文檔登記事項(2021年第36號公告)[Z],2021.3
[6] 國家市場監(jiān)督管理總局.醫(yī)療器械注冊申報資料要求和批準證明文件格式(2021年第121號公告)[Z],2021.9
[7] 原國家食品藥品監(jiān)督管理總局.移動醫(yī)療器械注冊技術審查指導原則(2017年第222號通告)[Z],2017.12
[8] 國家藥品監(jiān)督管理局. 醫(yī)療器械生產(chǎn)質量管理規(guī)范附錄獨立軟件(2019年第43號通告)[Z],2019.7
[9] 國家藥品監(jiān)督管理局.醫(yī)療器械安全和性能的基本原則(2020年第18號通告)[Z],2020.3
[10] 國家藥品監(jiān)督管理局. 人工智能醫(yī)用軟件產(chǎn)品分類界定指導原則(2021年第47號通告)[Z],2021.7
[11] 國家藥品監(jiān)督管理局. 醫(yī)用軟件通用名稱命名指導原則(2021年第48號通告)[Z],2021.7
[12] 國家藥品監(jiān)督管理局.醫(yī)療器械臨床評價技術指導原則(2021年第73號通告)[Z],2021.9
[13] 國家藥品監(jiān)督管理局. 醫(yī)療器械生產(chǎn)質量管理規(guī)范獨立軟件現(xiàn)場檢查指導原則(藥監(jiān)綜械管〔2020〕57號)[Z],2020.5
[14] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心.醫(yī)療器械軟件技術審查指導原則(第二版)(征求意見稿)[Z],2020.6
[15] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心.醫(yī)療器械網(wǎng)絡安全技術審查指導原則(第二版)(征求意見稿)[Z],2020.9
[16] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心.醫(yī)療器械人因設計技術審查指導原則(征求意見稿)[Z],2020.5
[17] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心.深度學習輔助決策醫(yī)療器械軟件審評要點(2019年第7號通告)[Z],2019.7
[18] 國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心. 肺炎CT影像輔助分診與評估軟件審評要點(試行)(2020年第8號通告)[Z],2020.3
[19] 國家衛(wèi)生健康委員會. 人工智能輔助診斷技術管理規(guī)范(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號)[Z],2017.2
[20] 國家衛(wèi)生健康委員會. 人工智能輔助診斷技術臨床應用質量控制指標(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號)[Z],2017.2
[21] 國家衛(wèi)生健康委員會. 人工智能輔助治療技術管理規(guī)范(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號)[Z],2017.2
[22] 國家衛(wèi)生健康委員會. 人工智能輔助治療技術臨床應用質量控制指標(國衛(wèi)辦醫(yī)發(fā)〔2017〕7號)[Z],2017.2
[23] GB/T 25000.12-2017 系統(tǒng)與軟件工程 系統(tǒng)與軟件質量要求和評價(SQuaRE)第12部分:數(shù)據(jù)質量模型[S]
[24] YY/T 0287-2017 醫(yī)療器械 質量管理體系 用于法規(guī)的要求[S]
[25] YY/T 0316-2016 醫(yī)療器械 風險管理對醫(yī)療器械的應用[S]
[26] YY/T 0664-2020 醫(yī)療器械軟件 軟件生存周期過程[S]
[27] YY/T 1406.1-2016 醫(yī)療器械軟件 第1部分:YY/T 0316應用于醫(yī)療器械軟件的指南[S]
[28] YY/T 人工智能醫(yī)療器械質量要求和評價 第1部分:術語(報批稿)[S],2020.12
[29] YY/T 人工智能醫(yī)療器械質量要求和評價 第2部分:數(shù)據(jù)集通用要求(報批稿)[S],2020.12
[30] YY/T 人工智能醫(yī)療器械質量要求和評價 第3部分:數(shù)據(jù)標注通用要求(報批稿)[S],2021.12
[31] YY/T 人工智能醫(yī)療器械 肺部影像輔助分析軟件 算法性能測試方法(報批稿)[S],2021.12
[32] AIMDICP-WG6-2020-001 基于眼底彩照的糖尿病視網(wǎng)膜病變輔助決策產(chǎn)品性能指標和測試方法[S],2020.7
[33] AIMDICP-WG6-2020-002 基于胸部CT的肺結節(jié)影像輔助決策產(chǎn)品性能指標和測試方法[S],2020.7
[34] IMDRF/AIMD WG/N67, Machine Learning-enabled Medical Devices - A subset of Artificial Intelligence-enabled Medical Devices: Key Terms and Definitions[Z], 2021.9
[35] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data[Z], 2012.7
[36] FDA. Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data[Z], 2012.7
[37] FDA, Developing a Software Precertification Program: A Working Model[Z], 2019.1
[38] FDA. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning(AI/ML) - Based Software as a Medical Device(SaMD) (Draft Guidance)[Z], 2019.4
[39] FDA, Clinical Decision Support Software (Draft Guidance)[Z], 2019.9
[40] FDA. Artificial Intelligence and Machine Learning(AI/ ML) Software as a Medical Device(SaMD) Action Plan[Z], 2021.1
[41] FDA/Health Canada/MHRA. Good Machine Learning Practice for Medical Device Development: Guiding Principles[Z], 2021.10
[42] FDA. Technical Considerations for Medical Devices with Physiologic Closed-Loop Control Technology(Draft Guidance)[Z], 2021.12
[43] AAMI/BSI. Artificial Intelligence and Machine Learning - the Emergence of Artificial Intelligence and Machine Learning Algorithmsin Healthcare: Recommendations to Support Governance and Regulation[Z], 2019
[44] AAMI/BSI. Machine Learning AI in Medical Devices: Adapting Regulatory Frameworks and Standards to Ensure Safety andPerformance[Z], 2020
[45] BSI. Recent Advancements in AI - Implications for Medical Device Technology and Certification[Z], 2020
[46] ISO/IEC TR 5469(WD) Artificial intelligence-Functional safety and AI systems[S]
[47] ISO/IEC TR 24028:2020Information technology - Artificial intelligence - Overview of trustworthiness in artificial intelligence[S]
[48] ISO/IEC TR 24029-1:2021 Artificial Intelligence(AI) - Assessment of the robustness of neural networks - Part 1: Overview[S]
[49] ISO/IEC TR 24030:2021 Information technology - Artificial intelligence(AI) - Use cases[S]
[50] ISO/IEC TR 29119-11:2020 Software and systems engineering - Software testing - Part 11: Guidelines on the testing of AI-based systems[S]
[51] 人工智能醫(yī)療器械創(chuàng)新合作平臺[Z]. https://www.aimd.org.cn
[52]IMDRF AIMD WG[Z]. https://www.imdrf.org/workitems/ wi-aimd.asp
[53] ITU/WHO FG-AI4H [Z]. https://www.itu.int/go/fgai4h
[54] IEEE AIMD WG[Z]. https://sagroups.ieee.org/aimdwg
[1]取代《深度學習輔助決策醫(yī)療器械軟件審評要點》非臨床部分的要求。
[2]人工智能領域稱之為驗證集(Validation set)。為避免與醫(yī)療器械領域所用術語驗證(Verification)、確認(Validation)相混淆,本指導原則將其改稱為調優(yōu)集。
[3]醫(yī)學知識作為醫(yī)療器械的外部參考準則,其自身評價問題不屬于醫(yī)療器械安全有效性評價范疇。
[4]與軟件工程領域的壓力測試含義不同。
[5]測評數(shù)據(jù)庫作為產(chǎn)品評價工具,其自身更新原則上無需申請變更注冊,注冊申請人可根據(jù)情況自行決定。
錄入時間:2022/4/20 10:56:12 點擊次數(shù):533
實驗室地址(濟南):山東省濟南市高新區(qū)大正路1777號生物醫(yī)藥園中小企業(yè)產(chǎn)業(yè)化基地6號樓405
實驗室地址(棗莊):山東省棗莊市高新區(qū)新醫(yī)藥產(chǎn)業(yè)園三號樓二樓東側
Email:sdbangzhong@163.com
咨詢電話:0531-67984890
公司公眾號:邦眾檢測