首個AI臨床試驗國際指南誕生,醫療AI有望規范
醫學領域有著一整套長期積累下來的復雜規范體系和專業操作準則,即便是人工智能作為新的生產工具來勢洶洶,常有“顛覆性”新聞,也須謙虛審慎地融入到這個體系之中。 現在,一個權威國際小組已經制定了旨在提高AI臨床研究質量、并確保研究報告的透明性的指導方針。
此舉將使患者、衛生保健專業人員和政策制定者對人工智能應用是否安全和有效更有把握,是在醫療健康領域塑造值得信賴的AI的關鍵一步。 SPIRIT-AI、CONSORT-AI的誕生作為醫學領域的頂刊,《自然醫學》(Nature Medicine)、《英國醫學雜志》(BMJ)和《柳葉刀》(the Lancent)近日聯合發布了首個AI臨床試驗國際標準( the first international standards for reporting of clinical trials for AI.):用以規范AI臨床試驗報告的兩大指南SPIRIT-AI[1]、CONSORT-AI[2]。由來自伯明翰大學和伯明翰大學醫院NHS基金會的研究人員與來自世界各地的領先機構(包括美國和加拿大)合作推出。 SPIRIT、CONSORT作為兩套基本標準,支配著臨床實驗科學合理地開展,臨床試驗需要遵從Consort規范和Spirit規范。 其中,SPIRIT是臨床試驗研究計劃書指南,Standard Protocol Items: Recommendations for Interventional Trials,是臨床試驗的核心,針對臨床試驗方案的報道,CONSORT則是針對臨床試驗報告的統一標準,Consolidated Standards of Reporting Trials,針對的是臨床試驗結果的報道。
二者雖不相同卻有相通之處。SPIRIT規范對于研究的監督要求會更加具體,是專門為隨機對照臨床試驗(RCT)報告制訂的指南。隨機對照試驗是證明一種治療或臨床手段有效性、安全性最值得信賴的方法,也是諸多醫療實踐和衛生政策的基礎。 自誕生以來,SPIRIT、CONSORT兩套關于臨床試驗如何進行和報告的指南,已在全球范圍內被用于指導藥物開發、診斷測試和其他醫療干預措施,同時也會隨著這一領域的變化而時有更新。 這一次SPIRIT-AI、CONSORT-AI的更新,便是針對AI技術浪潮而來。兩項新的指南都經過了行業人士階段性的討論、評估并達成共識。 最終,相較于SPIRIT 2013版本,SPIRIT-AI則增加了15個新項目,而相較于CONSORT 2010年更新版,CONSORT-AI擴展了14個新條目,總共更新的25個條目,被認為對評估AI介入效果非常重要,包括對AI介入環節進行清晰的描述、使用說明、使用AI所需的技能、AI的集成環境、AI輸入和輸出、人機交互細節和提供錯誤案例分析等。
如撰寫團隊所言,SPIRIT-AI、CONSORT-A的推出,旨在幫助提高針對AI介入臨床試驗的透明度和完整性,解釋和嚴格評估臨床試驗設計的質量以及報告結果存在偏倚的風險。 伯明翰健康伙伴中心監管科學與創新中心AI負責人、UHB眼科顧問Alastair Denniston教授評論道:"患者可以從醫療環境中使用人工智能中受益匪淺,但在我們將這些技術引入日常實踐之前,我們需要知道它們已經經過了強有力的評估,并被證明是有效和安全的。我們之前的工作表明,這可能是一個多么大的問題,我們需要一種方法來切斷圍繞AI在醫療保健中的炒作。
圍繞醫療AI的炒作有望被規范
目前,AI技術的發展仍有太多的未知和炒作,即便是在事關個人生命安危的醫學領域,大量將AI系統用于疾病篩選和分類、診斷、預測、決策支持和治療建議環節的研究也層出不窮。 特別是過去幾年,深度學習的復興帶動許多新的AI工具被開發出來,相應的研究也得以發表在一些權威醫學期刊上,但由于試驗設計質量參差不齊,具體的有效性很難進行比較和評估。今年3月,BMJ的一項研究就警告道,研究不當和夸大其詞地宣稱AI在醫學圖像識別能力有多好(匹敵甚至超過人類醫生表現),給數百萬患者帶來了風險。 沒有統一的行業評判標準,也讓商業公司們鉆了空子,進而大肆宣傳其AI應用的有效性。例如,總部位于英國的數字健康公司Babylon Health,曾在2018年宣布其診斷聊天機器人 "與人類醫生相當 ",后受到輿論的抨擊,批評者認為公司提供的聊天機器人測試具有誤導性。因為有患者反饋,如果出現典型的心臟病發作癥狀,這個聊天機器人會建議你呆在家里,如果是腦膜炎的話就好好休息。 Babylon Health遠非孤例。
大量AI醫療應用的開發者一直聲稱醫療人工智能的性能超過或匹配人類的能力。實際上的大多數情況,對這些人工智能的評估是在公司實驗室內部封閉或者說相對有利的條件下進行的。還有公司在進行AI醫療產品試驗時,會傾向于采用“離岸外包”(off-shoring)的形式:在監管環境較為寬松的管轄區中使用,那些地區的人民群眾極度缺乏基本醫療服務,任何治療都比沒有治療好。

IBM部分AI醫療合作項目。圖片出處:spectrum.ieee
再往前追溯,AI 醫療的鼻祖——IBM Watson,現在也處于比較尷尬的狀態。IBM 于 2011 年開始致力于將沃森引入醫療保健行業。從那時起,該公司發布了近 50 份關于合作伙伴關系的公告,主要是合作開發基于人工智能的新型醫療保健應用,一部分合作致力于為醫生和機構提供工具;另一部分則屬于消費者應用。雖然許多聯盟和合作最終都沒有產生商業產品,但 IBM 表示這些研究工作很有價值。 IEEE Spectrum 的編輯 Eliza Strickland 曾發表一篇文章,反思了IBM Watson為何被高估的想象,她認為,自2011年以來的八年里,IBM 大肆宣揚開發人工智能醫療技術,但其中許多已經失敗了。此外,IBM 沃森醫療健康部門生產的產品,更像是只能執行日常任務的基本 AI 助手,甚至連 AI 醫生都算不上。 當然,這并不是說人工智能就不可能勝過人類醫生,也不是要否定這些探索。本質問題在于,我們還是沒有達成共識的手段去評估和證明AI在臨床試驗乃至整個醫療保健領域有效性。這便是為何需要規范和監管的原因。 SPIRIT-AI、CONSORT-AI的誕生,正是為了提高AI臨床試驗透明性、可靠性的諸多努力之一。彌補該領域承諾與證明之間的巨大差距,將是所有人都樂見的事情。

CONSORT-AI與CONSORT 2013版本的Checklist對比。圖片出處:CONSORT-AI

SPIRIT-AI與SPIRIT 2013版本的Checklist對比。
圖片出處:SPIRIT-AI Reference[1]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence
[2]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













