久久精品女人做a爰片久久网,久国产人妻午夜一区二区三区,国产电影无码午夜在线播放,亚洲视频观看肏翻兒子上

AI如何更懂醫？看騰訊天衍實驗室智能醫療診斷技術創新

2022-01-05 18:19

近年來，在互聯網技術和政策、疫情等大環境的推動下，在線問診需求正高速增長，自然語言處理（NLP）技術在該領域的研究成果和應用落地也越來越多。雖然，智能問診已經能夠實現預診斷，但很多時候系統給出的診斷結果與現實情況大相徑庭。舉例來說，當我們能準確地給出“體溫38．5度、有點發熱、四肢無力”等癥狀時，系統會比較容易根據提供的信息進行詢問，給出如感冒、病毒感染等相對精準基礎診斷；但如果給出諸如“疲勞”，甚至“累”“沒勁”“胸痛”等含糊不清的主訴，智能診斷系統可能就無能為力了。

這是因為，目前計算機在文本理解的精度和深度上和人類仍然有很大的差距，特別是在醫學領域，不僅要求計算機學會龐大的專業術語，形成知識圖譜；更要能讀懂沒有專業知識的患者對于癥狀的模糊主訴，并將其與專業術語做關聯。

在此過程中，研究人員除了要給算法“投喂”龐大的專業語料和日常知識，提升算法能力，加強AI對真實世界的理解，還需要用更好的策略，選擇合適的模型，優化醫療NLP領域目前面臨的問題，而這也是第二十屆中國計算語言學大會（下稱CCL2021）智能醫療對話診療評測——“智能化醫療診斷賽道”要解決的主要難點。

在此賽道中，騰訊天衍實驗室團隊提交的方案憑借較高的疾病預測準確率和癥狀召回率，成功獲得該賽道第一名，下面我們來看看這套方案是如何進行算法思考和模型選擇的。

任務難點：讓算法迅速讀懂“患者”

“智能化醫療診斷”賽道的任務是：需要選手開發一個模擬實際問診過程的可交互程序，用程序與擁有超過2000組醫患對話樣本的病人模擬器“過招”：首先，要與主辦方提供的baseline模型交手，判斷出“患者”的初始癥狀；然后，還要根據這些信息，輸出能夠進一步獲取有效信息的問題，對“患者” 進行接下來的癥狀詢問；最終，在不超過11次的交互過程中，識別出“患者”的疾病和癥狀。比賽結果也是以診斷準確率和癥狀召回率來確定。

其中的難點是，2000組的對話樣本，每個都包含著大量數據信息：疾病類別、病人自訴文本、直接信息（病人自訴中明確提及的實體信息、癥狀），甚至隱藏信息（需要結合整段醫患對話得到實體及標簽，判斷患者是否已經有該癥狀）。并且，與現實世界病人一樣，機器“患者”不會一次性把癥狀表述清楚，比如出現一種癥狀多種描述等主訴表達。

選手開發的算法和對應算法選擇的模型，不僅要能“讀懂”被“模糊描述”的癥狀，并迅速將癥狀分類；還要根據當前詢問到的病人信息，準確判斷出“患者”還可能具備什么癥狀，以便在有限的問診交互環節中，增加“患者”有效信息輸出，從而最大可能提升疾病診斷準確率以及癥狀召回率。

因此，該任務不僅考驗算法能力，更同時考驗算法和模型的搭配策略，以提升程序問診的準確性和效率。

方案對策：更高效的算法＋更合適的模型提升推理速度

為了讓AI更加理解“患者”信息，騰訊天衍實驗室利用搜索、問答、預訓練、分類等多項NLP、機器學習技術，進行程序開發，整體方案分為癥狀問詢、疾病預測兩大版塊，每個版塊都采用相同模型預測方案，同時，每個版塊細分為三個部分：基于檢索查詢歷史病例、基于自然語言的癥狀／疾病預測、基于癥狀的癥狀／疾病預測（如圖所示）。這三個部分在同一個交互周期內會同時運行，并通過加權算法進行“校準”，來得到需要繼續問詢的癥狀或者輸出診斷的疾病。

癥狀問詢預測框架圖

基于檢索查詢歷史病例部分，利用了精準搜索、模糊搜索，以及貝葉斯推理等技術，用來查找算法數據庫中的相似病例，這樣做的好處是，不僅能將主訴癥狀的模糊表述和精準表述相結合，以拓寬對于主訴癥狀和疾病的檢索范圍，還能更高效地對癥狀進行預測。

基于自然語言的疾病預測，是將癥狀列表轉化為自然語言后，利用預訓練語言模型預測查詢癥狀概率分布。值得注意的是，此部分選手們采用的模型是天衍實驗室自有的大規模醫療預訓練語言模型MedBERT，它是基于大規模的醫療在線文本由Robert繼續訓練得到的，不僅能更好適配醫療領域內的語言學習，還在多項醫療標準數據集上取得了SOTA。相比通用預訓練模型來說，MedBERT更能勝任醫療相關的任務執行。

在癥狀／疾病的預測部分，方案采用了在多項賽事中被驗證、分類效果表現優異的分類器——xgboost模型，其優勢是使學習出來的模型更加簡單，防止過擬合，因此，進一步提升了算法運行效率。

疾病預測框架圖

多策略融合召回預測的方式，不僅將檢索、自然語言疾病預測、癥狀疾病預測三種模型優勢進行互補，實現了更高的準確率和癥狀召回率，同時，在癥狀召回上，還能鼓勵更多輪的癥狀問詢，并做良好的超參數配置調優，從而獲得更高的癥狀召回率。正因如此，在最終評測中，天衍實驗室在疾病預測準確率和癥狀召回率上，均獲得了總分第一的成績，甚至，在癥狀召回率上，還超出其他團隊方案10％以上。

這一成果的獲得，不僅表明天衍實驗室在算法能力和模型具備相對優勢，同時，這也是天衍實驗室在醫療健康領域AI算法研究和應用落地深耕多年的實力體現。

騰訊天衍實驗室一直專注于醫療健康領域NLP研究，其成果已經在騰訊互聯網醫院中的導輔診、合理用藥、健康助手等業務版塊成功落地。同時，天衍實驗室還期望在行業層面推動整個NLP的創新研究：如，在深度學習頂會ICLR 2021上舉辦MLPCP挑戰賽（醫療對話生成與自動診斷國際挑戰賽），以推動醫療咨詢對話系統和預測患者可能的疾病類型等方面的創新突破；攜手CCKS 2021（全國知識圖譜與語義計算大會）和中山大學舉辦蘊含實體的中文醫療對話生成評測，以助力自然語言基礎、語言理解、信息抽取、知識圖譜構建等領域的研究創新和算法能力提升……未來，天衍實驗室仍將持續扎根醫療健康領域，持續探索和推動NLP領域學術科研與應用方向更多價值落地。