免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

侵權投訴
訂閱
糾錯
加入自媒體

中文電子病歷數據挖掘標準化時代,醫渡云如何搶坐頭把交椅?

2018-10-08 10:00
來源: 動脈網

近日,為全面實施健康中國戰略,落實《國務院辦公廳關于促進“互聯網+醫療健康”發展的意見》,國家醫政醫管局發布了《關于進一步推進以電子病歷為核心的醫療機構信息化建設工作的通知》。

《通知》中提到,要發揮臨床診療決策支持功能。鼓勵醫療機構在電子病歷信息化建設工作中,將臨床路徑、臨床診療指南、技術規范和用藥指南等嵌入信息系統,提高臨床診療規范化水平。并且指出目標,到2020年,要達到分級評價4級以上,即醫院內實現全院信息共享,并具備醫療決策支持功能。

要發展臨床決策,電子病歷的數字化、智能化成為了必然。其中,為實現數據的結構化可計算,可推理,命名實體識別(Named Entity Recognition, NER)等自然語言處理任務的重要性凸顯。

據悉,電子病歷的NER,是通過對既定電子病歷純文本文檔,識別和抽取出與醫學臨床相關的實體提及,結合數據源“現病史記錄”的內容及特點,將它們歸類到預定義類別。

它不僅是文本挖掘的第一步,還是生物醫學領域的重要工具,可被應用于諸多方面,如醫學文獻、在線醫療社區和電子醫療記錄上。所以構建電子病歷NER的公開數據集,能達到的效果可謂是“一箭多雕”——有助于使醫療實體結構化和標準化,并完成醫療實體關系抽取和醫療知識圖譜構建等任務。

國際上,已有一批面向英文電子病歷的的NER公開評測及標注數據集,包括I2b2、ShARe/ CLEF eHealth和SemEval等,但在國內,此測評尚處空白。

為了促進中文電子病歷相關研究的發展,填補國內面向電子病歷NER評測競賽及標注數據集的空白,醫渡云聯合清華大學知識工程實驗室和哈爾濱工業大學,共同組織了“面向中文電子病歷的命名實體識別”項目的測評。

NER評測競賽的初衷

據醫渡云首席人工智能科學家閆峻介紹,通常情況下,醫療數據不是醫院里有了就可以直接用于臨床應用。臨床病歷設計的初衷是面向記錄,而不是面向研究。換句話講,醫生會把臨床的所有的情況原原本本地記錄下來,但卻并沒有針對信息做面向研究和應用的加工處理。

這樣一來,臨床電子病歷大部分都是自然語言。而這種文本信息放到計算機里無法進行任何形式的計算,所以首先要做的是數據結構化。

國內信息化系統廠商繁多,不僅采用的標準,且每個醫院醫生的書寫習慣和表達習慣也不同。一些疾病的名稱,醫院里甚至有上百種表達方式。所以,要從整段的自然語言文本里提出數據,如果沒有技術支撐,需要巨大的人力投入。

“醫渡云舉辦‘面向中文電子病歷的命名實體識別’項目的測評,初衷也在于此。”閆峻說。

為了攻克難點,醫渡云首先對數據進行了“去粗取精”:一方面,在預定義類別中直接將本次測評的關鍵點——醫療實體提及、起止位置識別和預定義類別等三項進行梳理,使海量數據的“站隊”有條不紊;另一方面,在細節之處“精益求精”,單在預定義類別中就設置了五個方面:獨立癥狀、癥狀描述、解剖部位、藥物和手術。具體數據信息如下:

為了保障測評專業性和權威性,醫渡云在項目的測評的數據整理和標注環節,還組織專業的醫生團隊做后盾。且為了確保數據安全,向報名參賽的118個隊伍明確指出,數據僅限CCKS 2018 競賽評測。

為何這樣一項評測在我國要到今天才能展開?對于這一問題,醫渡云人工智能實驗室自然語言處理專家焦增濤也給出了解釋:“這與其中的技術難點不無關系。其難點一般有兩處:一是由于癥狀類型實體大多表現為結構化形式;二是一些醫學術語特有的表達方式,使電腦在識別并讀取中經常“卡殼”,這給醫學術語的整理和分門別類,產生了難度。”

因此,如果能夠克服上述難點,解決當前中文電子病歷NER可供使用的公開資源匱乏問題,其價值就能得到更大程度的體現。雖然這次評測任務由于醫療數據的敏感性所有數據都是專業醫生團隊模擬撰寫,但無論從感觀數據仿真度還是統計學意義數據分布情況均經過嚴格科學測試。

如何形成行業認可的標準?

NER評測的背后,反映出醫療數據標準化的重要性。除了命名問題,數據的質控也同等重要。

在對醫院文本進行結構化處理的過程中,醫渡云發現醫療數據的質量其實并不高。雖然醫渡云合作的醫院都是國內排名前150名的三甲醫院,但它們的數據依然有很多質量不達標、不準確的地方。

為了解決這些問題,醫渡云用三年半的時間專注開發出一個整合性極強的“醫學數據智能平臺”(DPAP),能把原始零散的不可計算數據變成高質量可計算可應用數據,平臺上聚集了大量知識圖譜、300種以上的智能處理模塊以及二十余種專病庫。

DPAP通過對散落的數據整合,構建患者的時間軸模塊,以診療事件時間為主線,完成疾病數據建模;從疾病的角度來看,DPAP還能夠提供疾病數據模型。而無論是疾病數據模型,還是患者診療模型,這都是臨床科研、路徑挖掘、療效評價、輔助診斷應用的基礎。

在此過程中,醫渡云還對整個數據的生產進行強力的質控,通過建立醫學常識的知識庫和歸一化處理,將醫院內不同的說法,映射到同一個標準。

但問題在于,標準如何制定?

現階段,在醫療行業,包括政府、學術、民間和企業在內的各種組織,都在嘗試定義各種標準。但難題在于,標準制定出來之后,如何讓行業遵從它。

閆峻表示:“醫渡云不愿意去等待標準的產生,所以我們與很多的專家、醫院去嘗試制定數據標準。另外,我們覺得更行之有效的方式是,先不通過市場去推廣標準,而是與上百家三甲醫院合作,按照每家醫院自己的習慣,幫助其數據質量提升。”

這意味著,不管是哪一家醫院,用什么樣的標準,都會跟醫渡云自己的標準形成映射。只要映射關系存在,醫渡云就可以實現臨床多中心的研究,只需在醫院授權前提下開放一個接口,所有合作的醫院都可以在一個平臺上協同合作。

只有把數據服務做好,才有機會在潛移默化中形成大家認可的標準。

標準的好壞的界定,閆峻認為可以從兩個途徑來看:一能否真正能帶來實際價值的落地,二是是否有人愿意追隨。醫渡云希望能夠把自己在科研領域的專業化產品,不僅為臨床科室賦能,還要推動醫院信息科與臨床之間產生共識和共鳴。

此外,從人才結構來看,如果真的想要形成標準,閆峻認為一定要包含醫學專家和計算機專家。

以知識圖譜為例,專家的知識和經驗,便是知識圖譜的基礎,而數據得出的規律,就是機器學習的范疇,所以兩大學派的融合,不僅是大數據和人工智能企業追求的人才結構組合,也是最終形成行業標準的必然融合。

專病數據價值多多

標準化的結果,是幫助醫院產生高質量的專病數據,這也是醫渡云這樣的大數據公司的重要價值體現。在很多的醫院的專病庫建設的過程中,醫渡云并不是醫院提供了數據,就單只作為數據的加工處理方完成交付。

工作中,會經歷很多專病庫的生產,經歷多次迭代。醫渡云先要根據醫生對數據的解釋進行加工生產,回過頭來,還要把產出的數據與醫生進行對接和修正。高質量專病數據的生產需要經歷非常多道工序。“醫生對數據有了更深刻的認知,企業也從這個過程中學到很多醫學知識,這是一個共同進步的過程。”閆峻說。

在不少項目中,醫渡云還要更多做一步。例如某專病庫,在醫學學術界有著大量的論文文獻。醫渡云除了評價數據質量、結構化的程度的高低,還要看這份數據能否重現之前的一些科研論文,達到其表述的效果。通過這樣的方式,醫渡云來驗證其交付水準。

醫渡云的核心:“醫療大腦”

“這些年,醫渡云的核心是‘醫療大腦’的建設,一方面是人工智能技術,另一方面是醫療知識圖譜的建設。人工智能離不開真實世界數據和最新的醫學論文的研究成果的支持,它們結合形成的知識點,是構建醫療大腦的關鍵。”醫渡云CTO徐濟銘告訴記者。

據了解,目前醫渡云已與700余家醫療機構建立戰略合作,其中包括全國top150 中的100家頂級醫療機構,為醫院集成融合3億多患者、13億人次的醫學數據。另外,醫渡云還建立了近30個高質量專病庫,且每年仍在不斷增加中。

在全國,醫渡云已與醫療機構產出近20篇國內/國際期刊論文。通過強大的技術處理數據,醫渡云為合作機構提供理論依據,通過建立標準、整合數據、培養醫學大腦、提供科研靈感來輔助臨床診療決策、提高效能。

聲明: 本文系OFweek根據授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯系我們。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    醫械科技 獵頭職位 更多
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號