知圖生物:旨在構建300億條合理小分子化合物數據庫
“未來的藥物研發肯定需要AI的參與”,2016年還在廈門大學讀博士的陳星強聽從導師的建議,朝著“AI+醫療”的方向做了一些早期創業的嘗試。
陳星強從理論物理學到生物物理的前沿交叉,專注于計算機輔助藥物設計和AI技術研發,求學期間的研究也一直圍繞著蛋白質與小分子之間相互以及蛋白質和小分子的化學反應過程的計算模擬展開,工作期間主要投入在AI技術的應用和產品落地上。
早在2013年,陳星強便已埋下從事藥物研發事業的種子,并默默努力著。他告訴動脈網,他一直在等待一個合適的契機切入到醫藥行業,而這個機會在2016年來了。
“我看到AI的風口,就想要進入醫療行業做事情。”2016年10月,陳星強開始了第一次“AI+醫療”領域的創業嘗試,成立了廈門市廈之醫生物科技有限公司(簡稱:廈之醫),從熱門的AI賦能醫學影像篩查切入醫療領域,用AI助力醫生更加精準地診斷患者肺部影像。
2020年3月,憑借著在AI應用落地上積累的豐富經驗,陳星強決定回歸自己一直專長且想要從事的領域——計算機輔助藥物設計,并成立了浙江知圖生物醫藥科技有限公司(簡稱:知圖生物),致力于應用先進的機器學習算法,為新藥發現提供精準高效的解決方案。
對于接連兩次創業,動脈網專訪了創始人陳星強,從他的口中試著重現知圖生物的核心競爭力以及窺見AI賦能新藥研發的未來。
構建30億虛擬化合物數據庫,預計年底完成數據清洗重組并擴增十倍
>>>>
問:“您怎樣看待AI在這個行業的應用情況?”
“首先,我們必須明確AI相對于傳統的計算機軟件區別和聯系在哪里。傳統的軟件,更多的是構建在圖靈機上的功能聚合體,希望借助CPU的密集計算,幫助我們提高日常工作效率。而AI輸出的是一種能力,并非具體功能。如果你仔細甄別,會發現軟件的功能實現是確定的,而AI的‘能力’是變化且發展的;軟件功能的應用是對應到具體的工作流程當中,而能力是解決一類問題的核心特質,要求更高。AI的能力需要達到人類專家的水準,才能進入生產環節進行商業化設計,這對計算機來說是一種新的要求,不僅僅是實現一些功能的聚合體。
同時,當我們看到AI和傳統軟件的區別之處,我們也需要看到它們的關聯之處,任何軟件也好,AI系統也好,脫離不了解決問題的場景,在一個場景中,單獨有功能是不夠的,單獨有能力也是不夠的,我們既要功能也要能力,這就是當前AI從業者和軟件開發者面臨的共同問題,如何定義好各自的職能屬性,并且發揮出整合的優勢。
醫藥行業的AI輸出的這種能力,必須要達到專家的水平,必須經受來自CFDA、FDA等醫療機構從業者和專家檢驗和認可,這樣才能做到臨床應用級別的AI。在這一切的背后,AI需要構建自己對行業問題的模型,這需要足夠的數據支持和對行業的深度認知。
數據始終是AI驅動的第一步,這個問題無法回避。面對真實世界的零零總總的問題,大量可以參考和標定的數據在產生著,也在消逝著。
如果重新提大數據的概念,我認為需要做到兩方面:一方面,是我們所能獲取的有相當價值的數據都是有成本的,隨著計算機技術和行業的深入發展,云計算和大數據開發工具成本這逐漸降低,大數據成為企業重新考慮出路和發展的一個選項;另一方面,人們對數據產生價值這件事的認可和數據分析能力邊界的認知也在不斷更新。
在這個角度下看,大數據或許才剛開始,因為沒有AI這個工具的升級換代,挖掘大數據和應用大數據不過是紙上談兵。所以,合理的應用和生產以及存儲大數據是每一家致力于數據驅動的公司所必須考慮和實踐的任務,AI行業的公司尤甚。我們不可能離開行業去探尋數據,更不可能離開行業數據去找行業解決方案,也不可能憑空創造出有價值的工具。”
>>>>
問:“您能具體談談知圖生物在醫藥研發行業數據方面是如何應用和生產以及存儲的嗎?”
“知圖生物在數據這一點上,具有兩個核心戰略支撐點,一個要靠走出去,一個要靠自力更生。
走出去,是說 我們公司的數據構建過程不能脫離行業痛點,脫離行業問題,我們必須找準行業現存的主要矛盾,通過認識這些矛盾的存在,確立我們需要收集和存儲的數據;自力更生,一方面是說我們要靠自己,但也不全是這個主觀感情層面上的努力,而是我們需要通過AI技術,來生產和優化數據。
基于以上兩點的思路,我們清楚地看到,在制藥行業,靶點和先導化合物的關系確認是一件非常值得嘗試和需要深入解決的難題。我們作為AI行業的從業者,首先是要優化掉舊有的流程,提高解決問題的效率,突出創新和變革。”
>>>>
問:“長遠看來,您公司希望自己能夠怎樣去應用醫藥行業的大數據?”
“知圖生物希望結合當下研究產生的各類組學數據,包含基因組學、表觀遺傳組、轉錄組學、蛋白組學、細胞組學等,分別針對相應疾病提供病理機制的研究和潛在靶點的發現,并以靶點為核心的構建數據采集流程,構建相應的先導化合物庫,并應用深度學習算法搜索推薦出合適的候選化合物。
公司長遠目標是將組學數據能夠結合體外實驗數據、臨床階段實驗數據進行綜合分析和算法應用,并對數據進行分類,建立相關靶點的一系列從頭算(ab initio database)數據庫,最后將采集到的數據集應用于機器學習模型,不斷進行模型訓練和模型優化迭代。”
>>>>
問:“公司目前的在研核心產品有哪些?”
“目前公司圍繞藥物靶點和先導化合物,構建了一款名為MolecularFlow的虛擬篩選平臺。我們利用的小分子化合物開源數據約30億條數據,根據已有的15萬潛在成藥小分子進行新化合物的生成學習和探索,結合圖神經網絡(GCN)、強化學習(RL)和對抗學習(GAN)去創建新的成藥小分子化合物,預計將在今年年底前完成十倍基礎數據的擴容,進一步清洗和整理數據,將數據庫的有效數據擴展到300億條,小分子庫擴充到更大的化合物空間。”
我們的這款產品在設計之初就考慮到藥物研發中的流程與效率問題,相對于現有的一些AI輔助藥物設計的CRO企業,我們更多的是基于算法結合軟件的系統驅動。一些進行藥物大規模篩選的軟件,大多數藥企只是將其作為一個獨立的工具使用,但是知圖生物改進了這種傳統的工具使用和研發流程銜接,用一套算法系統將其全部集成、優化、承接下來,最終企業關于任何一個‘藥’的需求,都可以通過我們的這個系統輸出完成。
這就是AI輸出能力和軟件輸出功能非常明顯的一個區別。面對已有的一些有效靶點,知圖生物會根據客戶需求去針對性地多次篩查數據庫,在‘篩選’和‘召回’的多次循環,逐次降低目標化合物的數量級,最終獲取更加精準的目標小分子化合物范圍,整個虛擬篩選的流程我們預期在3~5天左右即可完成。
>>>>
問:“在AI賦能新藥研發的市場里,知圖生物為何選擇此時進場?”
“國家這幾年一直鼓勵和支持創新藥的研發,行業的需求是明確的,加上最近諸多新的利好政策,我們的市場和機會始終在那里。藥企往往看中的是CRO公司的技術實力,需要CRO公司提供一個明確的解決方案和可信的結果。所以,知圖生物只有真正將技術的價值做出來給藥企看到,我們才能讓市場認識到AI的價值和能力。”
>>>>
問:“知圖生物目前與哪些科研機構有建立合作關系,未來會自己做藥嗎?”
“目前知圖生物正在和廈門大學實驗室、藥學院以及深圳先進研究院展開合作,公司也正在積極尋求一些新的合作可能。知圖生物的定位是做一家AI賦能新藥發現的CRO企業,未來無論從戰略上還是公司發展上,這一點始終都不會改變。我們首先要做好CRO公司這一角色,去和好的藥企做好的合作,讓市場充分認識我們的前提下,再沉淀下來考慮去獨立做原研藥,這樣的發展路徑會更加合理穩妥。”
>>>>
問:“最后能談談您對公司下一步發展的一些期待和愿景嗎?”
“知圖生物已經有三個方向的雛形產品,涉及先導化合物庫的擴建,虛擬篩選加速,疫苗設計等方向。目前正在進行首個產品MolecularFlow的初步驗證,具體產品細節我們還未公開。從知圖生物成立到現在,剛好三個月有余,我們完成了首個項目的30%,預期在今年10月完成整個數據庫后臺的搭建工作。公司也開始啟動pre-A輪融資,計劃募集資金1000萬人民幣左右,主要用于數據庫擴容、驗證以及流程優化,人才招募等工作。”
作者:王嬋
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞


分享









