基于真實世界臨床數據的科學研究與中藥新藥發現平臺 ——中醫臨床數據倉庫平臺及挖掘分析方法
在醫學領域首次應用商務智能軟件(Business Objects XI)作為中醫臨床數據倉庫OLAP分析的軟件基礎。開發實現了基于細節數據模型、多維數據模型和海量臨床診療數據的探索性分析、展示系統,分析展示的內容包括名老中醫經驗傳承、重大疾病的病證及臨床表現要素關系等的主題分析集??蓮臄祿艣r、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫和重大疾病臨床數據進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫某經典處方的臨床應用證候分布情況)。 本實驗室與中國中醫科學院合作進行中醫臨床數據倉庫與挖掘分析平臺,以及中醫臨床數據挖掘方法的研究,實現了對中醫臨床采集病歷數數據的集成與整合,數據挖掘與分析的中醫臨床數據倉庫及挖掘分析平臺,該平臺旨在支持從真實世界中醫臨床診療中產生海量科研分析用數據,并以真實、高質量的數據為基礎進行中醫臨床與理論研究,為中醫臨床療效評價、臨床中藥新藥創制提供客觀的醫學證據和適宜的數據分析方法。該成果于2009年12月獲得國家科技進步二等獎。 名老中醫OLAP展示例子 1.2多維分析與復雜網絡分析系統 以中醫臨床數據中癥-證-治的復雜關系和復雜網絡分析方法研究為出發點,開發實現了中醫臨床復雜網絡分析系統。該系統包括如聯機數據篩選、復雜網絡建模、統計特性分析、可視化網絡數據篩選等基本功能,能夠支持中醫臨床診療數據中的疾?。ㄖ形麽t)、癥狀、證候、藥物等實體內部元素以及實體之間元素的網絡模型構建和多種復雜網絡分析方法如節點中心性分析、社團分析、節點相似度分析等。從大量的臨床數據中分析獲得臨床核心處方及其主要適應癥,以及隨癥加減信息。該系統采用Eclipse 富客戶端(Rich Client Platform, RCP)和Java語言開發(下圖是該系統的主界面)。 在醫學領域首次應用商務智能軟件(Business Objects XI)作為中醫臨床數據倉庫OLAP分析的軟件基礎。開發實現了基于細節數據模型、多維數據模型和海量臨床診療數據的探索性分析、展示系統,分析展示的內容包括名老中醫經驗傳承、重大疾病的病證及臨床表現要素關系等的主題分析集??蓮臄祿艣r、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫和重大疾病臨床數據進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫某經典處方的臨床應用證候分布情況)。 獲獎證書 1.中醫臨床數據倉庫與挖掘分析平臺 通過分析中醫臨床數據元素及其多維、多層次的關系特點,研究設計了中醫臨床參考信息模型,以及為基礎構建中醫臨床數據倉庫細節數據模型和多維數據模型,建立以數據倉庫為核心的數據整合、數據抽取/轉換/轉載和數據整理、數據挖掘、OLAP和統計分析的智能信息處理平臺。該平臺以中醫臨床數據倉庫及其運行環境工具的構建為基礎,基于實際的臨床診療數據,實現對中醫診療數據進行多主題、多粒度、多需求、高效、快捷的展示、研究和查詢檢索,并支持基于Web的OLAP主題應用,為名老中醫經驗繼承研究、中醫臨床評價研究和臨床科研提供實際的診療數據證據和知識來源,以支持臨床科研決策分析,滿足中醫臨床評價研究的探索性分析需求。針對中醫臨床數據的特點,研究體現中醫臨床數據模型特點的數據挖掘新方法,為面向中醫臨床研究的數據挖掘和機器學習方法研究提供新的思路和研究方向。該平臺的構建初期以重大慢性疾?。褐酗L、冠心病和糖尿病診治規律,以及名老中醫經驗傳承研究為支持目標。 中醫臨床數據倉庫平臺 1.1中醫臨床數據預處理技術臨床數據的預處理包括數據整合、數據整理和數據轉換等技術,我們面向中醫臨床數據結構內容以及中醫臨床研究的分析需求,實現具有完善的數據抽取-轉換-裝載(Extraction-transforming-loading,ETL)、數據整理和數據轉換導出功能的數據前處理軟件。該軟件針對醫學數據利用中的分布式(多采集點)采集、患者隱私保護和大規模數據處理的特點,采用靈活的數據映射配置和臨床術語庫銜接等方式把各采集點數據導入到臨床數據倉庫中,并支持批量數據核查和數據規范整理(對臨床數據中的術語性數據如癥狀體征、診斷和藥物等進行概念化語義規范)功能。 在醫學領域首次應用商務智能軟件(Business Objects XI)作為中醫臨床數據倉庫OLAP分析的軟件基礎。開發實現了基于細節數據模型、多維數據模型和海量臨床診療數據的探索性分析、展示系統,分析展示的內容包括名老中醫經驗傳承、重大疾病的病證及臨床表現要素關系等的主題分析集。可從數據概況、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫和重大疾病臨床數據進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫某經典處方的臨床應用證候分布情況)。 名老中醫OLAP展示例子 以中醫臨床數據中癥-證-治的復雜關系和復雜網絡分析方法研究為出發點,開發實現了中醫臨床復雜網絡分析系統。該系統包括如聯機數據篩選、復雜網絡建模、統計特性分析、可視化網絡數據篩選等基本功能,能夠支持中醫臨床診療數據中的疾?。ㄖ形麽t)、癥狀、證候、藥物等實體內部元素以及實體之間元素的網絡模型構建和多種復雜網絡分析方法如節點中心性分析、社團分析、節點相似度分析等。從大量的臨床數據中分析獲得臨床核心處方及其主要適應癥,以及隨癥加減信息。該系統采用Eclipse 富客戶端(Rich Client Platform, RCP)和Java語言開發(下圖是該系統的主界面)。 中醫臨床復雜網絡分析系統 1.3 真實世界中醫臨床有效處方發現系統 中藥新藥創制與研發是極具挑戰和機遇的領域,當前化學制藥和單成份藥物研發已經出現明顯的瓶頸,傳統植物/天然藥以及多成份復方藥物的研發成為國內外關注的焦點。而從多成份調控和多靶點機理的研究為主要視角的網絡藥理學更成為新的趨勢和方法。針對中醫臨床診療過程中具有證-治-效信息,且個體性的真實世界診療實踐特點,我們研究基于大規模臨床診療數據進行有效處方分析和發現的問題,通過對以中藥復方為重點的治療手段藥物組成原理的分析,基于復雜網絡模型和方法研制形成了有效核心處方及適應癥分析方法、有效臨床中藥篩選與發現系統,對基于真實世界臨床診療數據分析獲得有效處方知識的方法、技術平臺和示范應用進行了探索和初步實踐,初步表明從真實世界臨床診療數據中發現和挖掘有效方藥是一種可行的途徑,有望為中醫新藥創制提供可以驗證的新處方、新藥物等臨床有效目標藥物。 1. 中醫臨床數據挖掘分析方法 海量觀察型臨床數據是中醫辨證論治數據的主體內容,具有復雜、多維和多關系的特點。從大規模中醫臨床觀察數據中分析提煉形成有意義的臨床假設或診療知識如有效處方、人群劃分、藥癥關系以及多階段優化治療方案等,是實現從復雜、系統的中醫辨證論治過程中發現并確認有效優化的臨床診療處方及其藥物組成的基本方法。中醫臨床數據包括門診數據和住院數據兩大主要部分,其數據內容由臨床表現、診斷和治療(臨床療法)三部分核心內容(如下圖),其中辨證知識、證候分布、藥癥關系、方證關系和藥物組成等是數據挖掘和分析的主要目標,而所有這些知識的有效性的評價依據是臨床療效,即確認和發現臨床有效的中醫診療知識是中醫臨床數據挖掘分析方法的主要有價值研究目標。 中醫臨床數據挖掘問題:在療效信息的約束下,驗證和發現有價值的臨床診斷/治療關系知識。 2.1基于復雜網絡的中藥配伍分析方法 人們通過對中醫臨床處方數據的初期分析,并與臨床專家的交流中發現,名老中醫的臨床復方的組織特性體現在兩個層次。第一層次為臨床醫生一般以經典復方(包括經方、時方和驗方等)為基礎進行臨床處方;第二層次為在藥對或藥癥關系基礎上的藥物隨癥加減處理。這兩個層次的臨床處方配伍過程形成了具有核心處方結構,而又具有較大靈活性的處方集合。因此,通過對名老中醫處方集的共性網絡結構分析,能夠發現體現其處方思維和學術特點的核心處方配伍結構,從而輔助進行名老中醫經驗的傳承和整理研究。通過應用基于無尺度網絡現象的網絡分析方法進行研究。無尺度網絡作為復雜系統研究的一種實證現象和方法,對基于網絡研究復雜現象和復雜系統的方法具有很大的推動作用。具有宏觀無尺度現象的網絡在拓撲上存在冪律現象,即節點的度分布服從冪函數分布。這在醫生處方中的具體體現就是某醫生對藥物的使用具有比較集中的趨勢,某些名老中醫偏好使用某些藥物,使得這些藥物的已有或潛在功效得到更大的發揮或挖掘。 我們基于網絡中權值的冪律分布規律,實現了多層核心子網分析方法,能夠從復雜的中藥配伍網絡中抽取多層核心子網。該算法已經在名老中醫處方配伍經驗的分析中得到廣泛應用。其得到的結果具有直接而明確的臨床含義,且可靠性較強。第一層核心子藥物子網一般解釋為共性的核心處方;第二層解釋為主要藥物配伍;第三層解釋為次要藥物配伍。這些藥物配伍分別對應樣本的核心病機如主要疾病和主要證候等、兼證和加減癥狀等。以下是兩類特定中藥處方:1287個肝脾不調證(GPBT)處方和752個2型糖尿病合并代謝綜合征處方的分析結果。 特定中藥處方的核心藥物配伍網絡和主要加減網絡,其中的網絡中的節點是藥物,邊的權重表示兩相關藥物配伍使用的次數。 2.2基于隱主題模型的疾病人群臨床特征類別分析方法 癥狀-中藥-診斷主題模型(Symptom-Herb-Diagnosis Topic model,SHDT), 用來提取中醫臨床數據中的癥狀、中藥和診斷間的隱主題結構。SHDT模型是LDA主題模型在多關系應用中的擴展。該模型的核心思想是假設一類樣本里面包含有多個主題,例如,一類糖尿病人群有不同的并發癥,且這些主題所包含的信息特征(以癥狀來表達)具有相對完整性和獨立性。SHDT把每個主題看作是癥狀上的多項式分布,并通過癥狀來表達主題的內容;同時,把每種中藥看作是主題上的多項式分布,因為一類中藥可以治愈多種癥狀/疾?。挥忠驗橐环N診斷包含多種癥狀/疾病,于是把診斷看作是對主題的描述,構建一種“癥狀-中藥-診斷”主題模型。SHDT模型這種分析原理和思路與中醫辨證論治過程基本吻合,它可以客觀地按照癥狀找到自然分類人群,給出診斷描述特征和中藥治療特征。SHDT模型分別在2型糖尿病、冠心病和肝炎等慢性疾病中進行人群特征分析。實驗結果說明了該模型具有較好的適宜性和科學性,分析結果能夠較為完整的反映特定疾病中相關的主要人群特征類別。 癥狀-中藥-診斷主題模型,圖中三個黑色圓圈,代表顯變量(觀察變量),其中s 表示一個采樣癥狀,表示患者p的所有藥,表示患者p的所有診斷。白色圓圈代表隱變量,其中z 采樣癥狀s對應的主題,x表示s對應的藥,u表示s對應的診斷。矩形框表示重復采樣。外部矩形框表示在集合中有P個患者。內部矩形框表示對患者p的個癥狀、主題、藥物以及診斷重復采樣。 2.3基于內隱對照和部分可觀察馬爾可夫決策過程模型的動態序貫處方治療方案優化方法 中醫辨證論治是癥-治-效緊密相關的個體、動態的復雜干預過程,動態序貫干預是中醫臨床治療慢性疾病的基本方法。以患者為軸心的治療原則和醫生的個體性特點,使得中醫動態序貫干預過程中包含多樣化的治療方案。在臨床診療經驗知識的形成階段,醫生往往通過對治療前后患者健康狀態的判斷,試圖獲得較好的治療方案的認識,進而逐步形成固化的有效經驗性治療方案。因此,在無外部對照的情況下,如何從大規模的復雜多維臨床關系數據中發現并確認在臨床實際中較優的動態序貫診療方案是有效臨床方案形成的重要課題。 考慮到實際可行性和研究代價的問題,在未有明確的有效干預方案形成的臨床研究初期,無外部對照的傳統中醫經驗整理和歸納普遍存在,且長期的中醫學實踐表明是有效的。但由于臨床診療信息關系的復雜性,基于傳統經驗整理方式形成有效治療方案是一個較為漫長的過程。 因此,如何借助源自真實世界(無外部對照)的大規模臨床觀察數據,進行挖掘分析,以輔助發現和確認較優的臨床治療方案成為辨證論治臨床評價研究的關鍵問題之一。我們采用部分可觀察馬爾可夫決策過程模型(POMDP)對此問題進行研究,實現了基于POMDP的中醫臨床處方優化分析方法,以探尋從來自臨床實際的大規模觀察性臨床數據中發現較優或最優的動態序貫治療方案,為中醫辨證論治有效動態干預方案的形成和臨床驗證提供參考知識。 中醫臨床診療過程對應的POMDP模型 1. 成果的推廣應用 本成果已經在國家科技重大專項:重大傳染病防治、重大新藥創制等兩個項目;國家科技支撐計劃項目-名老中醫經驗傳承研究;北京市科技攻關項目和國家中醫臨床研究基地等項目中進行推廣應用。分別對艾滋病、肝炎和肺結核等傳染病的中醫藥防治規律,從中醫臨床中分析確認有效處方與藥物,名老中醫的辨證論治個體診療經驗,中風、冠心病和糖尿病等重大慢性疾病的臨床診治規律,以及全國10余家重點中醫院診療優勢病種(如上海龍華醫院的中醫胃癌治療、骨關節病治療;河南中醫學院一附院的中醫艾滋病治療、中醫慢性阻塞性肺炎治療等)的臨床診療優化方案等進行應用研究。逐步探索和完善中醫臨床科研一體化技術體系,支持基于臨床診療實踐及其真實世界診療數據,進行中醫臨床研究和中藥新藥創制研究的醫學模式。 北京地區22家單位應用分布圖
北京交通大學
2021-04-13