data mining presentation
DESCRIPTION
Data mining a diabetic data warehouse. Data Mining Presentation. Artificial Intelligence in Medicine 26 (2002) 37-54. 簡介. 資料的儲存 醫 - 病關係的過程 管理、診療、醫療、檢測、醫藥等 非常大量且複雜 糖尿病資料倉儲 預測病患的病情發展 找出高危險群 選擇本篇 具清楚的流程步驟. 問題描述. 糖尿病患占全美人口 5.9% ,且逐年增長 可能源於 肥胖 缺乏運動 經濟問題 每年花費成本約 10 億美金 佔醫療及保險預算的大部分比例. - PowerPoint PPT PresentationTRANSCRIPT
Data mining a diabetic data warehouse
Data Mining Presentation
Artificial Intelligence in Medicine 26 (2002) 37-54
指導教授 : 黃三益組員 : 李明翰
M964020019
張偉志 M964020012
簡介
• 資料的儲存• 醫 - 病關係的過程• 管理、診療、醫療、檢測、醫藥等• 非常大量且複雜
• 糖尿病資料倉儲• 預測病患的病情發展• 找出高危險群
• 選擇本篇• 具清楚的流程步驟
問題描述
• 糖尿病患占全美人口 5.9% ,且逐年增長
• 可能源於• 肥胖• 缺乏運動
• 經濟問題• 每年花費成本約 10 億美金• 佔醫療及保險預算的大部分比例
問題描述 (cont’)
• 健康及醫療問題• 併發症多 ( 盲眼、腎衰竭、截肢 )• 死亡率高• 2-4 倍的心臟病發• 病患生產嬰兒較易有殘缺• 2-3 倍的新生兒死亡率
問題描述 (cont’)
• 現有成果• 減少盲眼率達九成• 減少至少五成的洗腎及截肢治療
• 努力方向• 改善醫護的成果• 減少支出 ( 省錢 )
問題描述 (cont’)
• 路易司安那州• 全國第二差的健康指標 (3.53%)• 最高的糖尿病患死亡率 (38.7/0.1M)
• 紐奧爾良• 其所屬的一城市• 最胖的城市 (38% 的成人 )
資料來源
• Integrated healthcare system• 三級醫院、診所、健康計畫、研究所、研究
部門• 內容
• 到 2001 八月有 30383 個病患• 42 個月期間,病人平均有 23.8 個月的資
料• 但期間外的資料不納入
資料來源 (cont’)
• 共 10 個資料表• 管理及診療、醫療、檢測、醫藥五大項• 僅取用管理、診療及檢測的部分資料
• 資料取得• 了解資料的用途• 了解如何取得• 可能未能取得的資料
• BMI 、家族病史、病發時間、體重控制及運動習慣
資料轉換
• 必須要適當的轉換• 在單一的資料表• 稱為 data mining data table• 平面檔 (flat file)
• 本研究• 使用 SQL 取出• 儲存• 使用於 CART
資料轉換 (cont’)
步驟• 檢視關聯資料庫中的資料表並選擇匯出的欄位• 決定取得關聯資料厙中的哪些資料的交集 ( 取關
聯 )• 定義 data mining data table 的安排 (layout)• 詳列要包含及排除病患的規範,會決定資料的數
量,例如紀錄的最大、最小值、每一病患的紀錄數等等
• 資料的粹取,包括了剔除可辯識病患的資料• 檢查 data mining data table ,確保它具有客觀的意義
資料轉換 (cont’)
• 篩選原則• 每一病患歸為同一列• 多個欄位聚合成匯總的資訊 ( 減少 sparse)• 病患至少兩次診療及兩次檢測
資料轉換 (cont’)
• Comorbidity index• 合併症指數• 17種類,記次
• HgbA1c• 血糖控制指標• 取平均• 分界點 9.5
Data Mining
• Mining 方法• 使用 Salford System 的 CART來建分類樹
• 每個節點只用一個變數來切割• 使用 Gini來看亂度• 為了防止 overfitting ,把資料隨機切分為
test(7950)以及 learning(7953)• 從 learning 產出的 tree去與 test
sample進行預測,由其正確率看是否有overfitting 現象
Data Mining
• 目標• Predictor variable : age, sex, ER, OV,
CMI, lipid ( 體脂肪 ), HTN ( 高血壓 ), CV ( 心血管疾病 ), eye ( 視網膜 ), ESRD ( 腎衰竭 )
• Target variable : HgbA1c( 糖化血色素 ) average(9.5)
• 找出糖尿病患者中,哪些比較會有較差的血糖控制 (HgbA1c > 9.5)
• 血糖控制是控制糖尿病的基本步驟
變數權重
• 由 CART來看 10 個變數中,哪些是最重要的分類變數
• 第一個中間節點是用 AGE來切割 (65.6)• Class=1 代表是對於血糖控制較差的人
(HgbA1C > 9.5)• Node1~12代表中間節點, Node-1~-13代
表葉節點 (TN)• 原本 learning sample 中,控制較差的人有
13.2%(1052/7953)• 經過第一個節點切割後變成
19.4%(775/3987)
Age<=55.231
19.4%
Age<=65.581
13.2%
Terminal Node
Classfication error
• 控制較差的病人在 learning以及 test皆有四分之一的估計誤差
• 增加變數可能可以減少其誤差• 服用的藥物• BMI值
Classfication error in learning
Classfication error in testing
CART analysis test sample classfication table
Adjustment to defaults
• 若將分類的方式作調整可以得到更好的結果• 0.451(age) + 0.893 (CMI) <=
32.5576• 但是要如何評估 0.451age+ 0.893CMI
<-32.5576• 用單一屬性比較好評估
Evaluation of the discovered knowledge
• 年齡比 CMI是更為重要的因子• 年齡在 65.6歲以下且血色素較高的機
率是其他人的三倍• 以所有樣本而言
• 年輕且血色素較高的機率: 0.241• 年長且血色素較高的機率: 0.0758
Using the discovered knowledge
• 較年輕的病患比較不會控制自身血糖• 因此必須對於年輕的病患進行有組織的控制或者教育
• 未來進一步研究• 必須去看其他非 NEW ORLEANS地區的資料,觀察這個現象是否跨地區
• 尋找其他的變數• 分類的方法必須去衡量其 cp值
• 年齡分類對於健康組織比較好評估• 用其他線性或者合併的方式不一定較好,因為較不好執行
conclusion
• 必須解決的問題• 時間連續性• 事件連續性• 資料壓縮
• 時間連續性• 常常看醫生的也許是因為併發症發作• 一個人會有很多次檢測記錄,該選擇第一筆?最後一筆?還是平均值?
• 如何把時間的資料轉換成單一欄位
conclusion
• 事件連續性• 當一個人剛看完醫生,他在短期時間內的控
制較好• 進急診室 ->看診• 看診 ->進急診室
• 資料壓縮• 當資料越多 ( 如整個美國病人 ),用資料壓縮的方式將所有資料都放入 CART會比使用隨機抽樣方式佳
• 如何抽取資料的同時又能夠保持時間連續性以及事件的連續性
Critics
• 內容有些地方有錯誤 (table以及 n)• Mining 的發現
• 較年輕的控制力較差是否是因為控制力較差者的平均年齡比控制力高者低 ( 控制力差者比較不會活到 65歲以上 )