ํ‹ฐ์Šคํ† ๋ฆฌ ๋ทฐ

MIMIC3๋ฅผ ์ด์šฉํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋“ค์˜ ๋ฒค์น˜๋งˆํ‚น ์—ฐ๊ตฌ ๋…ผ๋ฌธ์„ ๋ฆฌ๋ทฐํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค.

 

Abstract

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜คํ”ˆ์†Œ์Šค ์˜๋ฃŒ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ์˜ˆํ›„ scoring system SOTA ์ˆ˜์ค€์˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๊ฑฐ์˜ ์—†๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ๋˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์•™์ƒ๋ธ”, SAPS II์™€ SOFA ์ ์ˆ˜๋ฅผ ์ด์šฉํ•œ ๋ช‡๊ฐœ์˜ ์˜๋ฃŒ ๋ถ„์•ผ์—์„œ์˜ ์˜ˆ์ธก(์‚ฌ๋ง, ์ž…์›๊ธฐ๊ฐ„, ICD-9 code ๊ทธ๋ฃน) ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•˜๋ คํ•œ๋‹ค. ํ•ด๋‹น ์—ฐ๊ตฌ์—์„œ๋Š” ICU ๋ฐ์ดํ„ฐ์…‹์ธ MIMIC III๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ raw clinical time series data๋ฅผ input feature๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ๋“ค์—๊ฒŒ ์ง€์†์ ์ธ ์„ฑ๋Šฅ์ด ๋‚˜์˜จ๋‹ค๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

 

Introduction

ํ™˜์ž์˜ ์‚ฌ๋ง๊ณผ ์ž…์›๊ธฐ๊ฐ„์€ ICU ์ž…์›์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ž„์ƒ ๊ฒฐ๊ณผ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์งˆ๋ณ‘์˜ ์ค‘์ฆ ์ธก๋ฉด์—์„œ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ๊ณ  ์ƒˆ๋กœ์šด ์น˜๋ฃŒ, ์ค‘์žฌ ๋ฐ ๊ฑด๊ฐ• ๊ด€๋ฆฌ ์ •์ฑ…์˜ ๊ฐ€์น˜๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. SAPS-II, SOFA, APACHE์™€ ๊ฐ™์€ ์ค‘์ฆ๋„ ์ ์ˆ˜๋Š” ICU์— ๋“ค์–ด์˜จ ๋’ค 24์‹œ๊ฐ„ ๋‚ด์— ์–ป์€ ์ธก์ •๊ฐ’์œผ๋กœ ์ •์˜๋˜์—ˆ์œผ๋ฉฐ ์‚ฌ๋ง๋ฅ ์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ๋ชฉ์ ์œผ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค. ์ตœ๊ทผ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹์˜ ๋ฐœ์ „๊ณผ ์„ฑ๊ณต์œผ๋กœ ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ICU ์ž…์›์˜ ์ž„์ƒ ์˜ˆ์ธก ์ž‘์—…์— ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์ฒดํƒํ•˜์˜€๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ ์†Œ๊ฐœํ•˜๋Š” ์—ฐ๊ตฌ๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋จธ์‹ ๋Ÿฌ๋‹ ์•™์ƒ๋ธ” ๋ชจ๋ธ์„ ์ด์šฉํ•œ ์‚ฌ๋ง๋ฅ  ์˜ˆ์ธก
  • gradient boosting๊ณผ logistic regression ๋ชจ๋ธ์„ ์ด์šฉํ•œ ์‚ฌ๋ง๋ฅ  ์˜ˆ์ธก
  • ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์ด์šฉํ•œ 4๊ฐœ์˜ ์ž„์ƒ ์˜ˆ์ธก

๋ณธ ์—ฐ๊ตฌ์˜ ์ฃผ ๊ธฐ์—ฌ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ์ด์šฉํ•œ ์‚ฌ๋ง๋ฅ  ์˜ˆ์ธก, ์ž…์›๊ธฐ๊ฐ„ ์˜ˆ์ธก, ICD-9 code ๊ทธ๋ฃน ์˜ˆ์ธก(์ด ์‹คํ—˜๋“ค์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ severity scoring system๋“ค๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒˆ๋‹ค.
  • ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด clinical feature๋“ค์˜ ๋ฃฐ ๊ธฐ๋ฐ˜ ์ „์ฒ˜๋ฆฌ๊ฐ€ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ€๋ฅดํ‚ค๋Š” raw feature๋“ค์˜ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

MIMIC-III dataset preprocessing

Cohort selection

15์„ธ๋ณด๋‹ค ๋งŽ์€ ๋‚˜์ด์˜ ํ™˜์ž๋“ค์„ ์–ด๋ฅธ์ด๋ผ ์ •์˜ํ•˜์˜€๊ณ  ์–ด๋ฅธ์˜ ํ™˜์ž๋“ค๋งŒ ํ™œ์šฉํ•˜์˜€๋‹ค. ๊ทธ ํ™˜์ž๋“ค์˜ ์ฒซ๋ฒˆ์งธ ์ž…์›๊ธฐ๋ก๋งŒ์„ ์‚ฌ์šฉํ•˜์˜€๊ณ  ๊ทธ ์ดํ›„์— ์ž…์›ํ•œ ๊ธฐ๋ก์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค. ์ด๋Š” ๋ถ„์„์— ์žˆ์–ด์„œ ์ •๋ณด๋ˆ„์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ๋ฐฉ์ง€ํ•˜๊ณ  related work์™€ ์œ ์‚ฌํ•œ ์‹คํ—˜ ์„ค์ •์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋‹ค.

Data extraction

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์•„๋ž˜์˜ ํ…Œ์ด๋ธ”์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

  • inputevents(inputevents_cv, inputevents_mv): philips CareVue ์‹œ์Šคํ…œ๊ณผ iMDSoft MetaVision ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋‹ˆ๋Ÿฌ๋งํ•œ ํ™˜์ž์˜ input ์ •๋ณด
  • ouputevents: ICU์— ์žˆ๋Š” ๋™์•ˆ ํ™˜์ž์˜ output ์ •๋ณด
  • chartevents: ํ™˜์ž์— ๋Œ€ํ•ด ์ฐจํŠธ๋กœ ์ž‘์„ฑ๋œ ๋ชจ๋“  ์ •๋ณด
  • labevents: lab ์ •๋ณด
  • prescriptions: ํ™˜์ž์— ์ฒ˜๋ฐฉ๋œ ์ •๋ณด, ์ฒ˜๋ฐฉ๋ฐ›์•˜์œผ๋‚˜ ๋ฐ˜๋“œ์‹œ ํˆฌ์—ฌ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹˜ ๋ณธ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์€ MIMIC-III์™€ MIMIC-III (CareVue)์ด๋‹ค.

Data cleaning

  • ํŠน์ • ๋ณ€์ˆ˜์˜ unit๋“ค ๋ถˆ์ผ์น˜: ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณ€์ˆ˜๋ณ„๋กœ ๋‹จ์œ„๋“ค์˜ ๋น„์œจ์„ ๊ตฌํ•˜์˜€๊ณ  ํ•˜๋‚˜์˜ ๋‹จ์œ„๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ์„ ๊ฒฝ์šฐ๋Š” ๊ทธ๋Œ€๋กœ ๋‘๊ณ  90% ์ด์ƒ์ด ์ฐจ์ง€ํ•˜๊ณ  ์žˆ๋Š” unit์„ major unit์ด๋ผ ์ •์˜ํ•˜์˜€๋Š”๋ฐ ์ด unit์€ ๊ทธ๋Œ€๋กœ ๋‘๊ณ  ๋‚˜๋จธ์ง€ unit๋“ค์€ ์‚ญ์ œํ•˜์˜€๋‹ค. ์ด์™ธ์˜ major unit(90% ์ด์ƒ์„ ์ฐจ์ง€ํ•˜๋Š” unit)๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ ๋ฌธํ—Œ์„ ์ฐธ๊ณ ํ•˜์—ฌ ํ•˜๋‚˜์˜ unit์œผ๋กœ ๋ณ€ํ™˜ํ•˜์˜€๋‹ค. ๋ณ€ํ™˜๋œ unit์€ ๋…ผ๋ฌธ์˜ Appendix A.6์— ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ์œ„์˜ ๊ฒƒ๋“ค์— ํ•ด๋‹น๋˜์ง€ ์•Š๋Š” feature์˜ ๊ฒฝ์šฐ ์‚ญ์ œํ•˜์˜€๋‹ค.
  • ์ผ๋ถ€ ๋ณ€์ˆ˜์—๋Š” ๋™์‹œ์— ๊ธฐ๋ก๋œ ๊ฐ’๋“ค์ด ์กด์žฌํ•จ: numerical feature๋“ค์˜ ๊ฒฝ์šฐ, average๋ฅผ ๊ตฌํ–ˆ๊ณ  categorical feature์˜ ๊ฒฝ์šฐ, ์ฒซ๋ฒˆ์งธ๋กœ ๋‚˜ํƒ€๋‚œ ๊ฐ’์„ ์œ ์ง€ํ•˜์˜€๋‹ค.
  • ์ผ๋ถ€ ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ ๋ฒ”์œ„๋กœ ๊ธฐ๋ก๋˜์–ด์žˆ์Œ: ๋ฒ”์œ„์˜ median ๊ฐ’์„ ๊ตฌํ•˜์˜€๋‹ค.

Feature selection and extraction

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์˜ˆ์ธก์— ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์…‹์—์„œ feature๋“ค์„ ์ถ”์ถœํ•˜์˜€๊ณ  ์ฒ ์ €ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด 3๊ฐ€์ง€์˜ features set์„ ์„ ํƒํ•˜์˜€๋‹ค.

  • feature set A๋Š” SAPS-II์˜ ๊ณ„์‚ฐ์— ์‚ฌ์šฉ๋˜๋Š” feature๋“ค๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ด feature๋“ค์˜ ๊ฒฝ์šฐ ์˜ํ•™ ์ง€์‹์— ๋”ฐ๋ผ outlier๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ๊ด€๋ จ feature๋“ค์„ ๋ณ‘ํ•ฉํ•˜์˜€๋‹ค. ๋ณ‘ํ•ฉํ•œ feature๋“ค์€ ๋…ผ๋ฌธ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋งŒ์„ฑ์งˆ๋ณ‘, ์ž…์›ํ˜•ํƒœ, ๋‚˜์ด์™€ ๊ฐ™์€ feature๋“ค์€ ๋น„์‹œ๊ณ„์—ด๋กœ ์ฒ˜๋ฆฌ๋˜์—ˆ๊ณ  ์ด์™ธ์˜ ๋‚˜๋จธ์ง€๋Š” ์‹œ๊ณ„์—ด feature๋“ค๋กœ ์ฒ˜๋ฆฌ๋˜์—ˆ๋‹ค.
  • feature set B๋Š” SAPS-II์— ์‚ฌ์šฉ๋˜๋Š” 17๊ฐœ์˜ feature๋“ค๊ณผ ๊ด€๋ จ์žˆ๋Š” 20๊ฐœ์˜ feature๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด์žˆ๋‹ค. Feature set A๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์ฒ˜๋ฆฌ๋œ 17๊ฐœ์˜ feature๋“ค ๋Œ€์‹  ์› ์ƒํƒœ์˜ ๊ฐ’(raw value)์„ ๊ณ ๋ คํ•œ๋‹ค. ์ด์ƒ์น˜๋ฅผ ์ œ๊ฑฐํ•˜์ง€ ์•Š๊ณ  0๋ฏธ๋งŒ์˜ ๊ฐ’๋งŒ ์‚ญ์ œํ•˜์˜€๋‹ค. ์ด feature set์€ raw value์˜ feature๋“ค์˜ ์„ฑ๋Šฅ์„ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ์ถ•๋˜์—ˆ๋‹ค.
  • feature set C๋Š” 136๊ฐœ์˜ raw value๋“ค๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ feature set B์˜ feature๋“ค๋„ ํฌํ•จ๋œ๋‹ค. 136๊ฐœ์˜ feature๋“ค์€ 2,000๊ฐœ์˜ feature๋“ค ์ค‘์— ๋‚ฎ์€ ๋ˆ„๋ฝ๋น„์œจ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ ํƒ๋˜์—ˆ๋‹ค. Feature set B์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•˜์ง€ ์•Š์•˜์œผ๋ฉฐ ์› ์ƒํƒœ์˜ ๊ฐ’์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด feature set์€ ์˜ˆ์ธก ๋ชจ๋ธ์ด ๋Œ€์šฉ๋Ÿ‰์˜ ์ž„์ƒ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ feature representation์„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋™์‹œ์— ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€` ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์„ ํƒ๋˜์—ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ž…์›ํ•˜๊ณ  ์ฒซ 24์‹œ๊ฐ„๊ณผ ์ฒซ 48์‹œ๊ฐ„ ์•ˆ์— ์ˆ˜์ง‘๋œ feature๋“ค์„ ์ถ”์ถœํ–ˆ์œผ๋ฉฐ ์‹œ๊ณ„์—ด feature๋“ค์˜ ๊ฒฝ์šฐ 1์‹œ๊ฐ„๋งˆ๋‹ค ์ƒ˜ํ”Œ๋งํ•˜์˜€๋‹ค. ์ƒ˜ํ”Œ๋ง ๊ณผ์ • ์ค‘์— ๋ช‡๊ฐœ์˜ feature๋“ค์€ ๊ฐ™์€ ์‹œ๊ฐ„์•ˆ์— ์—ฌ๋Ÿฌ๊ฐœ์˜ ํŒ๋…๊ฐ’์„ ๊ฐ€์ง„ ๊ฒฝ์šฐ, ํ‰๊ท  ๋˜๋Š” ํ•ฉ๊ณ„๋ฅผ ๊ตฌํ•˜์˜€๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜์•ก ๋˜๋Š” ์•ฝ๋ฌผ์— ๋Œ€ํ•œ ๊ธฐ๋ก์€ ํ•ฉ๊ณ„๋ฅผ ๊ตฌํ•˜์˜€๊ณ  ์ด์™ธ์˜ ๋‹ค๋ฅธ feature๋“ค์€ ํ‰๊ท ์„ ๊ตฌํ•˜์˜€๋‹ค. ๊ฒฐ์ธก๊ฐ’์ด ๋ฐœ์ƒํ•œ ๊ฒฝ์šฐ, ์•ž๋’ค์˜ ๊ฐ’์„ ํ‰๊ท ๋‚ด์„œ imputation ํ•˜์˜€๋‹ค.

 

Benchmarking experiments

Benchmark prediction tasks

  • Mortality prediction(binary classification) ๋” ์ž์„ธํ•œ label ์ •์˜๋Š” appendix A.2๋ฅผ ์ฐธ๊ณ ํ•˜์„ธ์š”.
    • In-hospital mortality prediction: ICU์— ์ž…์› ํ›„ ํ™˜์ž์˜ ์‚ฌ๋ง์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธก
    • Short-term mortality prediction: 2, 3์ผ ์•ˆ์— ํ™˜์ž์˜ ์‚ฌ๋ง์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜๋ฉฐ ์ฒซ 24์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ 2, 3์ผ mortality๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์ง€๋งŒ 48์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ 3์ผ mortality๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.
    • Long-term mortality prediction: ์ฒซ 24์‹œ๊ฐ„, 48์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ 30์ผ, 1๋…„ ์•ˆ์— ํ™˜์ž์˜ ์‚ฌ๋ง์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธก
  • ICD-9 code group prediction(multi-task prediction)
  • ICD-9 diagnosis code๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ICD ์ฝ”๋“œ๋“ค์€ ๋‹ค์–‘ํ•œ ์ฆ์ƒ, ์ง•ํ›„, ๋ถ€์ƒ์ด๋‚˜ ์งˆ๋ณ‘์˜ ์›์ธ ๋“ฑ์„ ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. 20๊ฐœ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋‰˜์–ด์ ธ์žˆ๋‹ค. ICD-9 ์ฝ”๋“œ ๊ทธ๋ฃน 760-779๋Š” ์‹ ์ƒ์•„์—๊ฒŒ ๋ถ„๋ฅ˜๋˜๋Š” ์ฝ”๋“œ์ด๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋ฅธ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜๋Š” ๋ฒค์น˜๋งˆํ‚น ์—ฐ๊ตฌ์—์„œ ์ œ์™ธํ•˜์˜€๋‹ค.
  • Length of stay prediction(regression problem) ๊ฐ admission์— ๋Œ€ํ•œ ์ž…์› ๊ธฐ๊ฐ„์„ ์˜ˆ์ธกํ•˜์˜€๋‹ค.

Prediction algorithms

Scoring methods

  • SAPS-II : ์ด ์ ์ˆ˜๋Š” ICU์— ์ž…์›ํ•œ ํ™˜์ž๋“ค ์งˆ๋ณ‘์˜ ์ค‘์ฆ๋„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค. 12๊ฐœ์˜ feature๋“ค์„ ์ด์šฉํ•ด ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. SAPS-II๋ฅผ ์ด์šฉํ•œ mortality ์˜ˆ์ธก์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
  • SOFA: ICU์— ์ž…์›ํ•œ ํ™˜์ž๋“ค์˜ ์žฅ๊ธฐ๋ถ€์ „ ๋ฐ ์˜ˆํ›„ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ ์ˆ˜์ด๋‹ค. SOFA๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ mortality ์˜ˆ์ธก์€ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
  • New SAPS-II: SAPS-II์˜ ์ˆ˜์ •๋œ ๋ฒ„์ „์ด๋ฉฐ SAPS-II์— ์‚ฌ์šฉ๋œ feature๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
$$ log{\frac{p_{death}}{1-P_{death}}} = โˆ’7.7631 + 0.0737ยทS + 0.9971ยทlog(1 + S) $$

Super Learner models

super learner๋Š” ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ตœ์ ์˜ ์กฐํ•ฉ์„ ์ฐพ๊ธฐ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ supervised learning algorithm์ด๋ฉฐ cross-validation ์ด๋ก ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Super Learner I: ๋ฒ”์ฃผํ™”๋œ ๋ณ€์ˆ˜๋“ค๊ณผ์˜ super learner์™€ Super Learner II: ๋ณ€ํ™˜๋˜์ง€ ์•Š์€ ๋ณ€์ˆ˜๋“ค์˜ super learner ๋‘๊ฐ€์ง€๋ฅผ ๊ณ ๋ คํ•˜์˜€๋‹ค. Super Learner-I๋Š” feature set A๋งŒ ์ ์šฉ๋˜๊ณ  Super Learner-II๋Š” feature set 3๊ฐ€์ง€ ๋ชจ๋‘ ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

Deep Learning models

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ end-to-end training์„ ์œ„ํ•ด ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ representation์„ ์ž๋™์œผ๋กœ ์ถ”์ถœํ•˜๋Š”๋ฐ ์„ฑ๊ณต์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Feedforward neural networks(FFN)๊ณผ Recurrent Neural Network(RNN)์˜ ensemble์ธ Multimodal Deep Learning Model(MMDL)์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ณต์œ ๋œ representation layer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ modality๋“ค์˜ ์œ ์‚ฌ์„ฑ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. EHR๊ณผ ๊ฐ™์ด ๊ฐ ํ…Œ์ด๋ธ” ๋ณ„๋กœ ๋ณ„๋„์˜ modality๋ฅผ ๊ฐ€์ง€๋Š” ๋ฐ์ดํ„ฐ์— ์œ ์šฉํ•˜๋‹ค.

MMDL์€ ๋น„์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์™€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š”๋ฐ ๋น„์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” FFN์— ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” GRU์— input์œผ๋กœ ๋“ค์–ด๊ฐ€๊ณ  ๋‚˜์˜จ ouput์„ ๊ณต์œ ๋œ latent representaton layer์— combineํ•œ๋‹ค.

Implemetation details

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Theano์™€ Keras๋กœ ์‹œํ–‰ํ•˜์˜€๊ณ  5-fold cross validation์„ ์‹ค์‹œํ•˜์˜€๊ณ  5๊ฐœ์˜ testing fold์˜ ์„ฑ๋Šฅ ์ ์ˆ˜์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ ์—๋Ÿฌ๋ฅผ ๊ตฌํ•˜์˜€๋‹ค. ํ‰๊ฐ€ metric์œผ๋กœclassfication ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ AUROC์™€ AUPRC๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ , regression ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ MSE๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. parameter ํŠœ๋‹์˜ ๊ฒฝ์šฐ, ์„ฑ๋Šฅ์˜ ํฐ์ฐจ์ด๋ฅผ ๋ณด์ด์ง€ ์•Š์•„ ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ธฐ๋ณธ hyper parameter๋ฅผ ์„ธํŒ…ํ•˜์˜€๋‹ค.

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ๋Š” learning rate๋Š” classificaton ๋ฌธ์ œ๋Š” 0.001, regression ๋ฌธ์ œ๋Š” 0.005๋กœ ๋‘์—ˆ๊ณ  RMSProp optimizer๋กœ trainํ•˜์˜€๋‹ค. activation function์€ ReLU๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ  dropout rate์€ 0.1, batch sizesms 100, max epoch number๋Š” 250์œผ๋กœ ์„ธํŒ…ํ•˜์˜€๊ณ  early stopping์„ ์‚ฌ์šฉํ•ด์„œ ์ตœ์ ์˜ weight๋ฅผ ๊ตฌํ•˜๊ณ  batch normalization์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์œ„์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ๋น„์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” FFN, ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” GRU๋กœ ๋‹ค๋ค˜๋‹ค.

Results

๋Œ€๋ถ€๋ถ„์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ MMDL์˜ ์„ฑ๋Šฅ์ด ๋” ์ข‹์•˜๋‹ค๋Š” ๊ฒƒ์„ ์–˜๊ธฐํ•˜๊ณ  ์žˆ๊ณ  feature๋“ค ์ค‘์—์„œ๋Š” ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•˜์ง€ ์•Š๊ณ  ๋‹ค๋ฅธ feature set๋“ค๋ณด๋‹ค ๋งŽ์€ ์ˆ˜์˜ feature๋“ค์„ ๊ฐ€์ง„ feature set C๊ฐ€ ๋” ์ข‹์€ ์ ์ˆ˜๋ฅผ ์–ป์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์›๋ณธ์˜ ์ž„์ƒ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๊ฐ€ ์˜ˆ์ธก ๋ชจ๋ธ์˜ input feature๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝ์šฐ, ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ๋จธ์‹ ๋Ÿฌ๋‹ ์•™์ƒ๋ธ”, SAPS II์™€ SOFA ์ ์ˆ˜๋ฅผ ์ด์šฉํ•œ ์˜ˆ์ธก๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.


์ด ๋…ผ๋ฌธ์„ ์ฝ๊ณ 

์ฃผ๋กœ lab event ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ  ๊ฒฐ๋ก ์œผ๋ก  ๋จธ์‹ ๋Ÿฌ๋‹์ด๋‚˜ SAPS-II, SOFA์™€ ๊ฐ™์€ method๋ณด๋‹ค ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋‹ค๋Š” ๊ฒƒ์„ ๋งํ•˜๊ณ  ์žˆ๋‹ค. ์ด ๋…ผ๋ฌธ์„ ์ฝ๊ณ  ๋‚˜์„œ ๋‹ค๋ฅธ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค๋Š” ๊ฒƒ์€ ์ดํ•ดํ–ˆ์ง€๋งŒ ์ด ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ์ง€๋Š” ์˜๋ฌธ์ด ๋“ค์—ˆ๋‹ค. regression task์˜ ๊ฒฝ์šฐ MSE๋Š” ์–ด๋А ๊ธฐ์ค€๊นŒ์ง€๊ฐ€ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ ๊ฐœ์ธ์ ์œผ๋กœ ๊ถ๊ธˆํ•˜๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” fine-tuning์ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ์ขŒ์ง€์šฐ์ง€ ํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜๊ณ  ๊ธฐ๋ณธ๊ฐ’์˜ hyper parameter๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด ๋ถ€๋ถ„์ด ์ด ๋ฐ์ดํ„ฐ์…‹์—์„œ๋งŒ ๊ทธ๋Ÿฌ๋Š” ๊ฑด์ง€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์—๋„ ๊ทธ๋Ÿฌ๋Š” ๊ฑด์ง€ ๊ถ๊ธˆํ•ด์กŒ๋‹ค.

 

Reference

์ตœ๊ทผ์— ์˜ฌ๋ผ์˜จ ๊ธ€
ยซ   2025/06   ยป
์ผ ์›” ํ™” ์ˆ˜ ๋ชฉ ๊ธˆ ํ† 
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday