ํ‹ฐ์Šคํ† ๋ฆฌ ๋ทฐ

์ด ๋‚ด์šฉ์€ ํŒก์š”๋žฉ์˜ ๊ฐ€์žฅ ์‰ฌ์šด KL Divergence ์™„์ „์ •๋ณต!์„ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑํ–ˆ๋‹ค.
์—„์ฒญ ์นœ์ ˆํ•˜๊ฒŒ ์„ค๋ช…ํ•ด์ฃผ์‹œ๋‹ˆ ๋” ์ž์„ธํ•˜๊ฒŒ ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด ์ฐธ๊ณ ํ•  ๊ฒƒ!

KL divergence๋ฅผ ๊ณต๋ถ€ํ•˜๊ธฐ ์ „์— ์•Œ์•„์•ผ ํ•  ํ†ต๊ณ„์ด๋ก 

KL divergence์— ๋Œ€ํ•ด ์•Œ์•„ ๋ณด๊ธฐ ์ „์— ๋ฏธ๋ฆฌ ์•Œ์•„๋‘ฌ์•ผ ํ•  ํ†ต๊ณ„์ด๋ก ๋“ค์„ ์‚ดํŽด๋ณด์ž!

  1. x์™€ y๊ฐ€ ๋…๋ฆฝ์ผ ๋•Œ, ์•„๋ž˜ ์‹์ด ์„ฑ๋ฆฝํ•œ๋‹ค.
    $$p(x, y) = p(x) * p(y)$$
  2. ๊ธฐ๋Œ“๊ฐ’: ์ „์ฒด ์‚ฌ๊ฑด์— ๋Œ€ํ•ด ์‚ฌ๊ฑด์ด ๋ฒŒ์–ด์กŒ์„ ๋•Œ์˜ ์ด๋“๊ณผ ๊ทธ ์‚ฌ๊ฑด์ด ๋ฒŒ์–ด์งˆ ํ™•๋ฅ ์„ ๊ณฑํ•œ ๊ฒƒ์„ ํ•ฉํ•œ ๊ฐ’์ด๋‹ค. ์ด๊ฒƒ์€ ์–ด๋–ค ํ™•๋ฅ ์  ์‚ฌ๊ฑด์— ๋Œ€ํ•œ ํ‰๊ท ์˜ ์˜๋ฏธ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐœ๋…์œผ๋กœ๋งŒ ๋ณด๋ฉด ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ต์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ๊ณ ๋“ฑํ•™์ƒ ๋•Œ ์ด๋ฏธ ๋ฐฐ์› ๋˜ ๊ฐœ๋…์ด๋‹ค. ์ฃผ์‚ฌ์œ„๋กœ ์˜ˆ๋กœ ๋“ค์ž๋ฉด,
    • ์‚ฌ๊ฑด์ด ๋ฒŒ์–ด์กŒ์„ ๋•Œ์˜ ์ด๋“: ์ฃผ์‚ฌ์œ„์˜ ๊ฐ’, 1, 2, 3, 4, 5, 6
    • ์‚ฌ๊ฑด์ด ๋ฒŒ์–ด์งˆ ํ™•๋ฅ : ์ฃผ์‚ฌ์œ„ ๊ฐ ๋ˆˆ๊ธˆ์ด ๋ฒŒ์–ด์งˆ ํ™•๋ฅ : ๊ฐ๊ฐ 1/6
    • ์ฃผ์‚ฌ์œ„์˜ ๊ธฐ๋Œ“๊ฐ’: $$\sum xP(x) = 1 \times \frac{1}6 + 2\times \frac{1}6 + 3 \times \frac{1}6 + 4 \times \frac{1}6 + 5 \times \frac{1}6 + 6 \times \frac{1}6 = \frac{21}6=3.5$$
    • ๋‹ค์‹œ ์จ๋ณด๋ฉด, $$E(x) = \sum_ix_if(x_i)$$๋ผ๊ณ  ์ ์„ ์ˆ˜ ์žˆ๋‹ค.
    • ์™œ ๊ธฐ๋Œ“๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฑธ๊นŒ? ์ฃผ์‚ฌ์œ„๋ฅผ ํ•œ๋ฒˆ ๋˜์ง„ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง€๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ์‚ฌ์œ„๊ฐ€ ์ค€ ์ผ๋ฐ˜์ ์ธ ๊ฒฐ๊ณผ๋ผ ๋งํ•  ์ˆ˜ ์—†๋‹ค. ์–ด์ฉ”๋• ๋‚ฎ์€ ์ˆซ์ž ์–ด์ฉ”๋• ๋†’์€ ์ˆซ์ž๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์—ฌ๋Ÿฌ๋ฒˆ ์‹œํ–‰ํ•˜์—ฌ ํ‰๊ท ์ ์œผ๋กœ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์กŒ์„ ๋•Œ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์€ 3.5๋‹ค.
  3. log ํ•จ์ˆ˜: ๋ฐ‘์ด 1๋ณด๋‹ค ํฌ๊ณ , x๊ฐ€ 0๊ณผ 1 ์‚ฌ์ด์ผ ๋•Œ y๋Š” ๋งˆ์ด๋„ˆ์Šค ๊ฐ’์„ ๊ฐ–๋Š”๋‹ค. ์ด ๋ถ€๋ถ„์€ ๋‹จ์กฐ ์ฆ๊ฐ€ํ•จ์ˆ˜์ด๋‹ค.
  4. uniform distribution, gaussian distribution์˜ ํ˜•ํƒœ

์ •๋ณด๋Ÿ‰ ์ธก์ •

๋จผ์ € ์˜ˆ๋ฅผ ๋“ค์–ด ๋ณด์ž, ๋‹ค์˜จ์ด์™€ ์ด๋“ ์ด๋Š” ํ†ต์‹ ์„ ํ•˜๊ณ  ์žˆ๋‹ค. ๋‹ค์˜จ์ด๋Š” ์ด๋“ ์ด์—๊ฒŒ ๋งค์ผ ํ•ด๊ฐ€ ์–ด๋А ์ชฝ์—์„œ ๋œจ๋Š” ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋ณด๋‚ด์ค€๋‹ค. ํ•ด๊ฐ€ ๋™์ชฝ์—์„œ ๋œจ๋Š” ์ •๋ณด๋ฅผ ์ด๋“ ์ด์—๊ฒŒ ์•Œ๋ ค์ค€๋‹ค๋ฉด ์ด๋“ ์ด๋Š” ๊ทธ๋ฆฌ ํฅ๋ฏธ๋กœ์›Œํ•˜์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. ๋‹น์—ฐํ•œ ์ •๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿฌ๋˜ ์–ด๋А๋‚  ํ•ด๊ฐ€ ์„œ์ชฝ์—์„œ ๋–ด๋‹ค! ๋‹ค์˜จ์ด๋Š” ์ด๋“ ์ด์—๊ฒŒ ํ•ด๊ฐ€ ์„œ์ชฝ์—์„œ ๋–ด๋‹ค๋Š” ์ •๋ณด๋ฅผ ์•Œ๋ฆดํ…Œ๊ณ  ์ด๋“ ์ด๋Š” ๊ต‰์žฅํžˆ ๋†€๋ž„ ๊ฒƒ์ด๋‹ค. ์™œ์ผ๊นŒ? ๋ง์ด ์•ˆ๋˜๋Š” ์ •๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์™œ ๋ง์ด ์•ˆ๋˜๋Š” ์ •๋ณด์ผ๊นŒ? ํ•ด๊ฐ€ ์„œ์ชฝ์—์„œ ๋œฌ๋‹ค๋Š” ๊ฒƒ์€ ํฌ๋ฐ•ํ•œ ํ™•๋ฅ ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด์ฒ˜๋Ÿผ ์ •๋ณด๋Š” “ํ•™์Šต์— ์žˆ์–ด ํ•„์š”ํ•œ ๋†€๋žŒ์˜ ์ •๋„(degree of surprise)”๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ•ญ์ƒ ๋ฐœ์ƒํ•˜๋Š” ์ผ์˜ ์ •๋ณด ์–‘์€ 0์ด๋‹ค. ํ•ด๊ฐ€ ํ•ญ์ƒ ๋™์ชฝ์—์„œ ๋œฌ๋‹ค๋ฉด ์–ป์„ ๋งŒํ•œ ์ •๋ณด๊ฐ€ ์—†์œผ๋‹ˆ 0์ด๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

h์˜ ์ฒซ ๋ฒˆ์งธ ์กฐ๊ฑด

์šฐ๋ฆฌ๋Š” ์ •๋ณด๋ผ๋Š” ์ถ”์ƒ์ ์ธ ์ˆ˜์น˜๋ฅผ ํ™•๋ฅ ์„ ์ด์šฉํ•ด ์ •๋Ÿ‰์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ คํ•œ๋‹ค. ์ •๋ณด๋ฅผ h๋ผ๊ณ  ํ•˜์ž. ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ ์ •๋ณด์˜ ํ•ด์„์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์ˆ˜ f๋ฅผ ๋งŒ๋“ ๋‹ค๋ฉด, ์ •๋ณด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์กฐ๊ฑด์„ ๊ฐ€์ง€๊ฒŒ ๋งŒ๋“ค์–ด์•ผ ํ•œ๋‹ค. p(east)๋Š” ๋™์ชฝ์—์„œ ํ•ด๊ฐ€ ๋œฐ ํ™•๋ฅ , p(west)๋Š” ์„œ์ชฝ์—์„œ ํ•ด๊ฐ€ ๋œฐ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

  • ํ™•๋ฅ  ๋ณ€์ˆ˜(Random variable) X์— ๋Œ€ํ•ด X๋Š” east(ํ•ด๊ฐ€ ๋™์ชฝ์—์„œ ๋œฐ ํ™•๋ฅ ), west(ํ•ด๊ฐ€ ์„œ์ชฝ์—์„œ ๋œฐ ํ™•๋ฅ ) ๋‘ ๊ฐ€์ง€ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ
  • X์˜ ์ •๋ณด๋Ÿ‰ h(x)๋Š” p(x)์— ๋Œ€ํ•œ ํ•จ์ˆ˜ ⇒ $$h(x)โ€„=โ€„f(p(x))โ€„=โ€„hโ€„=โ€„f(p)$$
  • p(east)โ€„=โ€„0.99999, p(west)โ€„=โ€„0.00001์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ h(west)โ€„>โ€„h(east)์—ฌ์•ผ ํ•œ๋‹ค.
  • p(x)์™€ h(x)๋Š” monotonic(๋‹จ์กฐ๊ฐ์†Œ)ํ•œ ๊ด€๊ณ„์—ฌ์•ผ ํ•œ๋‹ค. ์ฆ‰, p๊ฐ€ ์ปค์งˆ์ˆ˜๋ก h๋Š” ์ž‘์•„์ ธ์•ผํ•œ๋‹ค.

h์˜ ๋‘ ๋ฒˆ์งธ ์กฐ๊ฑด

๋งŒ์ผ 2๊ฐœ์˜ ์‚ฌ๊ฑด์ด๋ผ๋ฉด ์–ด๋–ป๊ฒŒ ๋ ๊นŒ? ๋‹ค์˜จ์ด๊ฐ€ ์ด๋“ ์ด์—๊ฒŒ ํ•ด๊ฐ€ ๋™์ชฝ์—์„œ ๋œจ๋Š”์ง€ ์„œ์ชฝ์—์„œ ๋œจ๋Š”์ง€๋ฅผ ์•Œ๋ ค์คŒ๊ณผ ๋™์‹œ์— ์„œ์šธ์— ๋น„๊ฐ€ ์˜ฌ์ง€ ์•ˆ์˜ฌ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋ณด๋‚ด์ค€๋‹ค๊ณ  ํ•˜์ž. ํ™•๋ฅ  ๋ณ€์ˆ˜(Random variable) X, Y์— ๋Œ€ํ•ด X๋Š” East, West ๋‘ ๊ฐ€์ง€ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค. Y๋Š” rain, not rain ๋‘ ๊ฐ€์ง€ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค. X, Y๋Š” ๋…๋ฆฝ์ด๋ผ๋Š” ์ „์ œ๋กœ ์ธํ•ด, ์•„๋ž˜์˜ ์ˆ˜์‹์ด ์„ฑ๋ฆฝ๋œ๋‹ค.

$$
h(x, y) = h(x) + h(y)
$$

$$
p(x, y) = p(x) * p(y)
$$

์œ„์˜ ์ˆ˜์‹์œผ๋กœ ์ธํ•ด $h(x,โ€†y)โ€„=โ€„f(p(x,โ€†y))โ€„=โ€„f(p(x)โ€…*โ€…p(y))โ€„=โ€„f(p(x)โ€…+โ€…f(p(y))$๋กœ ์œ ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์ •์˜ํ•˜๊ณ  ์‹ถ์€ ํ•จ์ˆ˜ f์˜ ํŠน์ง•๋งŒ ๋ณด๊ธฐ ์œ„ํ•ด p(x)๋ฅผ Xp(y)๋ฅผ Y′๋ผ ํ•˜๋ฉด ์•„๋ž˜์˜ ์ˆ˜์‹์ด ๋œ๋‹ค.

$$
f(X′โ€…*โ€…Y′)โ€„=โ€„f(X′)โ€…+โ€…f(Y′)
$$

์ด๋ฅผ ๋ณด๊ณ  ์šฐ๋ฆฌ๊ฐ€ ๊ณ ๋“ฑํ•™๊ต ๋•Œ ๋ฐฐ์› ๋˜ ์ˆ˜ํ•™ ์ด๋ก ๋“ค ์ค‘ ํ•œ ๊ฐ€์ง€๊ฐ€ ๋– ์˜ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. log๋‹ค! $log(x)โ€…+โ€…log(y)โ€„=โ€„log(xโ€…*โ€…y)$์˜ ํŠน์ง•์„ ์ด์šฉํ•˜๋ฉด ์šฐ๋ฆฌ๊ฐ€ ์ •์˜ํ•˜๊ณ  ์‹ถ์€ ํ•จ์ˆ˜ f๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ๊ฒฐ๊ตญ ์•„๋ž˜์™€ ๊ฐ™์€ ์ •๋ณด์— ๋Œ€ํ•œ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

$$
h(x) = log_p(x)
$$

์ด๊ฑธ ๋‹ค์‹œ ์œ„์˜ ์‹์— ๋Œ€์ž…ํ•ด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์€ ์‹์ด ๋œ๋‹ค.

$$
log(p(x) * p(y)) = log(p(x))+log(p(y))
$$

์—ฌ๊ธฐ์„œ ํ•œ๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ์žˆ๋‹ค. p(x)๋Š” ํ™•๋ฅ ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— 0์—์„œ 1์‚ฌ์ด์— ๊ฐ’์ด ์กด์žฌํ•˜๊ฒŒ ๋˜๋Š”๋ฐ log๋ฅผ ์”Œ์šฐ๊ฒŒ ๋˜๋ฉด ๋งˆ์ด๋„ˆ์Šค ๊ฐ’์„ ๊ฐ€์ง„๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ์กฐ๊ฑด(p(x)์™€ h(x)๋Š” monotonicํ•œ ๊ด€๊ณ„์—ฌ์•ผ ํ•จ)์„ ๋งŒ์กฑํ•˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค. logp(x)์— ๋งˆ์ด๋„ˆ์Šค๋ฅผ ๋ถ™์ด๋ฉด ๋ชจ๋“  ๊ฒƒ์ด ํ•ด๊ฒฐ๋œ๋‹ค.

์ฆ‰, $h(x) = -log_p(x)$๋ž€ ํ•จ์ˆ˜๋กœ ํ™•๋ฅ ๊ฐ’์„ ์ด์šฉํ•ด ์ •๋ณด๋Ÿ‰์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค! ํ•œ๊ฐ€์ง€ ๋” ์„ค์ •ํ•ด ์ค„ ํ•„์š”๊ฐ€ ์žˆ๋Š”๋ฐ log์˜ ๋ฐ‘์ด๋‹ค. log์˜ ๋ฐ‘์€ ์–ด๋–ค ๊ฐ’์ธ์ง€ ์ƒ๊ด€์—†์ด ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜์ง€๋งŒ ์ฃผ๋กœ 2๋‚˜ e๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค.

์˜ˆ์‹œ

์•ž์—์„œ ๋งํ–ˆ๋˜ ์‚ฌ๊ฑด์œผ๋กœ ์ •๋ณด๋Ÿ‰์„ ๊ณ„์‚ฐํ•ด๋ณด์ž. ํ•ด๊ฐ€ ๋™์ชฝ์—์„œ ๋œจ๋Š” ํ™•๋ฅ ์€ 0.99999999, ํ•ด๊ฐ€ ์„œ์ชฝ์—์„œ ๋œจ๋Š” ํ™•๋ฅ ์€ 0.00000001์ด๋ผ๊ณ  ํ•ด๋ณด์ž. ์‚ฌ์‹ค์€ ํ•ด๊ฐ€ ๋™์ชฝ์—์„œ ๋œจ๋Š” ํ™•๋ฅ ์ด ๋” ๋†’์„ ๊ฒƒ์ด์ง€๋งŒ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด ์ด๋ ‡๊ฒŒ ํ•ด๋ณด๊ฒ ๋‹ค.

$$
h(east) = -log_2p(east) = log_2(0.99999999) = 0.000000014
$$
$$
h(west) = -log_2p(west) = log_2(0.00000001) = 26.5754247591
$$

์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๋Œ€๋กœ ํ™•๋ฅ ์ด ๋†’์€ ์‚ฌ๊ฑด์€ ์ •๋ณด๋Ÿ‰์ด ๊ต‰์žฅํžˆ ์ž‘๊ณ  ํ™•๋ฅ ์ด ๋‚ฎ์€ ์‚ฌ๊ฑด์€ ์ •๋ณด๋Ÿ‰์€ ๊ต‰์žฅํžˆ ๋†’๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์ด ์‚ฌ๊ฑด์˜ ํ‰๊ท ์ ์ธ ์ •๋ณด๋Ÿ‰์€ ์–ด๋–จ๊นŒ?

$$
p(east) * h(east) + p(west) * h(west)
$$
$$
= p(east) * -log_2(p(east)) + p(west) * -log_2(p(west))
$$
$$
= 0.99999999 * 0.999999914 + 0.00000001 * 26.5754247591
$$
$$
= 0.00000028
$$

์—ฌ๊ธฐ์„œ ์•Œ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์‚ฌ๊ฑด์˜ ํ™•๋ฅ ์ด ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์ณ์ ธ ์žˆ์œผ๋ฉด ํ‰๊ท ์ ์ธ ์ •๋ณด๋Ÿ‰์€ ๊ต‰์žฅํžˆ ์ž‘์€ ์ˆ˜๊ฐ€ ๋‚˜์˜จ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์‹์„ ๋‹ค์‹œ ๋ณด์ž. ์ด ์‹์€ ๊ธฐ๋Œ“๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค! ์ด ๊ฐ’์ด ๋ฐ”๋กœ ์—”ํŠธ๋กœํ”ผ์ด๋‹ค! ์—”ํŠธ๋กœํ”ผ๋Š” ํ‰๊ท  ์ •๋ณด๋Ÿ‰์„ ์˜๋ฏธํ•˜๊ณ  p(x)์—์„œ h(x)ํ•จ์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.

์ฆ‰, ์—”ํŠธ๋กœํ”ผ๋Š” ์ •๋ณด๊ฐ€ ๊ท ๋“ฑํ•˜๊ฒŒ ํผ์ ธ์žˆ๋‹ค๋ฉด ๊ฐ€์žฅ ๋†’์•„์งˆ ๊ฒƒ์ด๋‹ค.

$$
H[X] = \sum_x p(x)log_2p(x) = E_p[-log_2p(x)]
$$

์—”ํŠธ๋กœํ”ผ ์˜ˆ์‹œ

์–ด๋–ค ์ •ํŒ”๋ฉด์ฒด ์ฃผ์‚ฌ์œ„๊ฐ€ ์žˆ์„ ๋•Œ, 8๊ฐœ์˜ ๋ฉด์˜ ํ™•๋ฅ ์ด ๊ฐ๊ฐ 1/8์ผ ๋•Œ ์—”ํŠธ๋กœํ”ผ ๊ฐ’์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

$$
H[x] = 1/8(-log_2(1/8)-log_2(1/8)-log_2(1/8)-log_2(1/8)
$$
$$
-log_2(1/8)-log_2(1/8)-log_2(1/8)-log_2(1/8))
$$
$$
=-8\times 1/8 \times log_2 {\frac{1}8}=3
$$

์ด๋ฒˆ์—” 8๊ฐœ ๋ฉด์˜ ํ™•๋ฅ ์ด ๋ถ„๊ท ์ผํ•  ๋•Œ ์—”ํŠธ๋กœํ”ผ ๊ฐ’์„ ๊ตฌํ•ด๋ณด์ž 8๊ฐœ์˜ ๋ฉด์€ ๊ฐ๊ฐ ๋ผ๊ณ  ํ•˜์ž.

์ด ๋•Œ ์—”ํŠธ๋กœํ”ผ ๊ฐ’์„ ๊ตฌํ•ด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

$$
H[x] = - \frac{1}2 log_2 (\frac{1}2)- \frac{1}4 log_2 (\frac{1}4)-
$$
$$
\frac{1}8 log_2 (\frac{1}8) -\frac{1}{16} log_2 (\frac{1}{16})- \frac{4}{64} log_2(\frac{1}{64})=2bits
$$

์ •ํŒ”๋ฉด์ฒด๊ฐ€ ์•„๋‹Œ ์ฝ”๋”ฉ์˜ ๊ธธ์ด๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์‚ฌ๊ฑด์ด๋ผ๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

$$
\frac{1}2\times1+\frac{1}4\times2+\frac{1}8\times3+\frac{1}{16}\times4+\frac{1}{64}\times6=2bits
$$

Entropy์˜ ๋ช‡๊ฐ€์ง€ ํŠน์ง•

  • ์ง€๊ธˆ๊นŒ์ง„ ์—ฐ์†์ ์ธ ๋ณ€์ˆ˜๋ฅผ ๋ณด์ง€ ์•Š์•˜์ง€๋งŒ ์—ฐ์†์ ์ธ ๋ณ€์ˆ˜์˜ ํ‰๊ท  ์ •๋ณด๋Ÿ‰์„ ๊ณ„์‚ฐํ•œ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
  • $$
    H[x]=lim_{\Delta->0}{\sum_{i}p(x_i)\Delta lnp(x_i)} = -\int p(x)lnp(x)dx
    $$
  • ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ๋Œ€ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„  ์•„๋ž˜์˜ distribution์ผ ๋•Œ ๋งŒ์กฑํ•œ๋‹ค.
    1. discrete variable์€ uniform
    2. continuous variable์€ gaussian
  • ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ์†Œํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„  ํ•œ ์ ์— ํ™•๋ฅ ์ด ๋‹ค ๋ชฐ๋ ค์žˆ์œผ๋ฉด ๋œ๋‹ค.

์—”ํŠธ๋กœํ”ผ ์ตœ๋Œ€ํ™”์™€ ์ตœ์†Œํ™”์˜ ์˜๋ฏธ๋ฅผ ์ข€ ๋” ์„ค๋ช…ํ•˜์ž๋ฉด ์—”ํŠธ๋กœํ”ผ๋Š”๋‹ค ํ‰๊ท  ์ •๋ณด๋Ÿ‰์ด๋‹ค. ํ™•๋ฅ ์ด ๊ณจ๊ณ ๋ฃจ ๋ถ„ํฌ๋˜์–ด์žˆ์„๋•Œ ์ •๋ณด์˜ ์–‘์ด ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ๊ฒƒ์ด๊ณ  ํ•œ ์ ์— ๋ชฐ๋ ค์žˆ๋Š” ๊ฒฝ์šฐ ์ •๋ณด์˜ ์–‘์ด ์ตœ์†Œ๊ฐ€ ๋œ๋‹ค.

KL divergence

์ด์ „๊นŒ์ง„ 1๊ฐœ์˜ ์‚ฌ๊ฑด์— ๋Œ€ํ•œ 1๊ฐœ์˜ ํ‰๊ท ์ ์ธ ์ •๋ณด๋Ÿ‰์„ ๊ตฌํ–ˆ์ง€๋งŒ ์ด๋ฒˆ์—” 1๊ฐœ์˜ ์‚ฌ๊ฑด์— 2๊ฐœ์˜ ์ •๋ณด๋Ÿ‰์„ ๊ตฌํ•ด์•ผํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•˜๋‚˜์˜ ๊ฐ€์ •์€ ๋‹ค์˜จ์ด๋Š” ๋ฐ”๋ณด๋ž€ ๊ฑฐ๋‹ค. ์‹ค์ œ ์ฃผ์‚ฌ์œ„ 4๋ฉด์˜ ํ™•๋ฅ ๋ถ„ํฌ๋Š” 1/4, 1/4, 1/4, 1/4์ด์ง€๋งŒ ๋‹ค์˜จ์ด๊ฐ€ ์ƒ๊ฐํ•œ 4๋ฉด์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ 1/2, 1/3, 1/8, 1/8์ด๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๊ฐ ์ƒํƒœ๋ฅผ ๊ฐ๊ฐ 0, 10, 110, 111๋กœ ์ฝ”๋”ฉํ•˜์˜€๋‹ค. ์‹ค์ œ ์ตœ์ ์˜ ์ฝ”๋”ฉ์€ 00, 01, 10, 11์ด๋‹ค. ์ด๋ฒˆ์—๋„ ๋‹ค์˜จ์ด๊ฐ€ ์ด๋“ ์ด์—๊ฒŒ ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์ ธ ๊ฐ’์ด ๋‚˜์˜ฌ๋•Œ๋งˆ๋‹ค ์ •๋ณด๋ฅผ ๋ณด๋ƒˆ๋‹ค. ์ด ๋•Œ ํ‰๊ท  ์ฝ”๋”ฉ ๊ธธ์ด๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

$$
\frac{1}4\times1+\frac{1}4\times2+\frac{1}4\times3+\frac{1}4\times3 = 2.25
$$

์œ„์—์„œ kl divergence๋ฅผ ๊ณ„์‚ฐํ–ˆ๋˜ ๊ฒƒ๊ณผ ์กฐ๊ธˆ ๋‹ค๋ฅด๋‹ค. ํ™•๋ฅ ์€ ์‹ค์ œ ์ •๋‹ต์ง€์ด๊ณ  ์ฝ”๋”ฉ ๊ธธ์ด๋Š” ๋‹ค์˜จ์ด๊ฐ€ ์ฝ”๋”ฉํ•œ ๊ธธ์ด์ด๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜์ž๋ฉด

$$
-\sum_xp(x)log_2q(x) \=-\frac{1}4\times log_2(\frac{1}2)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}8)-\frac{1}4\times log_2(\frac{1}8)=2.25
$$

๋‹ค์˜จ์ด๊ฐ€ p๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋ชจ๋ธ๋งํ–ˆ์„ ๊ฒฝ์šฐ

$$
-\sum_xp(x)log_2p(x) \ =-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)=2
$$

๋ชจ๋ธ๋งํ•œ q๊ฐ€ p์™€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ ์ถ”๊ฐ€๋น„์šฉ์€ ๋‘ ๊ฐ’์„ ๋บด์„œ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

(๋‹ค์˜จ์ด๊ฐ€ ์ž˜๋ชป ๋ชจ๋ธ๋งํ•œ ํ‰๊ท  ์ •๋ณด๋Ÿ‰) - (๋‹ค์˜จ์ด๊ฐ€ ์ •ํ™•ํ•˜๊ฒŒ ๋ชจ๋ธ๋งํ•œ ํ‰๊ท  ์ •๋ณด๋Ÿ‰)

= 2.25 - 2 = 0.25

์ฆ‰, ๋ชจ๋ธ๋ง ์˜ค๋ฅ˜ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ ์ถ”๊ฐ€ ๋น„์šฉ์€ ์ขŒ๋ณ€๊ณผ ๊ฐ™๊ณ  ๋บ„์…ˆ์€ log ์•ˆ์œผ๋กœ ๋“ค์–ด๊ฐ€๋ฉด์„œ ๋‚˜๋ˆ—์…ˆ์ด ๋œ๋‹ค!

$$
-\sum_xp(x)log_2q(x)-(-\sum_xp(x)log_2p(x))=-sum_xp(x)log_2(q(x)/ p(x))
$$

Cross-Entropy

$$
KL(p||q)= -\int p(x)lnq(x)dx -(-\int p(x)lnp(x)dx)=-int p(x)ln(q(x)/p(x))dx
$$

๋งจ ์•ž ์ธ์ˆ˜์ธ โ€…$-\int p(x)lnq(x)dx$๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์ต์ˆ™ํ•œ cross entropy์ด๋‹ค!

์™œ loss ํ•จ์ˆ˜๋Š” kl divergence๊ฐ€ ์•„๋‹Œ cross entropy์ผ๊นŒ?

์šฐ๋ฆฌ๋Š” p(๋ชจ๋ถ„ํฌ, ์ •๋‹ต)๋ฅผ ๊ทผ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด q(๋‰ด๋Ÿด๋„ท)๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค. ์ฆ‰ ์šฐ๋ฆฌ๊ฐ€ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ q๋ถ„ํฌ์—๋งŒ ํ•ด๋‹น๋˜๊ณ  p๋Š” q๋ฅผ ๋ฐ”๊ฟ”๋„ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋˜ํ•œ ์šฐ๋ฆฌ๊ฐ€ backpropagation์œผ๋กœ q์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ–ˆ์„๋•Œ p๋Š” ์‚ฌ๋ผ์ง€๊ธฐ ๋–„๋ฌธ์— cross entropy๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ฒฐ๊ตญ KL์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๋™์ผํ•˜๋‹ค.

์ตœ๊ทผ์— ์˜ฌ๋ผ์˜จ ๊ธ€
ยซ   2025/05   ยป
์ผ ์›” ํ™” ์ˆ˜ ๋ชฉ ๊ธˆ ํ† 
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Total
Today
Yesterday