ํฐ์คํ ๋ฆฌ ๋ทฐ
์ด ๋ด์ฉ์ ํก์๋ฉ์ ๊ฐ์ฅ ์ฌ์ด KL Divergence ์์ ์ ๋ณต!์ ์ฐธ๊ณ ํด์ ์์ฑํ๋ค.
์์ฒญ ์น์ ํ๊ฒ ์ค๋ช ํด์ฃผ์๋ ๋ ์์ธํ๊ฒ ์๊ณ ์ถ๋ค๋ฉด ์ฐธ๊ณ ํ ๊ฒ!
KL divergence๋ฅผ ๊ณต๋ถํ๊ธฐ ์ ์ ์์์ผ ํ ํต๊ณ์ด๋ก
KL divergence์ ๋ํด ์์ ๋ณด๊ธฐ ์ ์ ๋ฏธ๋ฆฌ ์์๋ฌ์ผ ํ ํต๊ณ์ด๋ก ๋ค์ ์ดํด๋ณด์!
- x์ y๊ฐ ๋
๋ฆฝ์ผ ๋, ์๋ ์์ด ์ฑ๋ฆฝํ๋ค.
$$p(x, y) = p(x) * p(y)$$ - ๊ธฐ๋๊ฐ: ์ ์ฒด ์ฌ๊ฑด์ ๋ํด ์ฌ๊ฑด์ด ๋ฒ์ด์ก์ ๋์ ์ด๋๊ณผ ๊ทธ ์ฌ๊ฑด์ด ๋ฒ์ด์ง ํ๋ฅ ์ ๊ณฑํ ๊ฒ์ ํฉํ ๊ฐ์ด๋ค. ์ด๊ฒ์ ์ด๋ค ํ๋ฅ ์ ์ฌ๊ฑด์ ๋ํ ํ๊ท ์ ์๋ฏธ๋ก ์๊ฐํ ์ ์๋ค. ๊ฐ๋
์ผ๋ก๋ง ๋ณด๋ฉด ์ดํดํ๊ธฐ ์ด๋ ต์ง๋ง ์ฐ๋ฆฌ๊ฐ ๊ณ ๋ฑํ์ ๋ ์ด๋ฏธ ๋ฐฐ์ ๋ ๊ฐ๋
์ด๋ค. ์ฃผ์ฌ์๋ก ์๋ก ๋ค์๋ฉด,
- ์ฌ๊ฑด์ด ๋ฒ์ด์ก์ ๋์ ์ด๋: ์ฃผ์ฌ์์ ๊ฐ, 1, 2, 3, 4, 5, 6
- ์ฌ๊ฑด์ด ๋ฒ์ด์ง ํ๋ฅ : ์ฃผ์ฌ์ ๊ฐ ๋๊ธ์ด ๋ฒ์ด์ง ํ๋ฅ : ๊ฐ๊ฐ 1/6
- ์ฃผ์ฌ์์ ๊ธฐ๋๊ฐ: $$\sum xP(x) = 1 \times \frac{1}6 + 2\times \frac{1}6 + 3 \times \frac{1}6 + 4 \times \frac{1}6 + 5 \times \frac{1}6 + 6 \times \frac{1}6 = \frac{21}6=3.5$$
- ๋ค์ ์จ๋ณด๋ฉด, $$E(x) = \sum_ix_if(x_i)$$๋ผ๊ณ ์ ์ ์ ์๋ค.
- ์ ๊ธฐ๋๊ฐ์ ๊ตฌํ๋ ๊ฑธ๊น? ์ฃผ์ฌ์๋ฅผ ํ๋ฒ ๋์ง ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ์ฌ์๊ฐ ์ค ์ผ๋ฐ์ ์ธ ๊ฒฐ๊ณผ๋ผ ๋งํ ์ ์๋ค. ์ด์ฉ๋ ๋ฎ์ ์ซ์ ์ด์ฉ๋ ๋์ ์ซ์๋ฅผ ์ป์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ฌ๋ฌ๋ฒ ์ํํ์ฌ ํ๊ท ์ ์ผ๋ก ๊ธฐ๋ํ ์ ์๋ ๊ฐ์ ๊ตฌํ๋ ๊ฒ์ด๋ค. ์ฃผ์ฌ์๋ฅผ ๋์ก์ ๋ ๊ธฐ๋ํ ์ ์๋ ๊ฐ์ 3.5๋ค.
- log ํจ์: ๋ฐ์ด 1๋ณด๋ค ํฌ๊ณ , x๊ฐ 0๊ณผ 1 ์ฌ์ด์ผ ๋ y๋ ๋ง์ด๋์ค ๊ฐ์ ๊ฐ๋๋ค. ์ด ๋ถ๋ถ์ ๋จ์กฐ ์ฆ๊ฐํจ์์ด๋ค.
- uniform distribution, gaussian distribution์ ํํ
์ ๋ณด๋ ์ธก์
๋จผ์ ์๋ฅผ ๋ค์ด ๋ณด์, ๋ค์จ์ด์ ์ด๋ ์ด๋ ํต์ ์ ํ๊ณ ์๋ค. ๋ค์จ์ด๋ ์ด๋ ์ด์๊ฒ ๋งค์ผ ํด๊ฐ ์ด๋ ์ชฝ์์ ๋จ๋ ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ณด๋ด์ค๋ค. ํด๊ฐ ๋์ชฝ์์ ๋จ๋ ์ ๋ณด๋ฅผ ์ด๋ ์ด์๊ฒ ์๋ ค์ค๋ค๋ฉด ์ด๋ ์ด๋ ๊ทธ๋ฆฌ ํฅ๋ฏธ๋ก์ํ์ง ์์ ๊ฒ์ด๋ค. ๋น์ฐํ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋๋ ํด๊ฐ ์์ชฝ
์์ ๋ด๋ค! ๋ค์จ์ด๋ ์ด๋ ์ด์๊ฒ ํด๊ฐ ์์ชฝ์์ ๋ด๋ค๋ ์ ๋ณด๋ฅผ ์๋ฆดํ
๊ณ ์ด๋ ์ด๋ ๊ต์ฅํ ๋๋ ๊ฒ์ด๋ค. ์์ผ๊น? ๋ง์ด ์๋๋ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ ๋ง์ด ์๋๋ ์ ๋ณด์ผ๊น? ํด๊ฐ ์์ชฝ์์ ๋ฌ๋ค๋ ๊ฒ์ ํฌ๋ฐํ ํ๋ฅ ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ฒ๋ผ ์ ๋ณด๋ “ํ์ต์ ์์ด ํ์ํ ๋๋์ ์ ๋(degree of surprise)”๋ก ํด์ํ ์ ์๋ค. ๋ฐ๋ผ์ ํญ์ ๋ฐ์ํ๋ ์ผ์ ์ ๋ณด ์์ 0์ด๋ค. ํด๊ฐ ํญ์ ๋์ชฝ์์ ๋ฌ๋ค๋ฉด ์ป์ ๋งํ ์ ๋ณด๊ฐ ์์ผ๋ 0์ด๋ผ๊ณ ๋งํ ์ ์๋ค.
h์ ์ฒซ ๋ฒ์งธ ์กฐ๊ฑด
์ฐ๋ฆฌ๋ ์ ๋ณด๋ผ๋ ์ถ์์ ์ธ ์์น๋ฅผ ํ๋ฅ ์ ์ด์ฉํด ์ ๋์
์ผ๋ก ํํํ๋ คํ๋ค. ์ ๋ณด๋ฅผ h๋ผ๊ณ ํ์. ์์์ ์ธ๊ธํ ์ ๋ณด์ ํด์์ ๋ฐํ์ผ๋ก ํจ์ f๋ฅผ ๋ง๋ ๋ค๋ฉด, ์ ๋ณด๋ ๋ค์๊ณผ ๊ฐ์ ์กฐ๊ฑด์ ๊ฐ์ง๊ฒ ๋ง๋ค์ด์ผ ํ๋ค. p(east)๋ ๋์ชฝ์์ ํด๊ฐ ๋ฐ ํ๋ฅ , p(west)๋ ์์ชฝ์์ ํด๊ฐ ๋ฐ ํ๋ฅ ์ ์๋ฏธํ๋ค.
- ํ๋ฅ ๋ณ์(Random variable) X์ ๋ํด X๋ east(ํด๊ฐ ๋์ชฝ์์ ๋ฐ ํ๋ฅ ), west(ํด๊ฐ ์์ชฝ์์ ๋ฐ ํ๋ฅ ) ๋ ๊ฐ์ง ๊ฐ์ ๊ฐ์ง ์ ์์
- X์ ์ ๋ณด๋ h(x)๋ p(x)์ ๋ํ ํจ์ ⇒ $$h(x)โ=โf(p(x))โ=โhโ=โf(p)$$
- p(east)โ=โ0.99999, p(west)โ=โ0.00001์ด๋ผ๊ณ ํ์ ๋ h(west)โ>โh(east)์ฌ์ผ ํ๋ค.
- p(x)์ h(x)๋ monotonic(๋จ์กฐ๊ฐ์)ํ ๊ด๊ณ์ฌ์ผ ํ๋ค. ์ฆ, p๊ฐ ์ปค์ง์๋ก h๋ ์์์ ธ์ผํ๋ค.
h์ ๋ ๋ฒ์งธ ์กฐ๊ฑด
๋ง์ผ 2๊ฐ์ ์ฌ๊ฑด์ด๋ผ๋ฉด ์ด๋ป๊ฒ ๋ ๊น? ๋ค์จ์ด๊ฐ ์ด๋ ์ด์๊ฒ ํด๊ฐ ๋์ชฝ์์ ๋จ๋์ง ์์ชฝ์์ ๋จ๋์ง๋ฅผ ์๋ ค์ค๊ณผ ๋์์ ์์ธ์ ๋น๊ฐ ์ฌ์ง ์์ฌ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ณด๋ด์ค๋ค๊ณ ํ์. ํ๋ฅ ๋ณ์(Random variable) X, Y์ ๋ํด X๋ East, West ๋ ๊ฐ์ง ๊ฐ์ ๊ฐ์ง๋ค. Y๋ rain, not rain ๋ ๊ฐ์ง ๊ฐ์ ๊ฐ์ง๋ค. X, Y๋ ๋ ๋ฆฝ์ด๋ผ๋ ์ ์ ๋ก ์ธํด, ์๋์ ์์์ด ์ฑ๋ฆฝ๋๋ค.
$$
h(x, y) = h(x) + h(y)
$$
$$
p(x, y) = p(x) * p(y)
$$
์์ ์์์ผ๋ก ์ธํด $h(x,โy)โ=โf(p(x,โy))โ=โf(p(x)โ *โ p(y))โ=โf(p(x)โ +โ f(p(y))$๋ก ์ ๋ ๊ฐ๋ฅํ๋ค. ์ฐ๋ฆฌ๊ฐ ์ ์ํ๊ณ ์ถ์ ํจ์ f์ ํน์ง๋ง ๋ณด๊ธฐ ์ํด p(x)๋ฅผ X′ p(y)๋ฅผ Y′๋ผ ํ๋ฉด ์๋์ ์์์ด ๋๋ค.
$$
f(X′โ
*โ
Y′)โ=โf(X′)โ
+โ
f(Y′)
$$
์ด๋ฅผ ๋ณด๊ณ ์ฐ๋ฆฌ๊ฐ ๊ณ ๋ฑํ๊ต ๋ ๋ฐฐ์ ๋ ์ํ ์ด๋ก ๋ค ์ค ํ ๊ฐ์ง๊ฐ ๋ ์ค๋ฅผ ์ ์๋ค. log
๋ค! $log(x)โ
+โ
log(y)โ=โlog(xโ
*โ
y)$์ ํน์ง์ ์ด์ฉํ๋ฉด ์ฐ๋ฆฌ๊ฐ ์ ์ํ๊ณ ์ถ์ ํจ์ f๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ค. ๊ทธ๋์ ๊ฒฐ๊ตญ ์๋์ ๊ฐ์ ์ ๋ณด์ ๋ํ ํจ์๋ฅผ ๋ง๋ค ์ ์๋ค.
$$
h(x) = log_p(x)
$$
์ด๊ฑธ ๋ค์ ์์ ์์ ๋์ ํด๋ณด๋ฉด ์๋์ ๊ฐ์ ์์ด ๋๋ค.
$$
log(p(x) * p(y)) = log(p(x))+log(p(y))
$$
์ฌ๊ธฐ์ ํ๊ฐ์ง ๋ฌธ์ ์ ์ด ์๋ค. p(x)๋ ํ๋ฅ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ 0์์ 1์ฌ์ด์ ๊ฐ์ด ์กด์ฌํ๊ฒ ๋๋๋ฐ log๋ฅผ ์์ฐ๊ฒ ๋๋ฉด ๋ง์ด๋์ค ๊ฐ์ ๊ฐ์ง๋ค. ๊ทธ๋ฌ๋ฉด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ฒซ ๋ฒ์งธ ์กฐ๊ฑด(p(x)์ h(x)๋ monotonicํ ๊ด๊ณ์ฌ์ผ ํจ)์ ๋ง์กฑํ์ง ์๊ฒ ๋๋ค. logp(x)์ ๋ง์ด๋์ค๋ฅผ ๋ถ์ด๋ฉด ๋ชจ๋ ๊ฒ์ด ํด๊ฒฐ๋๋ค.
์ฆ, $h(x) = -log_p(x)$๋ ํจ์๋ก ํ๋ฅ ๊ฐ์ ์ด์ฉํด ์ ๋ณด๋์ ๊ตฌํ ์ ์๋ค! ํ๊ฐ์ง ๋ ์ค์ ํด ์ค ํ์๊ฐ ์๋๋ฐ log์ ๋ฐ์ด๋ค. log์ ๋ฐ์ ์ด๋ค ๊ฐ์ธ์ง ์๊ด์์ด ์กฐ๊ฑด์ ๋ง์กฑํ์ง๋ง ์ฃผ๋ก 2๋ e๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
์์
์์์ ๋งํ๋ ์ฌ๊ฑด์ผ๋ก ์ ๋ณด๋์ ๊ณ์ฐํด๋ณด์. ํด๊ฐ ๋์ชฝ์์ ๋จ๋ ํ๋ฅ ์ 0.99999999, ํด๊ฐ ์์ชฝ์์ ๋จ๋ ํ๋ฅ ์ 0.00000001์ด๋ผ๊ณ ํด๋ณด์. ์ฌ์ค์ ํด๊ฐ ๋์ชฝ์์ ๋จ๋ ํ๋ฅ ์ด ๋ ๋์ ๊ฒ์ด์ง๋ง ํธ์์ฑ์ ์ํด ์ด๋ ๊ฒ ํด๋ณด๊ฒ ๋ค.
$$
h(east) = -log_2p(east) = log_2(0.99999999) = 0.000000014
$$
$$
h(west) = -log_2p(west) = log_2(0.00000001) = 26.5754247591
$$
์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋๋ก ํ๋ฅ ์ด ๋์ ์ฌ๊ฑด์ ์ ๋ณด๋์ด ๊ต์ฅํ ์๊ณ ํ๋ฅ ์ด ๋ฎ์ ์ฌ๊ฑด์ ์ ๋ณด๋์ ๊ต์ฅํ ๋๋ค. ๊ทธ๋ฌ๋ฉด ์ด ์ฌ๊ฑด์ ํ๊ท ์ ์ธ ์ ๋ณด๋์ ์ด๋จ๊น?
$$
p(east) * h(east) + p(west) * h(west)
$$
$$
= p(east) * -log_2(p(east)) + p(west) * -log_2(p(west))
$$
$$
= 0.99999999 * 0.999999914 + 0.00000001 * 26.5754247591
$$
$$
= 0.00000028
$$
์ฌ๊ธฐ์ ์ ์ ์๋ ๊ฒ์ ์ฌ๊ฑด์ ํ๋ฅ ์ด ํ์ชฝ์ผ๋ก ์น์ฐ์ณ์ ธ ์์ผ๋ฉด ํ๊ท ์ ์ธ ์ ๋ณด๋์ ๊ต์ฅํ ์์ ์
๊ฐ ๋์จ๋ค๋ ๊ฒ์ด๋ค. ์์ ๋ค์ ๋ณด์. ์ด ์์ ๊ธฐ๋๊ฐ์ผ๋ก ๋ํ๋ผ ์ ์๋ค! ์ด ๊ฐ์ด ๋ฐ๋ก ์ํธ๋กํผ
์ด๋ค! ์ํธ๋กํผ๋ ํ๊ท ์ ๋ณด๋์ ์๋ฏธํ๊ณ p(x)์์ h(x)ํจ์์ ๊ธฐ๋๊ฐ์ ์๋ฏธํ๋ค.
์ฆ, ์ํธ๋กํผ๋ ์ ๋ณด๊ฐ ๊ท ๋ฑํ๊ฒ ํผ์ ธ์๋ค๋ฉด ๊ฐ์ฅ ๋์์ง ๊ฒ์ด๋ค.
$$
H[X] = \sum_x p(x)log_2p(x) = E_p[-log_2p(x)]
$$
์ํธ๋กํผ ์์
์ด๋ค ์ ํ๋ฉด์ฒด ์ฃผ์ฌ์๊ฐ ์์ ๋, 8๊ฐ์ ๋ฉด์ ํ๋ฅ ์ด ๊ฐ๊ฐ 1/8์ผ ๋ ์ํธ๋กํผ ๊ฐ์ ๋ค์๊ณผ ๊ฐ๋ค.
$$
H[x] = 1/8(-log_2(1/8)-log_2(1/8)-log_2(1/8)-log_2(1/8)
$$
$$
-log_2(1/8)-log_2(1/8)-log_2(1/8)-log_2(1/8))
$$
$$
=-8\times 1/8 \times log_2 {\frac{1}8}=3
$$
์ด๋ฒ์ 8๊ฐ ๋ฉด์ ํ๋ฅ ์ด ๋ถ๊ท ์ผํ ๋ ์ํธ๋กํผ ๊ฐ์ ๊ตฌํด๋ณด์ 8๊ฐ์ ๋ฉด์ ๊ฐ๊ฐ ๋ผ๊ณ ํ์.
์ด ๋ ์ํธ๋กํผ ๊ฐ์ ๊ตฌํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
$$
H[x] = - \frac{1}2 log_2 (\frac{1}2)- \frac{1}4 log_2 (\frac{1}4)-
$$
$$
\frac{1}8 log_2 (\frac{1}8) -\frac{1}{16} log_2 (\frac{1}{16})- \frac{4}{64} log_2(\frac{1}{64})=2bits
$$
์ ํ๋ฉด์ฒด๊ฐ ์๋ ์ฝ๋ฉ์ ๊ธธ์ด๋ฅผ ๊ณ์ฐํ๋ ์ฌ๊ฑด์ด๋ผ๋ฉด ์๋์ ๊ฐ๋ค.
$$
\frac{1}2\times1+\frac{1}4\times2+\frac{1}8\times3+\frac{1}{16}\times4+\frac{1}{64}\times6=2bits
$$
Entropy์ ๋ช๊ฐ์ง ํน์ง
- ์ง๊ธ๊น์ง ์ฐ์์ ์ธ ๋ณ์๋ฅผ ๋ณด์ง ์์์ง๋ง ์ฐ์์ ์ธ ๋ณ์์ ํ๊ท ์ ๋ณด๋์ ๊ณ์ฐํ๋ค๋ฉด ์๋์ ๊ฐ๋ค.
- $$
H[x]=lim_{\Delta->0}{\sum_{i}p(x_i)\Delta lnp(x_i)} = -\int p(x)lnp(x)dx
$$ - ์ํธ๋กํผ๋ฅผ ์ต๋ํ์ํค๊ธฐ ์ํด์ ์๋์ distribution์ผ ๋ ๋ง์กฑํ๋ค.
- discrete variable์ uniform
- continuous variable์ gaussian
- ์ํธ๋กํผ๋ฅผ ์ต์ํ์ํค๊ธฐ ์ํด์ ํ ์ ์ ํ๋ฅ ์ด ๋ค ๋ชฐ๋ ค์์ผ๋ฉด ๋๋ค.
์ํธ๋กํผ ์ต๋ํ์ ์ต์ํ์ ์๋ฏธ๋ฅผ ์ข ๋ ์ค๋ช
ํ์๋ฉด ์ํธ๋กํผ๋๋ค ํ๊ท ์ ๋ณด๋
์ด๋ค. ํ๋ฅ ์ด ๊ณจ๊ณ ๋ฃจ ๋ถํฌ๋์ด์์๋ ์ ๋ณด์ ์์ด ์ต๋๊ฐ ๋๋ ๊ฒ์ด๊ณ ํ ์ ์ ๋ชฐ๋ ค์๋ ๊ฒฝ์ฐ ์ ๋ณด์ ์์ด ์ต์๊ฐ ๋๋ค.
KL divergence
์ด์ ๊น์ง 1๊ฐ์ ์ฌ๊ฑด์ ๋ํ 1๊ฐ์ ํ๊ท ์ ์ธ ์ ๋ณด๋์ ๊ตฌํ์ง๋ง ์ด๋ฒ์ 1๊ฐ์ ์ฌ๊ฑด์ 2๊ฐ์ ์ ๋ณด๋์ ๊ตฌํด์ผํ๋ค. ์ฌ๊ธฐ์ ํ๋์ ๊ฐ์ ์ ๋ค์จ์ด๋ ๋ฐ๋ณด๋ ๊ฑฐ๋ค. ์ค์ ์ฃผ์ฌ์ 4๋ฉด์ ํ๋ฅ ๋ถํฌ๋ 1/4, 1/4, 1/4, 1/4์ด์ง๋ง ๋ค์จ์ด๊ฐ ์๊ฐํ 4๋ฉด์ ํ๋ฅ ๋ถํฌ๋ฅผ 1/2, 1/3, 1/8, 1/8์ด๋ผ๊ณ ์๊ฐํ๋ค. ๊ทธ๋์ ๊ฐ ์ํ๋ฅผ ๊ฐ๊ฐ 0, 10, 110, 111๋ก ์ฝ๋ฉํ์๋ค. ์ค์ ์ต์ ์ ์ฝ๋ฉ์ 00, 01, 10, 11์ด๋ค. ์ด๋ฒ์๋ ๋ค์จ์ด๊ฐ ์ด๋ ์ด์๊ฒ ์ฃผ์ฌ์๋ฅผ ๋์ ธ ๊ฐ์ด ๋์ฌ๋๋ง๋ค ์ ๋ณด๋ฅผ ๋ณด๋๋ค. ์ด ๋ ํ๊ท ์ฝ๋ฉ ๊ธธ์ด
๋ ์๋์ ๊ฐ๋ค.
$$
\frac{1}4\times1+\frac{1}4\times2+\frac{1}4\times3+\frac{1}4\times3 = 2.25
$$
์์์ kl divergence๋ฅผ ๊ณ์ฐํ๋ ๊ฒ๊ณผ ์กฐ๊ธ ๋ค๋ฅด๋ค. ํ๋ฅ ์ ์ค์ ์ ๋ต์ง์ด๊ณ ์ฝ๋ฉ ๊ธธ์ด๋ ๋ค์จ์ด๊ฐ ์ฝ๋ฉํ ๊ธธ์ด์ด๋ค. ์์์ผ๋ก ํํํ์๋ฉด
$$
-\sum_xp(x)log_2q(x) \=-\frac{1}4\times log_2(\frac{1}2)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}8)-\frac{1}4\times log_2(\frac{1}8)=2.25
$$
๋ค์จ์ด๊ฐ p๋ฅผ ์ ํํ๊ฒ ๋ชจ๋ธ๋งํ์ ๊ฒฝ์ฐ
$$
-\sum_xp(x)log_2p(x) \ =-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)-\frac{1}4\times log_2(\frac{1}4)=2
$$
๋ชจ๋ธ๋งํ q๊ฐ p์ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ ์ถ๊ฐ๋น์ฉ์ ๋ ๊ฐ์ ๋บด์ ๊ณ์ฐํ ์ ์๋ค.
(๋ค์จ์ด๊ฐ ์๋ชป ๋ชจ๋ธ๋งํ ํ๊ท ์ ๋ณด๋) - (๋ค์จ์ด๊ฐ ์ ํํ๊ฒ ๋ชจ๋ธ๋งํ ํ๊ท ์ ๋ณด๋)
= 2.25 - 2 = 0.25
์ฆ, ๋ชจ๋ธ๋ง ์ค๋ฅ ๋๋ฌธ์ ๋ฐ์ํ ์ถ๊ฐ ๋น์ฉ์ ์ข๋ณ๊ณผ ๊ฐ๊ณ ๋บ์ ์ log ์์ผ๋ก ๋ค์ด๊ฐ๋ฉด์ ๋๋์ ์ด ๋๋ค!
$$
-\sum_xp(x)log_2q(x)-(-\sum_xp(x)log_2p(x))=-sum_xp(x)log_2(q(x)/ p(x))
$$
Cross-Entropy
$$
KL(p||q)= -\int p(x)lnq(x)dx -(-\int p(x)lnp(x)dx)=-int p(x)ln(q(x)/p(x))dx
$$
๋งจ ์ ์ธ์์ธ โ
$-\int p(x)lnq(x)dx$๊ฐ ์ฐ๋ฆฌ๊ฐ ์ต์ํ cross entropy
์ด๋ค!
์ loss ํจ์๋ kl divergence๊ฐ ์๋ cross entropy์ผ๊น?
์ฐ๋ฆฌ๋ p(๋ชจ๋ถํฌ, ์ ๋ต)๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํด q(๋ด๋ด๋ท)๋ฅผ ๋ง๋ค์๋ค. ์ฆ ์ฐ๋ฆฌ๊ฐ ์์ ํ ์ ์๋ ๊ฒ์ q๋ถํฌ์๋ง ํด๋น๋๊ณ p๋ q๋ฅผ ๋ฐ๊ฟ๋ ๋ณํ์ง ์๋๋ค. ๋ํ ์ฐ๋ฆฌ๊ฐ backpropagation์ผ๋ก q์ ๋ํด ๋ฏธ๋ถํ์๋ p๋ ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ cross entropy๋ฅผ ์ฌ์ฉํ๋ค. ๊ฒฐ๊ตญ KL์ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋์ผํ๋ค.
'๐ง Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ชข ๋ฅ๋ฌ๋์ ํ์ํ ํ๋ฅ ์ด์ง ์ฐ์ด๋จน๊ธฐ, ์ต๋์ฐ๋๋ฒ (0) | 2024.05.02 |
---|---|
๐ง๏ธ ์ดํดํ๋ฉด ์ฌ์ด ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ VAE (0) | 2024.04.17 |
๐ Multivariable Fractional Polynomials(MFP) (0) | 2024.04.03 |
โ๏ธ RNN์์ orthogonal matrix๋ฅผ initializer๋ก ์ฐ๋ ์ด์ (0) | 2024.04.03 |
๐ [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] MIMIC-IV ๋ฐ์ดํฐ ๊ตฌ์กฐ ์ดํดํ๊ธฐ (0) | 2024.04.03 |
- Computer Vision
- ์ฑ ๋ฆฌ๋ทฐ
- linux
- Multiprocessing
- ๊ฐ๋ฐ์
- vscode
- ๊ธ๋
- ๋ ํ๊ฐ
- Generative Model
- python
- ํ๊ณ
- ๋จธ์ ๋ฌ๋ ์ด๋ก
- tmux
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ
- GIT
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Total
- Today
- Yesterday