ํฐ์คํ ๋ฆฌ ๋ทฐ
๐ป RelGAN: ์ผ๊ตด์ ํน์ ๋ถ๋ถ๋ง translation ํ๊ธฐ
์ด์ YIYU 2024. 4. 18. 09:54๐ ์ด๋ฒ ๊ธ์์ ๋ค๋ฃฐ ๋ ผ๋ฌธ์ 2019๋ ICCV์์ ๋ฐํ๋ RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes์ ๋๋ค. ์ธ์ธํ ํน์ง์ ๊ฐ์ง๊ณ ์๋ ์ผ๊ตด ๋ถ์์์ ์ํ๋ ์์ญ๋ง ๋ฐ๊ฟ ์ ์๊ณ ์ผ๊ตด ์ ์ฒด์ฑ์ ๊ทธ๋๋ก ๋ณด์กดํ๋ ๊ฒ์ด ๋ณธ ๋ชจ๋ธ์ ํน์ง์ ๋๋ค.
โญ๏ธ Summary
- RelGAN์ relative target attribute๋ฅผ ์ด์ฉํด ์ผ๊ตด ์์ญ ์ค ๋ณํํ๊ณ ์ถ์ ๋ค์ค ์์ฑ(๋, ๋จธ๋ฆฌ์นด๋ฝ, ์ ๋ชจ์ ๋ฑ)๋ง์ ๋ณํํ ์ ์๊ฒ ํ๋ค.
- generator์๊ฒ relative attributes๋ฅผ ํ์ตํ๊ธฐ ์ํด, ์๋ณธ ์ด๋ฏธ์ง์ ์์ฑ๋ ์ด๋ฏธ์ง์ relative attributes์ด ์ผ์น๋๋์ง ๊ฒฐ์ ํ๋ match-aware discriminator๋ฅผ ์ ์ํ๋ค.
- ๋ชจ๋ ์์ฑ๋ค์ ์์ ํ ํ์ ํ์ง ์์๋ ๋๊ณ ๊ฐ ์์ฑ์ด ์ด๋ค ๊ฐ์ผ๋ก ๋ณํํ๋์ง์ ์ง์คํ๋ค.
- interpolation quality๋ฅผ ํฅ์์ํค๊ธฐ ์ํด interpolation discriminator๋ฅผ ์ ์ํ๋ค.
๐ญ Method
- ๋จ์ผ generator๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ 3๊ฐ์ Discriminator๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ํ์ค์ ์ด์ฌ์ผ ํ๋ฉฐ, ํ๊ฒ ์์ฑ ์ด์ธ์๋ ์๋ณธ ์ด๋ฏธ์ง์์ ๋ณํ๋์ง ์๊ฒ ํ๊ณ , ์์ฑ๋ ์ด๋ฏธ์ง์์ ํ๊ฒ ์์ฑ์ ๋ฐ๋๋ก ๋ณํํ์ ๋ ์๋ณธ ์ด๋ฏธ์ง์ ์ฐจ์ด๊ฐ ์๊ฒ ํ๊ธฐ ์ํด 5๊ฐ์ loss๋ฅผ ์ฌ์ฉํ๋ค.
๐ฆ Future works
- adversarial learning
- mask mechanism ํ์ฉ
๊ธฐ์กด multi-domain image-to-image translation model์ ๋ฌธ์ ์
- binary attribute์ด๊ธฐ ๋๋ฌธ์ interpolation ํ๋ฆฌํฐ๊ฐ ์ข์ง ์์
- interpolation์ด ์ค์ํ ์ด์ : ํน์ฑ์ ๊ฐ๋์ ๋ํ ์ธ๋ฐํ ์กฐ์ (๊ฐ์๊ณผ ๊ธ๋ฐ ๋จธ๋ฆฌ์์ ๋น์จ ๋ฏธ์/ํ๋ณต์ ์ ๋)์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ
- ๋ณํํด์ผํ ๊ฒ์ ๋ณํํ๋ ๊ธฐ์กด ํน์ฑ์ ๋ณํด์๋ ์๋จ → ์ธ๋ฐํ ์ ์ด๊ฐ ํ์ํจ
๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฌธ์ ์ ๋ค์ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
์ด์ ๋ชจ๋ธ์ input pair๋ฅผ \((x, \hat{a})\)๋ก ๋์์ผ๋ฉฐ ์ฌ๊ธฐ์ x๋ ์๋ณธ ์ด๋ฏธ์ง, \(\hat{a}\)์ target ์์ฑ์ด๋ค. ๋ฐ๋ฉด์ RelGAN์ \((x, v)\)๋ก ์ค์ ํ์๋๋ฐ ์ฌ๊ธฐ์ v๋ relative attributes์ด๋ค. relative attributes๋ ์๋ณธ ์์ฑ์์ target ์์ฑ๋ค์ ๋บ ๋ฒกํฐ๋ก ํํ๋๋ค.
$$ v \stackrel{\Delta}{=} \hat{a}-a $$
์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด target attributes๋ ๋ณํด์ผํ๋ hair color๋ง 1์ ์ฃผ์๊ณ smile๋ 1์ ์ฃผ์ด ๋ณํํด์ผํ๋ ์ด๋ฏธ์ง๋ smile์ ๋ณด์กดํ๊ฒ๋ ํ์๋ค. relative attributes๋ ๋ณํด์ผํ๋ ์์ญ๋ง 1๋ก ๋์ด hair color๋ง 1๋ก ๋ ๊ฒ์ด๊ณ smile ๋ํ ๊ทธ๋๋ก ๋ณด์กดํ๊ฒ ํ๊ธฐ ์ํด 0์ผ๋ก ๋งคํ๋์๋ค. 1์ turn on, -1์ turn off, ๋ณํํ์ง ์์ผ๋ฉด 0์ด๋ค. hair color ๊ฐ์์ turn off ํด์ฃผ๊ณ ๊ธ๋ฐ ๋จธ๋ฆฌ๋ฅผ turn on ํด์ค ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
RelGAN์์ interpolation์ ์ด์ฉํด ์์ฑ์ ์ ๋๋ฅผ ์์ ํ ์ ์๊ฒ ํ์๋ค. ์ด์ธ์ ๋ค๋ฅธ attribute๋ค์ 0์ผ๋ก ๋งคํํด ๋ณํ์ํค์ง ์์ผ๋ฉฐ ์์ ๊ทธ๋ฆผ์์๋ ์๋ ์ ๋์ ๋์ด ์ ๋๋ฅผ ์ด์ฉํด ์์ฐ์ค๋ฝ๊ฒ ํด๋น ์์ฑ์ ์ฝํ๊ฒ ๋ณํํ ์ง ๊ฐํ๊ฒ ๋ณํํ ์ง ์กฐ์ ํ ์ ์๋ค.
๊ทธ๋์ relative-attribute ๊ธฐ๋ฐ์ method์ธ RelGAN์ ์ ์ํ๋ค. RelGAN์ ๋จ์ผ generator G๋ฅผ ๊ฐ์ง๊ณ ์๊ณ 3๊ฐ์ discriminator \(D_{Real}, D_{Match}, D_{Interp}\)๋ก ๋์ด์๋ค. discriminator๋ค์ ๊ฐ๊ฐ G๊ฐ ํ์ค ์ด๋ฏธ์ง, relative attributes๋ก์ ์ ํํ interpolation, ํ์ค์ ์ธ inerplotation ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๊ฒ ๊ฐ์ด๋ํ๋ค.
๊ด๋ จ ๋ ผ๋ฌธ
RelGAN๊ณผ ๊ด๋ จ์๋ conditional image generation๊ณผ facial attribute transfer์ ์ง์คํ์๋ค.
- GAN: supervised generative model
- cGAN: text-to-image ํฉ์ฑ๊ณผ image-to-image ๋ณํ
- facial attribute transfer: IcGAN, StarGAN, AttGAN(StarGAN+encoder-decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ), ModularGAN(modular ๊ตฌ์กฐ๋ฅผ ์ ์ํจ), FANimation
Method
n๊ฐ์ ์ฐจ์์ attribute vector๋ก \(a=[a^{(1)}, a^{(2)}, ..., a^{(n)}]^{T}\)๋ก ์ ์ํ๋ค. ์ฌ๊ธฐ์ \(a^{(i)}\)๋ ์ฑ๋ณ, ๋์ด, ๋จธ๋ฆฌ์๊ณผ ๊ฐ์ ์ผ๊ตด ์ด๋ฏธ์ง์ ์์ฑ์ด๋ค. ๋ชจ๋ธ์ ์ฃผ ๋ชฉ์ ์ ์๋ณธ ์ด๋ฏธ์ง x๋ฅผ ๋ณํํด y ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ๊ฒ์ด๋ฉฐ y๋ ํ๊ฒ ์์ฑ์ด ๋ณํ๋ ์ฑ ํ์ค์ ์ด์ฌ์ผํ๋ฉฐ ํ๊ฒ ์์ฑ ์ด์ธ์๋ ์๋ณธ ์ด๋ฏธ์ง์์ ๋ณํ๋์ง ์์์ผํ๋ค. ์ฆ (x, v)๊ฐ ์ฃผ์ด์ก์ ๋ y๊ฐ ๋์ค๊ฒ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ๋ค.
Relative Attributes
v๋ ์๋ณธ ์ด๋ฏธ์ง๊ฐ ๊ฐ์ง๊ณ ์๋ ์์ฑ \(a\)์์ ๋ณํํ ์์ฑ์ธ \(\hat{a}\)๋ฅผ ๋บ ๋ฒกํฐ๋ฅผ ์๋ฏธํ๋ค. ์ด๋ฏธ์ง ์์ฑ์ 0๊ณผ 1๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ relative attribute๋ -1, 0, 1๋ก ์ด๋ฃจ์ด์ ธ์๋ค. 1์ turn on, -1์ turn off, ๋ณํํ์ง ์์ผ๋ฉด 0์ด๋ค. 0์์ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๋ \(\alpha\)๋ฅผ v์ ๊ณฑํด์ attribute์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ฉฐ interpolation์ด๋ผ ๋งํ ์ ์๋ค.
$$ G(x,\alpha v) $$
Adversarial Loss
D๋ GAN์์ ์ฌ์ฉ๋๋ ์ด๋ฏธ์ง์ ๊ฐ์ง์ด๋ฏธ์ง๋ฅผ ๋น๊ตํ๋ ํ๋ณ์์ด๋ค. E๋ ํ๊ท ๊ฐ์ ์๋ฏธํ๋ค.
Conditional Adversarial Loss
๋ณธ ๋ ผ๋ฌธ์์ ์ถ๋ ฅ ์ด๋ฏธ์ง \(G(x, v)\) ๋ฟ๋ง ์๋๋ผ ์๋ณธ ์ด๋ฏธ์ง x์ \(G(x,v)\)์ ์ฐจ์ด๊ฐ relative attributes v์ ์ผ์นํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ค. ์ด๋ฅผ ์ํด conditional GANs์ conditional discriminator์ธ \(D_{Match}\)๋ฅผ ํ์ฉํ๋ค.
- x, x’: 2๊ฐ์ real image → x์ x’๋ ๋ค๋ฅธ identity์
- v: relative attribute vector
- real triplet๊ณผ fake triplet์ \(D_{Match}\) loss๋ฅผ ๊ตฌํจ
์๋๋ conditional adversarial loss๋ฅผ ๊ตฌํํ pseudo-code๋ค.
Reconstruction Loss
adversarial loss์ conditional adversarial loss๋ low level์ ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง๋ถํฐ high level์ธ ์ผ๊ตด์ identity๊น์ง ๋ณด์กดํด์ฃผ์ง ์๊ธฐ ๋๋ฌธ์, cycle-reconstruction loss์ self-reconstruction loss๋ฅผ ์ ์ํ์๋ค.
cycle-reconstruction loss
generator๋ฅผ ์ด์ฉํด ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๊ฐ ์ ์ด์ง๊ฒ๋ ํ์ตํ๋ ๊ฒ์ด๋ค. ์๋ณธ ์ด๋ฏธ์ง์ v๋ฅผ ํ์ฉํด ์์ฑํ ์ด๋ฏธ์ง G(x, v)์ ๋ฐ๋์ธ -v๋ฅผ ํ์ฉํด ์๋ณธ ์ด๋ฏธ์ง๋ก ๋ค์ ๋ง๋ ๋ค. ๊ธฐํธ๋ก ์์ฑํ๋ฉด G(G(x, v), -v)์ด๋ค. ์๋ณธ์ด๋ฏธ์ง๊ฐ ๋๊ฒ๋ ์์ฑํ G(G(x, v), -v)์ ์๋ณธ ์ด๋ฏธ์ง x๋ฅผ 1์ฐจ norm์ผ๋ก ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ค. 1์ฐจ norm์ ์์์ ์๋์ ๊ฐ๋ค. ์ฆ, ์๋ณธ ์ด๋ฏธ์ง์ ์๋ณธ์ด๋ฏธ์ง๊ฐ ๋๊ฒ๋ ์์ฑํ G(G(x, v), -v)๋ฅผ ๋บด์ ์ ๋๊ฐ์ ์์ด ํ ๋ํด์ฃผ๋ ๊ฒ์ด๋ค.
$$ ||x||1= \sum{i=1}^{n}|x| $$
Self-reconstruction loss
relative attribute vector๊ฐ 0์ผ ๋(๋ณํํ์ง ์๋ ์์ฑ์ผ ๋), output image๋ G(x, 0)์ด๋ผ๊ณ ํ ์ ์์ผ๋ฉฐ, ์๋ณธ ์ด๋ฏธ์ง์ธ x์ ๋น์ทํด์ผ ํ๋ค๋ ์ ์ ์ด์ฉํด self-reconstruction loss๋ฅผ ์ ์ํ๋ค.
Interpolation Loss
์ง ์ข์ interpolation์ ์ํด \(\alpha\) ์์๋ก Interpolationํ \(G(x,av)\)๊ฐ ํ์ค์ ์ผ๋ก ๋ณด์ด๊ฒ ํด์ผํ๋ค. ์ด๋ฅผ ์ํด \(D_{Interp}\)์์ interpolation์ ์ ๋๋ฅผ ๋ํ๋ด๋ \(\hat{\alpha}\)๋ฅผ ์์ธกํ๋ค. \(\hat{\alpha}\)๊ฐ 0์ผ๋ interpolation์ ํ์ง ์์ ๊ฒ์ด๊ณ \(\hat{\alpha}\)๊ฐ 0.5์ธ ๊ฒฝ์ฐ ์ต๋ํ interpolationํ ๊ฒ์ ์๋ฏธํ๋ค. ์ ์ฌ๊ธฐ์ 0.5๊ฐ ์ต๋๊ฐ ๋๋ ์ด์ ๋ \(\hat{\alpha}\)๊ฐ 0์์ 0.5๊น์ง๋ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ฐํ ์ ๋๋ก ๋ณด๋ฉฐ 0.5์ 1 ์ฌ์ด์์ ํด๋น ์์ฑ์ด ๋ฐ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ฐํ ์ ๋๋ก ๋ํ๋ผ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋๋ฒ์งธ ํญ์ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ์ ํ ๋ณด๊ฐํ์ง ์์ ์ด๋ฏธ์ง์ผ ๋ interpolation ์ ๋๋ฅผ ์์ธก, ์ธ๋ฒ์งธ ํญ์ relative attributes v๋ฅผ ๋ฐ์ํ ์ด๋ฏธ์ง์ผ ๋ interpolation ์ ๋๋ฅผ ์์ธกํ ๊ฒ์ด๋ฉฐ ๋ ํญ ๋ชจ๋ \(\hat{\alpha}\)๊ฐ 0์ด ๋์ด์ผํ๊ธฐ ๋๋ฌธ์ ๋ฐ๋ก \(\hat{\alpha}\)๋ฅผ ๋นผ์ฃผ์ง ์๋๋ค.
์ด ์์ ์๋์ ๊ฐ์ ์๋ฏธ๋ก ์์ฑํ ์ ์๋ค. ์๋ ์์ ๋ณด๋ฉด ํ๊ฐ์ ํญ์ด ์ค์๋๋ฐ ๋๋ฒ์งธ์ ์ธ๋ฒ์งธ ํญ์ ํฉ์ณ์ ์์ฑํ์๊ธฐ ๋๋ฌธ์ด๋ค. II๋ ๊ดํธ ์์ ์๋ ์ธ์๊ฐ ์ฐธ์ผ ๊ฒฝ์ฐ(0.5๋ณด๋ค ํด ๊ฒฝ์ฐ) 1 ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ(0.5๋ณด๋ค ์์ ๊ฒฝ์ฐ) 0์ ๋ฐํํ๋ ํจ์์ด๋ค.
์ต์ข ์ ์ผ๋ก ์ ์ฒด loss๋ ์๋์ ๊ฐ์ด ์์ฑํ ์ ์์ผ๋ฉฐ \(\lambda_1, \lambda_2, \lambda_3, \lambda_4, \lambda_5\) ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๋ค.
Experiments
์คํ์ ์ํด celebA, celebA-HQ, FFHQ๋ฅผ ์ฌ์ฉํ์๋ค. ์ด๋ฏธ์ง๋ ์ผ๊ตด์ ์ค์์ ๋ ฌํ์ฌ cropํ์๊ณ 256x256์ผ๋ก resizeํ์๋ค. generator network๋ starGAN์ ํ์ฉํ๋ค. starGAN์ down sampling์ ์ํด stride๊ฐ 2์ธ convolution layer 2๊ฐ, residual block 6๊ฐ, up-sampling์ ์ํ stride๊ฐ 2์ธ convolution layer 2๊ฐ๋ก ๊ตฌ์ฑ๋์ด์๋ค. generator์๋ switchable normalization์ ์ฌ์ฉํ๋ค.
discriminator๋ \(D_{Real}\), \(D_{Match}\), \(D_{Interp}\) 3๊ฐ๋ก sub-network๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, sub-network๋ stride๊ฐ 2์ธ 6๊ฐ์ convolution layer๋ก ๊ตฌ์ฑ๋์ด์๋ค. training ๊ณผ์ ์ ์์ ํ์ํค๊ธฐ ์ํด LSGANs-GP(the Least Squares Generative Adversarial Networks with gradient penalty)๋ฅผ ์ฌ์ฉํ๋ค.
์ค์ ํ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ์๋์ ๊ฐ๋ค.
- \(\lambda_1=1\), \(\lambda_2=\lambda_3=\lambda_4=10\), \(\lambda_5=10^{-6}\)
- Adam optimizer with \(\beta_1=0.5\), \(\beta_2=0.999\)
- learning rate: \(5 \times 10^{-5}\)
- batch size: 4
- 100K์ iteration (์ฝ 13.3epochs)
baseline ๋ชจ๋ธ๋ก multi-domain image-to-image translation์ธ StarGAN, AttGAN ๋ชจ๋ธ์ ๋น๊ตํ์๋ค.
facial attribute transfer
evaluation metric์ FID๋ฅผ ์ฌ์ฉํ๋ค.
- celebA: 9 attributes
- celebA-HQ: 9 attributes
- celebA-HQ: 17 attributes
Classification accuracy
image translation์ quality๋ฅผ ํ๊ฐํ๊ธฐ ์ํด facial attribute ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์์ผฐ๋ค. CelebA-HQ dataset์ Resnet-18 ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ํ์ต๊ณผ ํ๊ฐ๋ฅผ ์ํด 9:1๋ก ๋ฐ์ดํฐ์ ์ ๋๋์๋ค.
Qualitative results
์๋๋ facial attribute transferํ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ด๋ค. ์ํ๋ ์์ญ๋ง ๋ณํํ๊ณ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ฒด์ฑ์ ๊ทธ๋๋ก ๋ณด์กด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค.
์๋ ์ด๋ฏธ์ง๋ baseline ๋ชจ๋ธ์ธ StarGAN๊ณผ AttGAN๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค. StarGAN์ ์ผ๊ตด์ ์ ์ฒด์ฑ์ด ๋ณด์กด๋์ง ์๋ ๊ฒ์ด ๋ณด์ด๊ณ AttGAN์ ์์น ์๋ attribute์ธ ์๋ ๋ชจ์ต์ด ํจ๊ป ์ ์ฉ๋์ด ์๋ ๊ฒ์ด ๋ณด์ธ๋ค. ๊ทธ์ ๋นํด RelGAN์ ์ฌ์์ ์ผ๊ตด๊ณผ ํ์ ๋ฑ์ ๋ค๋ฅธ attribute๊ฐ ๋ณด์กด๋๋ฉด์ ๋ณํํ๊ณ ์ํ๋ attribute๋ง ๋ฐ๊ปด์ง ๊ฒ์ ๋ณผ ์ ์๋ค.
์๋ ์ด๋ฏธ์ง๋ loss์ ๋ํ ์คํ์ด๋ค. ๋งจ ๋ฐ ์ด๋ฏธ์ง๋ค์ ๋ชจ๋ loss๋ฅผ ํ์ฉํ์ ๋์ ์ผ๊ตด์ด๋ฉฐ ์์ฐ์ค๋ฌ์ด ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด์ธ์๋ loss๋ฅผ ํ๋์ฉ ์ ๊ฑฐํ์ฌ ์คํ์ ํ๋ค.
- ์ฒซ๋ฒ์งธ, \(L_{Cycle}+L_{Self}\)๊ฐ ์์ ๋์ด๋ฉฐ ์๋ณธ ์ด๋ฏธ์ง์ identity๊ฐ ๋ณด์กด๋์ง ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
- ๋๋ฒ์งธ, \(L_{Match}\)๊ฐ ์์ ๋์ด๋ฉฐ ๋ณํ์ํค๊ณ ์ถ์ attribute๊ฐ ๋ณด์ด์ง ์๋๋ค.
- ์ธ๋ฒ์งธ, \(L_{Real}\)๊ฐ ์์ ๋์ด๋ฉฐ ๋ณํ์ํค๊ณ ์ถ์ attribute๋ ์ด๋์ ๋ ๋ณํ๋์ง๋ง gender๋ mustache์ ์์ฐ์ค๋ฝ์ง ๋ชปํ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด ๋ด์๋ค.
Facial Image Reconstruction
RelGAN์ ๊ฐ์ฅ ์ค์ํ ์ฅ์ ์ ๋ณํด์ผํ์ง ์๋ ์์ฑ์ ๋ณด์กด๋๋ค๋ ๊ฒ์ด๋ค. ๋ชจ๋ ์์ฑ๋ค์ด ๋ฐ๋์ง ์๋๋ค๋ฉด(target attribute vector๊ฐ ์๋ณธ attribute vector์ ๊ฐ๋ค๋ฉด) facial attribute translation์ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋๋ก ๋ง๋ค์ด๋ด๋ reconstruction task๊ฐ ๋๋ค. ์ ์๋ ๋ชจ๋ธ ๋ณ๋ก reconstruction task์ ์ฑ๋ฅ์ L1, L2 norm๊ณผ SSIM similarity๋ฅผ ํ์ฉํด ๋น๊ตํด๋ณด์๋ค. ์๋ table์์ ํ์ธํ ์ ์๋ฏ์ด \(L_{Cycle}\)์ด ์์ด๋ StarGAN๊ณผ AttGAN์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ ์ ์๋ค.
Facial Attribute Interpolation
interpolation ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด StarGAN๊ณผ AttGAN ์ด๋ฏธ์ง๋ฅผ \(G(x, \alpha a+(a-\alpha) \hat{a})\) ์์ ํ์ฉํด ์์ฑํ๋ค. ์ฌ๊ธฐ์ \(a\)์ \(\hat{a}\)๋ ์๋ณธ ์ด๋ฏธ์ง์ target attribute vector๋ฅผ ์๋ฏธํ๋ค. ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ดค์ ๋ RelGAN์ด ๊ฐ์ฅ ๋ถ๋๋ฝ๊ณ ์์ฐ์ค๋ฝ๊ฒ interpolationgํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ ๋์ ์ธ ํ๊ฐ์งํ๋ interpolation quality๋ฅผ ํ์ฉํ๋ค. SSIM score๋ 2๊ฐ์ ์ด๋ฏธ์ง์ similarity๋ฅผ ๊ณ์ฐํ๋ ์ธก๋๋ก ์ฌ์ฉ๋๋ค. SSIM์ ๋น์ ๋ฐ๊ธฐ(Luminance), ๋์กฐ(Contrast), ํฝ์ ๊ฐ์ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด(Structure) 3๊ฐ์ง ์์๋ฅผ ์ด์ฉํด ์ด๋ฏธ์ง๋ฅผ ๋น๊ตํ๋ค. ์ด 3๊ฐ์ง์ ์์๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ ์ค์ ์ธ๊ฐ์ ์๊ฐ ๊ธฐ๊ด๊ณผ ์ ์ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ค.
AttGAN, StarGAN, \(L_{Interp}\)๋ฅผ ์ ๊ฑฐํ RelGAN, RelGAN์
์ฑ๋ฅ์ ๋น๊ตํ์ผ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ RelGAN์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์ ๊ฒ์ ํ์ธํ ์ ์๋ค.
User Study
Celeba-HQ ์ด๋ฏธ์ง๋ฅผ ๋๋ค์ผ๋ก ์์ฑํ์ฌ ์ฌ๋๋ค์๊ฒ 40๊ฐ์ ์ง๋ฌธ์ ๋ตํ๊ฒ ํ์๊ณ ๊ทธ ๊ฒฐ๊ณผ 1๊ฐ๋ฅผ ์ ์ธํ๊ณค RelGAN์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
RelGAN์ relative attributes ๊ธฐ๋ฐ์ multi-domain image-to-image translation model์ ์ ์ํ๋ค. facial image translation ์์ญ์์์ ์๋ณธ ์ด๋ฏธ์ง์ ์ผ๊ตด ์ ์ฒด์ฑ์ ๊ทธ๋๋ก ์ ์งํ๋ ํ์ํ ์์ญ๋ง ๋ฐ๊พธ๋ ๊ฒ์ ์ฝ์ง ์๋ค. RelGAN์ 3๊ฐ์ discriminator์ 5๊ฐ์ loss๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์ผ๊ตด ์ ์ฒด์ฑ์ ์ ์งํ๊ณ ์์น ์์ ์์ญ์ ๊ทธ๋๋ก ๋ณด์กด๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค. RelGAN์ ์ ์๋ future work๋ก adversarial learning๊ณผ mask mechanism์ ํ์ฉํด ๊ณ ๋ํํ ๊ฒ์ด๋ผ ํ๋ค.
RelGAN์ relative attribute๋ผ๋ ๊ฐ๋ ์ ๋์ ํด ์๋ณธ ์ด๋ฏธ์ง์์ ํ์ํ ์์ญ๋ง ๋ณํํ๋ ๊ฒ์ด ํฅ๋ฏธ๋ก์ ๋ค. ํนํ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ์ฌ ์์ฑํ์ฌ ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๋ฅผ ๋น๊ตํด ์๋ณธ ์ด๋ฏธ์ง์ identity๋ฅผ ๋ณด์กดํ๊ธฐ ์ํ ๋ ธ๋ ฅ์ด ์๋ก์ ๋ค. ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ๋ฐฐ๊ฒฝ๊ณผ ๋จธ๋ฆฌ์นด๋ฝ๊ณผ ๊ฐ์ ๋ค์ ์ํฅ์ ๋ง์ด ๋ฐ์ ์ ์๋ ์์ญ๋ค์ด ๊ทธ๋๋ก ๋ณด์กด๋์ด ์๋ ๊ฒ์ ๋ณผ ์ ์๋๋ฐ ์ผ๊ตด์์ ํน์ (๋จธ๋ฆฌ๋ง ์ผ์์ ํ๊ฑฐ๋ ์๋ ์ผ๊ตด์ ์ฐ๋ ์ผ๊ตด๋ก ๋ฐ๊พผ๋ค๊ฑฐ๋) ์์ญ๋ง ๋ฐ๊ฟ ์ ์์ด ํ์ฉํ๊ธฐ์๋ ์ข์ ๊ฒ์ผ๋ก ์๊ฐ๋๋ค.
๊ทธ๋ฌ๋ ์์ง๊น์ง ํผ๋ถ์์ ๋ณด์กด๋์ง ๋ชปํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. reference ์ด๋ฏธ์ง๊ฐ ์๋ณธ ์ด๋ฏธ์ง๋ณด๋ค ํ์๊ฑฐ๋ ์ด๋์ธ ๊ฒฝ์ฐ ์์ด ๋ณํ๋ ๊ฒ์ด ๋ณด์ด๋๋ฐ ์ด ์์ญ๋ attribute์ ์ถ๊ฐํ๋ฉด ์ด๋์ ๋ ๋ณด์กดํ ์ ์๋์ง ๊ถ๊ธํ๋ค. ํ์ฌ ๊ตฌํ๋์ด ์๋ ์ฝ๋๋ฅผ ๋ณด๋ฉด pale skin๋ attribute์ ํ๋๋ก ๋์ด ์๋๋ฐ ํผ๋ถํค์ ๋ ์ธ๋ถํํ๋ค๋ฉด ํผ๋ถ identity๋ฅผ ๋ณด์กดํ ์ ์์ง ์์๊นํ๋ ์๊ฐ์ด ๋ ๋ค.
'๐ Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ก Zero-Dce: ์ด๋์ด ๊ณณ์ ๋ฐ๊ฒ, ๋ฐ์ ๊ณณ์ ๊ทธ๋๋ก (0) | 2024.05.06 |
---|---|
๐ผ๏ธ [๋ ผ๋ฌธ๋ฆฌ๋ทฐ] FixMatch: ์ ์ label์๋ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๊ธฐ ์ํ ๊ธฐ๋ฒ (0) | 2024.05.02 |
- ๊ฐ๋ฐ์
- ๋จธ์ ๋ฌ๋ ์ด๋ก
- tmux
- ๋ ํ๊ฐ
- ์ฑ ๋ฆฌ๋ทฐ
- Multiprocessing
- GIT
- python
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ
- vscode
- Generative Model
- ๊ธ๋
- ํ๊ณ
- Computer Vision
- linux
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Total
- Today
- Yesterday