ํฐ์คํ ๋ฆฌ ๋ทฐ
๐ก Zero-Dce: ์ด๋์ด ๊ณณ์ ๋ฐ๊ฒ, ๋ฐ์ ๊ณณ์ ๊ทธ๋๋ก
์ด์ YIYU 2024. 5. 6. 12:09ํ์ค ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ค๋ณด๋ฉด ์ฌ๋ฌ๊ฐ์ง ์ํฅ์ ๋ง์ด ๋ฐ๊ฒ ๋ฉ๋๋ค. ์ฌ๋์ด ๋ดค์๋ ์ฌ์ง์ด ์ด๋ก๊ฒ ๋๋ฉด ๋ฌผ์ฒด๋ฅผ ์๋ณํ๊ธฐ ์ด๋ ต๋ฏ์ด ๊ธฐ๊ณ๊ฐ ํ์ตํ ๋ ์กฐ๋๋ก ์ธํด ํ์ต ์ฑ๋ฅ์ ์ํฅ์ ์ค ์๋ ์์ต๋๋ค. ํนํ, ๋ฌผ์ฒด๋ฅผ ํ์งํ๋ ๋ชจ๋ธ์ผ ๊ฒฝ์ฐ ์กฐ๋๊ฐ ์ด๋์ด ์ฌ์ง์์ ์ฌ๋์ด๋ ํน์ ํ ๋ฌผ์ฒด๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ์ด๋ ค์ธ ์ ์๊ฒ ์ฃ
์ด๋ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์กฐ๋๋ฅผ ์ ์ฒ๋ฆฌํ๋๋ฐ ๊ฝค ์ด๋ ค์ด ์ ์ด ์์ต๋๋ค. ์ฌ์ง์ ์กฐ๋๋ ๊ท ์ผํ์ง ์๊ธฐ ๋๋ฌธ์ด์ฃ . ์ฐฝ๋ฌธ ์ฃผ๋ณ์ ๋ฐ์ง๋ง ๋ฌผ์ฒด๋ ์ด๋์ธ ์๋ ์์ด ์ฌ์ง ์ ์ฒด์ ๋ฐ๊ธฐ๋ฅผ ์ฌ๋ฆฌ๋ฉด ์คํ๋ ค ๋ฐ์๋ ๋ฌผ์ฒด๋ค์ด ๋๋ฌด ๋ฐ์์ง ์๋ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ฐ์ ์์ญ์ ๊ทธ๋๋ก ๋๋ ์ด๋ก๊ฒ, ์ด๋์ด ์์ญ์ ๋ฐ๊ฒ ๋ฐ๊ฟ์ผํฉ๋๋ค. ์ด๋ฐ ์์ ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํตํด ํด๊ฒฐํ ๋ชจ๋ธ์ด Zero-DCE์ ๋๋ค. ์ด๋ฒ ๊ธ์์๋ Zero-DCE์ ๋ํด ์ค๋ช ๋๋ฆฌ๊ฒ ์ต๋๋ค.
โญ๏ธ Summary
- ๋ง์ ์ฌ์ง๋ค์ ์ข ์ข unbalanceํ ์กฐ๋ช ์กฐ๊ฑด์ ๊ฐ์ง๊ณ ์์. ์ด๋ก ์ธํด ๋ถ์ ํํ ์ ๋ณด๋ฅผ ์ป๊ฑฐ๋ ๋ง์กฑ์ค๋ฝ์ง ๋ชปํ ํ๋ฆฌํฐ์ ์ฌ์ง์ ์ป์ ์ ์์. ์ด ์ฐ๊ตฌ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ zero-reference deep curve estimation(Zero-DCE) ๋ชจ๋ธ์ ํตํด ์ด๋์ด ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ํจ.
- paired, unpaired data๊ฐ ํ์์๋ zero-reference ๊ธฐ๋ฒ์ ๋ง๋ค๊ธฐ ์ํด 4๊ฐ์ loss๋ฅผ ์ฌ์ฉํจ
- ์ฌ์ง ํธ์ง ์ ์ฌ์ฉ๋๋ ๊ณก์ ์กฐ์ ์ ์ฐธ๊ณ ํ์ฌ ์ ์กฐ๋ ์ด๋ฏธ์ง๋ฅผ ์๋์ผ๋ก ํฅ์๋ ๋ฒ์ ์ผ๋ก ๋งคํํ ์ ์๋ ๊ณก์ ์ deep convolutional neural network๋ฅผ ์ด์ฉํด ์ค๊ณํจ
๐ญ Method
- higher-order curve: ๋ณต์กํ ์ ์กฐ๋ ์กฐ๊ฑด์ ๋์ํ ์ ์์
- pixel-wise curve: ๊ฐ ํฝ์ ์ ๋ํด ์ต์ ์ ๊ณก์ ์ ์ ์ฉ, ์ง์ญ์ ์ธ ํน์ฑ๋ ๊ณ ๋ คํจ
๐ฆ Future Works
- ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์ฌ์ฉ: ์ด๋ฏธ์ง ๋ด์ ์ฌ๋, ๋๋ฌผ, ๋ฌผ์ฒด ๋ฑ์ ์๋ณํด ๋ค๋ฅด๊ฒ ์ ์ฉํ๋ฉด ์ด๋จ์ง
- ๋ ธ์ด์ฆ์ ์ํฅ ๊ณ ๋ ค
๐ฅ ๊ธฐ์กด์ ๋ฌธ์ ์
- ๋ง์ ์ฌ์ง๋ค์ ์กฐ๋ช ์ด ๋๋ฌด ์ฝํ๊ฑฐ๋ ์ผ๋ถ๋ง ๋ฐ๊ฒ ๋ํ๋๋ ๋ฌธ์ ๊ฐ ์์ ์ ์์
- ์ด๋ก ์ธํด ์ ๋ณด๊ฐ ๋ถ์กฑํด์ง ์ ์์ผ๋ฉฐ ๊ฐ์ฒด๋ ์ผ๊ตด ์ธ์์ด ๋ถ์ ํํ ์ ์๋ ๋ฌธ์ ๋ฅผ ์ด๋ํจ
๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฌธ์ ์ ๋ค์ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
- image-to-image mapping์ผ๋ก ์ ์กฐ๋ ์ด๋ฏธ์ง๋ฅผ ๊ทน๋ณตํ์
- Zero-DCE๋ ํ์ต์ ์ํด paired ๋๋ unpaired data๊ฐ ํ์ํจ
- CNN ๊ธฐ๋ฐ์ด๋ GAN ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ผ๊ตด ๋ถ๋ถ์ ๋๋ฌด ์ด๋ก๊ฒ, ์บ๋น๋ ๋ถ๋ถ์ ๋๋ฌด ๋ฐ๊ฒ ๋ง๋ค์ด ๋ ๋ค ๋ ธ์ถ์ด ๋ถ๊ท ํํ๊ฒ ์กฐ์ ๋จ
๊ด๋ จ ๋ ผ๋ฌธ
- Conventional Methods
- Data-Driven Methods
๐ Method
Curve Light-Enhancement ์กฐ๊ฑด
- ๊ฐ ํฝ์ ๊ฐ์ 0,1 ์ฌ์ด๋ก ์ ๊ทํ ์ํด → overflow๋ก ์ธํ ์ ๋ณด ์์ค์ ํผํ๊ธฐ ์ํจ
- ๊ณก์ ์ ๋จ์กฐ๋กญ๊ฒ ์ค๊ณ๋์ด์ผํจ → ํฝ์ ๊ฐ์ contrast๋ฅผ ์ ์งํ๊ธฐ ์ํจ
gradient back propagation ๊ณผ์ ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํด์ผ ํจ
- LE(I(x);α): input image์ enhance๋ ๋ฒ์
- LE-curve๋ RGB ์ฑ๋ ์ธ๊ฐ์ ๊ฐ๊ฐ ๋ฐ๋ก ์ ์ฉ๋จ
- ๋ณธ๋์ ์์์ ๋ ์ ๋ณด์กดํ๊ณ ๊ณผ๋ํ ์ฑ๋์ ์ํ์ ์ค์
higher-order curve
- LE-curve๋ฅผ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ ์ ์์ด ์ด๋ ค์ด ์ ์กฐ๋ช ์ํฉ์ ๋์ํ ์ ์์
- ๋ ผ๋ฌธ์์๋ 8๋ฒ ์ ์ฉํ์ ๋ ๋ง์กฑ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์ ์ ์์์
- alpha: pixel-wise parameter
Pixel-Wise Curve
- ๋ณดํต์ curve ๊ธฐ๋ฐ์ ์ด๋ฏธ์ง ํฅ์์ ๊ฒฝ์ฐ globalํ ๋งคํ์ ์ ์ฉํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์ ํน์ ์์ญ์ด ๊ณผ๋ํ๊ฒ ํฅ์๋๊ฑฐ๋ ๋ฏธํฅ์๋ ์ ์์ → local ์์ญ๋ ๋งคํํ ์ ์์ด์ผ ํจ
- A: parameter map์ ์ ์ฉํจ
๊ทธ ๊ฒฐ๊ณผ ๊ฐ์ ๋จ์กฐ ๊ด๊ณ๊ฐ ์ฌ์ ํ ์ ์ง๋ ์ ์์
- ์ ๊ทธ๋ฆผ์ 3๊ฐ์ ์ฑ๋์ ์ต์ ํ๋ parameter map์ ๋ณด์ฌ์ค
- ์ด map์ผ๋ก ํฝ์ ๋ณ curve mapping์ ํตํด ํฅ์๋ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์์
- ์ฆ, ๋ฐ์ ์์ญ์ ์ ์งํ๋ฉฐ ์ด๋์ด ์์ญ์ ๋ฐ๊ฒ ํฅ์์ํฌ ์ ์์
DCE-Net
- input image์ ๊ฐ์ฅ ์ ํฉํ curve parameter map์ fitํ๋๋ก ํ์ตํจ
- input: ์ ์กฐ๋ ์ด๋ฏธ์ง, output: curve
- model
- 7๊ฐ์ convolution layer๋ฅผ ๊ฐ์ถ CNN, kernel size 3x3, stride 1,
- ReLU activation function
- ์ธ์ ํฝ์ ์ ๊ด๊ณ๋ฅผ ์ค์ด๊ธฐ ์ํด down-sampling, batch normalization ์ ์ฉ
- ๋ง์ง๋ง convolutional layer์ Tanh activation function
Non-Reference Loss Functions
- zero-reference learning์ ์ํด 4๊ฐ์ non-reference loss๋ฅผ ์ฌ์ฉํจ
- ํฅ์๋ ์ด๋ฏธ์ง ํ์ง์ ํ๊ฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์
Spatial Consistency Loss
- ์ด์๋ ์์ญ์ ์ฐจ์ด ๋น๊ต
- K: local region ๊ฐฏ์ → local region์ 4x4๋ก ์ง์ ํจ
- ์ค๋ฉ๊ฐ: i๋ฅผ ์ค์ฌ์ผ๋ก 4๊ฐ์ ์ด์๋ ์์ญ(top, down, left, right)
- Y: ํฅ์๋ ์ด๋ฏธ์ง์ local region ํ๊ท ๊ฐ๋
- I: ์๋ณธ ์ด๋ฏธ์ง์ local region ํ๊ท ๊ฐ๋
Exposure Control Loss
- ๋ ธ์ถ์ด ๊ณผ๋ํ๊ฒ ๋ง๊ฑฐ๋ ๋ถ์กฑํ ์์ญ์ ์ ํํ๊ธฐ ์ํ ๋ชฉ์ ํจ์
- local region์ ํ๊ท ๊ฐ๋ ๊ฐ๊ณผ ์ ๋ ธ์ถ๋ ์์ค E ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํจ
- E๋ RGB ์ปฌ๋ฌ ๊ณต๊ฐ์์ ํ์ ์์ค์ E๋ก ์ค์ ํ๋ ๋ฐฉ๋ฒ์ ํ์ฉ
- 0.6์ผ๋ก ์ค์ ํจ(0.4-0.7) ๋ฒ์ ๋ด์์๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์
- M: overlap ๋์ง ์๋ local regions(16 x 16)์ ์
Color Constancy Loss
- ํฅ์๋ ์ด๋ฏธ์ง์์ ์์์ด ์ผ๊ด๋๊ฒ ์ ์ง๋๋๋ก ํ๋ ๋ชฉ์ ํจ์
- ๋ค๋ฅธ ์ฑ๋๊ฐ์ ํ๊ท ๊ฐ๋ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ์ฌ ์ ์ฒด ์ด๋ฏธ์ง์์ ์์ ์ผ๊ด์ฑ์ ์ ์งํจ
- ์ฑ์ค๋ก : RGB ์ฑ๋ ์์ ์งํฉ
- J: ํฅ์๋ ์ด๋ฏธ์ง์์ p ์ฑ๋์ ํ๊ท ๊ฐ๋ ๊ฐ
Illumination Smoothness Loss
- ์ธ์ ํ ํฝ์ ์ฌ์ด์ ๋จ์กฐ ๊ด๊ณ๋ฅผ ์ ์งํ๊ธฐ ์ํ ๋ชฉ์ ํจ์
- A: n๋ฒ์งธ์ c ์ฑ๋์ parameter map
- delta: x์ y ๋ฐฉํฅ์ผ๋ก์ ๊ธฐ์ธ๊ธฐ → ์์ง, ์ํ ๋ฐฉํฅ์ ๊ธฐ์ธ๊ธฐ
- ๊ธฐ์ธ๊ธฐ๋ค์ ํฉ: ์กฐ๋ช ์ ๋ณํ๋ฅผ ์ธก์ ํจ
Total Loss
๐งช Experiments
- ์ฌ์ฉํ ๋ฐ์ดํฐ์ : SICE dataset(3,022์ฅ, 2,422์ฅ-train, 600์ฅ-validation)
- image resize shape: 512x512
- batch size: 8
- ๊ฐ layer์ filter๋ standard zero mean๊ณผ 0.02 standard deviation gaussian function์ผ๋ก ์ด๊ธฐํํจ
- ADAM optimizer ํ์ฉ
- learning rate: 0.0001
Ablation Study
Contribution of Each Loss
- ์ ๊ทธ๋ฆผ์ ๊ฐ๊ฐ loss๊ฐ ์์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค
- spatial consistency loss๊ฐ ์์ ๊ฒฝ์ฐ ์ธ์ ํ ์์ญ๋ค์ ์ฐจ์ด๊ฐ ์ ์ง๋์ง ์์
- exposure control loss๊ฐ ์์ ๊ฒฝ์ฐ ๋ฎ์ ๋ฐ๊ธฐ์ ์์ญ์ด ํฅ์๋์ง ์์
- color consistency loss๊ฐ ์์ ๊ฒฝ์ฐ ์๋ณํ์ด ์๊น
- illumination smoothness loss๊ฐ ์์ ๊ฒฝ์ฐ ์ธ์ ํ ์์ญ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋จ์ด์ ธ artifact๊ฐ ๋ฐ์ํจ
Effect of Parameter Settings
parameter ์คํ ๊ฒฐ๊ณผ
Impact of Training Data
ํ์ต๋ฐ์ดํฐ impact๋ฅผ ํ ์คํธํ๊ธฐ ์ํด ์ฌ๋ฌ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์ด์ฉํด ์คํํจ
- Low: 900๊ฐ์ low-light image
- LargeL: DARK FACE dataset 9000๊ฐ์ unlabeled low-light images
- LarghLH: 4800๊ฐ์ ๋ค์ํ ๋ ธ์ถ ์ด๋ฏธ์ง
์ด๋ฅผ ํตํด, ๋ค์ํ ๋ ธ์ถ์ด ์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ผํ๋ ๊ฒ์ ์ ์ ์์
๐๏ธ Benchmark Evaluations
- SOTA ๋ชจ๋ธ๊ณผ ์ ๋์ , ์ ์ฑ์ ์คํ์ ํตํด ์ฑ๋ฅ์ ๋น๊ตํจ
- 3๊ฐ์ conventional methods: SRIE, LIME
- 2๊ฐ์ CNN-based methods: RetinexNet
- 1๊ฐ์ GAN-based method: Enlighten-GAN
Visual and Perceptual Comparisons
- ์๋์ ๊ธฐ์ค์ผ๋ก 1๋ถํฐ 5๊น์ง ์ ์ํํจ
- ๊ณผ๋ค, ๊ณผ์ ๋ ธ์ถ๋๋ artifacts ๋๋ region์ด ์๋์ง
- ๊ฒฐ๊ณผ ์์์ด ์ด๊ธ๋๋์ง
- ์์ฐ์ค๋ฝ์ง ์์ ํ ์ค์ฒ๋ ๋ ธ์ด์ฆ๊ฐ ์๋์ง
- NPE, LIME, MEF, DICM, VV: ๋ฐ์ดํฐ์
- User Study๊ฐ ๋์์๋ก/Perceptual index๊ฐ ๋ฎ์์๋ก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋
- ๊ทธ ๊ฒฐ๊ณผ Zero-DCE๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ user study score, PI score๋ฅผ ๋ณด์
Quantitative Comparisons
Peak Signal-to-Noise Ratio(PSNR,dB), Structural Similarity (SSIM), MAE๋ก ์ฑ๋ฅ์ ์ธก์ ํจ. ๋นจ๊ฐ์์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ, ํ๋์์ด ๋๋ฒ์งธ ์ข์ ๊ฒฐ๊ณผ
runtime ์ธก์ ๊ฒฐ๊ณผ. best: Zero-DCE, 2nd best: EnlightenGAN
Face Detection in the Dark
์ด๋์ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด face detection ์คํ์ผ๋ก ์ ์กฐ๋ ์ด๋ฏธ์ง์ ํฅ์๋ ๋ฒ์ ์ ํ์ธํจ
- ํฅ์๋ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ detectํ face์ ์๊ฐ ์ฆ๊ฐํ์
๐ง Conclusion
- ์ ์กฐ๋ ์ด๋ฏธ์ง ๊ฐ์ ์ ์ํ deep neural network๋ฅผ ์ ์ํจ
- zero reference์ end-to-end ๋ชจ๋ธ์ ํ๋ จํ ์ ์์
- ๊ธฐ์กด์ ์กฐ๋ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ๋นํด ์ฑ๋ฅ์ด ํฅ์๋ ๊ฒ์ ํ์ธํจ
- ํฅํ, ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ๋์ ํ๊ณ ๋ ธ์ด์ฆ์ ์ํฅ์ ๊ณ ๋ คํ ์์
Outro.
zero-dce์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ reference๊ฐ ์๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ๊ฐ๋จํ convolution layer๋ก๋ง๋ ์ด๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ ๋ํ ์๋ ์ธก๋ฉด์์๋ ์ข์ ๊ฒ ๊ฐ์์. ๋ค๋ง, ์ผ๊ตด ๋ฐ์ดํฐ์ ํ์ฉํด๋ดค์๋ ์์ฝ๊ฒ๋ ์ฝ๊ฐ ๋ ธ๋์์ผ๋ก ๋ณํ๊ณ ๋ฟ์์ง๋ ์ฑํฅ์ด ์์์ต๋๋ค. ํ๋์ ๋ฌผ์ฒด๊ฐ ์ฌ์ง์ ์ฐจ์งํ๋ ๋น์จ์ด ํฌ๋ค๋ฉด ์กฐ๊ธ ๊ณ ๋ คํด๋ด์ผ๊ฒ ์ง๋ง ๋๋ก๋ ํ๊ฒฝ ์ฌ์ง๋ค์ ๊ฝค ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ณด์ด์ง ์์๊น์? ์ง๊ธ๊น์ง ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค! ๐ซง
'๐ Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ผ๏ธ [๋ ผ๋ฌธ๋ฆฌ๋ทฐ] FixMatch: ์ ์ label์๋ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๊ธฐ ์ํ ๊ธฐ๋ฒ (0) | 2024.05.02 |
---|---|
๐ป RelGAN: ์ผ๊ตด์ ํน์ ๋ถ๋ถ๋ง translation ํ๊ธฐ (0) | 2024.04.18 |
- Computer Vision
- GIT
- Multiprocessing
- ์ฑ ๋ฆฌ๋ทฐ
- tmux
- ๋จธ์ ๋ฌ๋ ์ด๋ก
- ๊ฐ๋ฐ์
- python
- ๋ ํ๊ฐ
- vscode
- Generative Model
- ๋ฒ ์ด์ฆ ์ ๋ฆฌ
- linux
- ๊ธ๋
- ํ๊ณ
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Total
- Today
- Yesterday