Back to : image-segmentation-2021
Back to : deep-learning-study
Contents

Motivation

Linear layer๋Š” ์“ธ ์ˆ˜ ์—†๋‹ค

LeNet์„ ์‹œ์ž‘์œผ๋กœ ์—ฌ๋Ÿฌ CNN ๋ชจ๋ธ๋“ค์€ ๊ธฐ์กด์˜ ๋ฐฉ๋ฒ•๋“ค๋กœ๋Š” ๋„์ €ํžˆ ์ด๋ฃฐ ์ˆ˜ ์—†๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉด์„œ ์ด๋ฏธ์ง€์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ ๋†€๋ผ์šด ๋ฐœ์ „์„ ๊ฒฌ์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

์ •๋ง ๊ฐ„๋‹จํ•˜๊ฒŒ, Imagenet challenge๋ฅผ ๋”ฐ๋ผ๊ฐ€๋ฉด์„œ ์–˜๊ธฐํ•˜์ž๋ฉด,

  • AlexNet (2012) ๊ฐ€ deep CNN์ด ์–ผ๋งˆ๋‚˜ ๊ฐ•๋ ฅํ•œ์ง€๋ฅผ ์„ ๋ณด์˜€๊ณ ,
  • VGGNet, GoogLeNet (2014) ์ด ๋‹ค์‹œํ•œ๋ฒˆ (๋‘ ๋ฐฉ๋ฒ•์ด ์ ‘๊ทผ์ด ๋‹ค๋ฅด๊ธด ํ•˜์ง€๋งŒ) ๋†€๋ผ์šด ์„ฑ๊ณผ๋กœ ํ•œ์ž๋ฆฌ์ˆ˜ top-5 error rate๋ฅผ ๋ณด์—ฌ์ค€ ๋ฐ ์ด์–ด,
  • ResNet (2015) ์ด ์ƒˆ๋กœ์šด architecture๋กœ ์„ฑ๋Šฅ์„ ๋‹ค์‹œ ๊ธ‰์ƒ์Šน์‹œํ‚ค๋Š” ๋“ฑ

๋ช‡๋…„ ์‚ฌ์ด์— ๊ฑฐ์˜ ์‚ฌ๋žŒ์ด ์ฒ˜๋ฆฌํ•˜๋Š” ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์ด ๋ชจ๋ธ๋“ค์€ image classification ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ๋“ค์ด๊ธฐ ๋•Œ๋ฌธ์—, segmentation์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ์ ‘๊ทผ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

picture 1

์ด ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ, semantic ๋˜๋Š” instance segmentation์€ classification๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ, ๊ณ ์–‘์ด๊ฐ€ ์žˆ๋Š”์ง€ ๋ฟ ์•„๋‹ˆ๋ผ ์–ด๋””์— ์žˆ๋Š”์ง€๋ฅผ ์•Œ์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, LeNet ๊ฐ™์€ CNN์˜ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉดโ€ฆ

picture 2

๋งˆ์ง€๋ง‰์— Fully connected layer๋ฅผ ๋‹ค๋Š”๊ฒŒ ์ผ๋ฐ˜์ ์ธ๋ฐ (๋‹น์—ฐํžˆ, ์ด๋ฏธ์ง€์˜ โ€˜์ „์ฒดโ€™ ๋ฅผ ๋ณด๊ณ  ์–ด๋–ค ์ด๋ฏธ์ง€์ธ์ง€ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ์ด๋ฏ€๋กœ ์ž์—ฐ์Šค๋Ÿฝ์Šต๋‹ˆ๋‹ค), ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ด๋ฏธ์ง€์—์„œ ๊ณ ์–‘์ด๊ฐ€ ์›๋ž˜ ์–ด๋””์— ์žˆ์—ˆ๋Š”์ง€์— ๋Œ€ํ•œ spatial information์„ ๋‹ค ๋‚ ๋ ค ๋ฒ„๋ฆฌ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ, ๋”์ด์ƒ linear layer๋Š” ์“ธ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋ฉด, ๋งˆ์ง€๋ง‰๋„ ๊ทธ๋ƒฅ ๋‹ค convolution์œผ๋กœ ๋ฐ€์–ด๋ฒ„๋ฆฌ๋ฉด ์–ด๋–จ๊นŒ์š”? ์ด ์•„์ด๋””์–ด๊ฐ€ FCN์˜ ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ๋˜ ๋‹ค๋ฅธ ์žฅ์ ์€, feature๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ถ€๋ถ„ (์•ž์œผ๋กœ ์ „์ง„ํ•˜๋ฉด์„œ ์ค„์—ฌ๋‚˜๊ฐ€๋Š” ๋ถ€๋ถ„) ์— ๊ธฐ์กด์— ์ž˜ ์•Œ๋ ค์ง„ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ๊ทธ ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ weight๊ฐ’์„ ๊ทธ๋Œ€๋กœ ๋ฐ›์•„์˜ค๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. Pretrained network๋ฅผ ์ž˜ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์œผ๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.

Pooling์„ ์—†์•จ ์ˆ˜๋Š” ์—†๋Š”๋ฐโ€ฆ

์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์€ ์ตœ๋Œ€ํ•œ pixel-wise segmentation์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌด์ž‘์ • VGGNet๊ฐ™์€๊ฑฐ์˜ ๋ linear layer๋ฅผ ๋œฏ์–ด๋ฒ„๋ฆฌ๊ณ  convolution์„ ๋ช‡๊ฐœ ๋” ๋‹ฌ์•„์„œ segmentation์„ ์‹œํ‚ค๋ฉด ์–ด๋–ค ๋ฌธ์ œ๊ฐ€ ์žˆ์„๊นŒ์š”?

  • VGGNet์„ ๋Œ๋ฆฌ๋Š” ๊ณผ์ •์„ ์ž˜ ๋ณด๋ฉด, feature map์˜ ํฌ๊ธฐ๊ฐ€ pooling์„ ํ•˜๋‹ค ๋ณด๋ฉด ๊ณ„์† ์ค„์–ด๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋Ÿฌ๋ฏ€๋กœ, ๊ฒฐ๊ตญ ๋งˆ์ง€๋ง‰ ์ˆœ๊ฐ„์— ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง„ feature map์€ ์›๋ณธ์— ๋น„ํ•ด ๊ฐ€๋กœ, ์„ธ๋กœ๊ฐ€ ๊ฐ๊ฐ 1/32๋กœ ์ค„์–ด๋“  ์ด๋ฏธ์ง€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. 256 x 256์„ ๋“ค๊ณ  ์‹œ์ž‘ํ–ˆ๋‹ค๋ฉด, 8 x 8 ์ด ๋˜๊ฒ ๋„ค์š”.
  • ๋‹น์—ฐํžˆ, upsampling์€ ์‰ฝ๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํ•œ ๋ฐ•์Šค์˜ ํฌ๊ธฐ๊ฐ€ ๊ธฐ๋ณธ 32 x 32์ธ segmentation์€ ์ข€ ๋งˆ์Œ์— ์•ˆ ๋“ญ๋‹ˆ๋‹ค.
  • ์ฆ‰, pooling์„ ํ• ์ˆ˜๋ก segmentation์„ ์ •๋ฐ€ํ•˜๊ฒŒ ํ•  ์ˆ˜๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๊ทธ๋ ‡๋‹ค๊ณ  ํ•ด์„œ pooling์„ ํฌ๊ธฐํ•  ์ˆ˜๋Š” ์—†๋Š” ๊ฒƒ์ด, pooling์„ ์•ˆํ•˜๋ฉด ์ด๋ ‡๊ฒŒ ๊นŠ๊ฒŒ ๋„คํŠธ์›Œํฌ๋ฅผ ์Œ“์•˜์„ ๋•Œ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • parameter๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„์„œ, training์ด ๋งค์šฐ ์–ด๋ ต๊ฑฐ๋‚˜ ๋ถˆ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด overfitting์˜ ๋ฌธ์ œ๊ฐ€ ์ฆ๋Œ€๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐ feature๊ฐ€ ์˜ํ–ฅ์„ ๋ฐ›๋Š” receptive field๊ฐ€ ๋„ˆ๋ฌด ์ž‘์Šต๋‹ˆ๋‹ค. ์ด๊ฑด convolution ์—ฐ์‚ฐ ์ž์ฒด์˜ ํ•œ๊ณ„์ธ๋ฐ, convolution (3 by 3) ์„ 10๋ฒˆ ํ•˜๋ฉด ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์˜ 1ํ”ฝ์…€์€ ์‚ฌ์‹ค ๊ฐ€๋กœ์„ธ๋กœ ์ฃผ๋ณ€ 10ํ”ฝ์…€ ํฌ๊ธฐ ์ •์‚ฌ๊ฐํ˜•์— ์˜ํ•ด ๊ฒฐ์ •๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰ ์ „์ฒด์ ์ธ ํฐ๊ทธ๋ฆผ์„ ๋ณผ์ˆ˜๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์•„๋ฌด๋ฆฌ segmentation์ด localํ•œ ํŠน์ง•์„ ์žก์•„๋‚ด๋Š” task๋ผ๊ณ ๋Š” ํ•˜์ง€๋งŒ, ์•„์˜ˆ ํฐ๊ทธ๋ฆผ์„ ๋ณผ์ˆ˜ ์—†์–ด์„œ๋Š” ๊ทธ๊ฒƒ๋„ ๋ฌธ์ œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

ํ™•๋Œ€ํ•˜๊ธฐ

๊ฒฐ๊ตญ ์—ฌ๊ธฐ๊นŒ์ง€ ์˜ค๋ฉด์„œ ๋‹ค์Œ์˜ ๊ฒฐ๋ก ์ด ๋‚˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Pooling์„ ํฌ๊ธฐํ•  ์ˆ˜๋Š” ์—†๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, Pooling์„ ์‹œํ–‰ํ•˜๋ฉด ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ ์ค„์–ด๋“ ๋‹ค. Convolution์„ ๊นŠ๊ฒŒ ํ•ด์•ผ feature๋ฅผ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ๋Ÿฌ๋ฉด โ€˜semantic segmentationโ€™ ํ•˜๋Š” ์˜๋ฏธ๊ฐ€ ์ข€ ์—†์–ด์ง„๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด, ํ•ฉ๋‹นํ•œ ์ƒ๊ฐ์€ ์ด๋ฏธ์ง€๋ฅผ ๋‹ค์‹œ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ผ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ Upsampling์ด๋ผ๊ณ  ํ•˜๋Š”๋ฐ, ์ž‘์€ ์ด๋ฏธ์ง€, ์˜ˆ๋ฅผ๋“ค์–ด 100 x 100 ์ด๋ฏธ์ง€๋ฅผ ํ™•๋Œ€ํ•ด์„œ 200 x 200์œผ๋กœ ๋งŒ๋“ค๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์—ฐํžˆ ์•„๋ฌด๋ ‡๊ฒŒ๋‚˜ ๋งŒ๋“œ๋Š”๊ฒƒ์€ ๋ง๋„ ์•ˆ ๋˜๊ณ , ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋Ÿด์‹ธํ•˜๊ฒŒ ๋ณต๊ตฌํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.

Unpooling ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์€ ์ผ์ข…์˜ Un-pooling์œผ๋กœ, poolingํ–ˆ์„ ๋•Œ ์˜ˆ๋ฅผ ๋“ค์–ด 2x2 ๋กœ์ปฌํ•œ ๋ถ€๋ถ„์˜ max๊ฐ’๋งŒ์„ ์ทจํ–ˆ๋‹ค๋ฉด ์ด๋ฅผ ๋‹ค์‹œ ๋ณต๊ตฌํ• ๋•Œ 2x2 ๊ฐœ๋กœ ๋ณต์‚ฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์‹ค์งˆ์ ์œผ๋กœ ์—†๋Š” ์ •๋ณด๋ฅผ ๋” ์œ ์ถ”ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋‹จ์ˆœํ•˜๊ฒŒ ํฌ๊ธฐ๋งŒ ๋งž์ถฐ ์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜๋Š”, ์ ๋‹นํžˆ ์ธ์ ‘ํ•œ ๊ฐ’๋“ค์„ ์ด์šฉํ•ด Bilinear interpolationํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.

Transposed Convolution ์ด ์ดํ›„์˜ ๋งŽ์€ ๋…ผ๋ฌธ์—์„œ๋Š” Transposed convolution์ด๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋…ผ๋ฌธ๋“ค์€ ์ด๊ฒƒ์„ deconvolution์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ธฐ๋„ ํ•˜๋Š”๋ฐ, ์ผ์ข…์˜ convolution์„ ๊ฑฐ๊พธ๋กœ ํ•˜๋Š”๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋Ÿฐ ์ด๋ฆ„์ด ๋ถ™์—ˆ์ง€๋งŒ ์‚ฌ์‹ค ์ˆ˜ํ•™์ ์œผ๋กœ convolution์˜ ์—ญ์—ฐ์‚ฐ์ด ์•„๋‹ˆ๋ฉฐ, ์—ญ์—ฐ์‚ฐ์€ ๋”ฐ๋กœ ์žˆ๊ธฐ๋–„๋ฌธ์— ๋ณ„๋กœ ์ ์ ˆํ•œ ์ด๋ฆ„์€ ์•„๋‹™๋‹ˆ๋‹ค. convolution์ด ํ•„ํ„ฐ๋ฅผ ๋ฐ€๋ฉด์„œ ๋‚ด์ ํ•˜๊ณ  ์ด๋ฅผ ๋”ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ๋˜‘๊ฐ™์ด ์ˆ˜ํ–‰ํ•˜๋˜ deconvolution์„ ํ†ตํ•ด์„œ๋Š” feature์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ•œ์ง€๋Š” ์‹๋ณด๋‹ค๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ๋ฐ”๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. drawing

์ด ๊ทธ๋ฆผ์—์„œ, convolution ์—ฐ์‚ฐ์ด์—ˆ๋‹ค๋ฉด ์œ„์ชฝ์˜ 6x6์ด input์ด ๋˜๊ณ  3x3 ํ•„ํ„ฐ๋ฅผ ๋ฐ€์–ด์„œ ์•„๋ž˜์ชฝ์˜ 4x4 feature map์„ ์–ป์—ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋ฒˆ์—๋Š” ๋ฐ˜๋Œ€๋กœ, 4x4 feature map์„ input์œผ๋กœ ๋ฐ›๊ณ , filter์— ๊ทธ ๊ฐ’๋งŒํผ์„ ๊ณฑํ•ด์„œ ๋”ํ•ด์ฃผ๋Š” ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
๋”ฐ์ง€์ž๋ฉด, transposed convolution์€ ์ผ์ข…์˜ trainable up-sampling์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค๋งŒ, ์ด ๋ฐฉ๋ฒ•๋“ค์—๋Š” ๋งค์šฐ ์ค‘๋Œ€ํ•œ ๋ฌธ์ œ๊ฐ€ ์—ฌ์ „ํžˆ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. Feature map์ด ์ž‘์•„์กŒ์„ ๋•Œ ์•„๋ฌด๋ž˜๋„ ์–ด๋Š์ •๋„ ์ •๋ณด๋ฅผ ์žƒ์„ ์ˆ˜๋ฐ–์— ์—†๊ธฐ๋•Œ๋ฌธ์—, upsampling์„ ์ž˜ ํ•ด๋„ fine prediction์ด ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ๊ป ์ด๋ฏธ์ง€๋ฅผ ๋‹ค์‹œ ์›๋ž˜ ์‚ฌ์ด์ฆˆ๋กœ ์˜ฌ๋ ค๋†”๋„ prediction์ด 8x8 ์ฒญํฌ๋กœ ์ด๋ฃจ์–ด์ง€๋ฉด ์˜๋ฏธ๊ฐ€ ๋ณ„๋กœ ์—†์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

DAG is the way to go

Long et al, ์ €์ž๋“ค์€ (์ด์ œ๋Š” ๋งŽ์ด ์“ฐ์ด์ง€๋งŒ) ์ƒ๋‹นํžˆ novelํ•œ approach๋กœ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. picture 1
์ด ๊ทธ๋ฆผ์—์„œ์ฒ˜๋Ÿผ, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” path๋ฅผ ์ผ์ข…์˜ DAG๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, convolution layer๋ฅผ ํƒ€๊ณ  ํ˜๋Ÿฌ๊ฐ€๋Š” ๋„์ค‘์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋„์ง‘์–ด๋‚ด์„œ, intermediate feature value๋“ค์„ ํ™œ์šฉํ•˜์—ฌ segmentation์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Training

์ €์ž๋“ค์€ ๋‹น์‹œ ImageNet ์ฑŒ๋ฆฐ์ง€์—์„œ ์ข‹์€ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๋˜ VGGNet, GoogLeNet๊ณผ AlexNet์„ backbone์œผ๋กœ ํ•˜๋Š” FCN์„ ์‹คํ—˜ํ•˜์˜€๊ณ , VGGNet์˜ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ๋ณธ Training์€ SGD with Momentum์ด๊ณ  (Adam, Batchnorm์ด ์—ฐ๊ตฌ๋˜๊ธฐ ์ „์ž…๋‹ˆ๋‹ค)
  • Dropout์€ ์›๋ณธ์˜ classifier ๋ถ€๋ถ„ (linear layer๊ฐ€ ๋“ค์–ด๊ฐ”์–ด์•ผ ํ• , ๋ ๋ช‡ ๋ ˆ์ด์–ด) ๋“ค์— ๋Œ€ํ•ด์„œ๋งŒ ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ธ๋ถ€์ ์œผ๋กœ๋Š” bias๋“ค์— ๋Œ€ํ•ด์„œ๋งŒ 2๋ฐฐ์˜ lr์„ ์ ์šฉํ•˜๋Š” ๋“ฑ ์—ด์‹ฌํžˆ ํŠœ๋‹๋˜์–ด ์žˆ์ง€๋งŒ ์ด๋ถ€๋ถ„์€ ์ €์ž๋“ค์ด ๋…ผ๋ฌธ์—์„œ ๋งํ•˜๊ธฐ๋„ ํ–ˆ๋Š”๋ฐ, ๋ณ„๋กœ ์ค‘์š”ํ•œ ์š”์†Œ๋“ค์€ ์•„๋‹™๋‹ˆ๋‹ค.

์ž์„ธํ•œ ๋ถ€๋ถ„๋“ค์€ ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ ์ฝ”๋“œ๋ฅผ ๋ณด๋ฉด์„œ ํ™•์ธํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค :)