ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 네이버 RexNet 논문
    딥러닝/CNN 모델 2022. 6. 10. 09:41

    RexNet은 2020년 제가 대학원을 다니던 시절 네이버에서 야심차게 공개한 CNN 모델로 알고 있습니다. 당시 EfficientNet을 근소하게 능가하면서 관행적으로 쓰이던 ReLU와 시그모이드에 대해 일침을 날렸었지요. 당시 페이스북에서는 한동안 "EfficienctNet 대신 RexNet으로.." 란 비슷한 말들이 많이 떠돌았습니다.

     

    ReLU 대신 SiLU (Swish) 활성화 함수 사용

    Swish는 구글이 메타 AI 로 찾은 활성화 함수라고 합니다. 그동안 잘 알려지지 않았던 것을 네이버가 서치하여 사용한 것으로 보여집니다.

     

    층이 깊어질 수록 채널 차원 수를 완만하게 늘림

    아키텍쳐 표를 보면 한눈에 알 수 있습니다.

    전체 차원 블록 채널 차원 SE 블록 여부 스트라이드
    224x224x3 conv3x3 32 - 2
    112x112x32 BL1 16 - 1
    112x112x16 BL6 27 - 2
    56x56x27 BL6 38 - 1
    56x56x38 BL6 50 - 2
    28x28x50 BL6 61 SE 1
    28x28x61 BL6 72 SE 1
    14x14x72 BL6 84 SE 1
    14x14x84 BL6 95 SE 1

    기존의 CNN 들이 3 채널에서 64 채널, 64채널에서 128채널 등 한번에 과감하게 늘리는 전략을 취했었습니다. RexNet은 이런 채널을 급격하게 늘리는 것에 대해 다시 생각해 본 것 같습니다. 개인적으로 채널 차원 수를 급격하게 늘리면 정보의 손실 정보의 왜곡이 발생하지 않나 생각합니다.

     

    이해가 안되시는 분들을 위해 직접 RexNet을 그려봤습니다. 일부만 그려봤습니다. 참고하세요.

    논 로컬 피처 적용을 위해 SENet의 SE 블록 사용

    CNN의 단점은 커널 사이즈에 있습니다. 3x3, 5x5 정도의 크기로는 이미지 전체를 한눈에 볼 수 없습니다. 이런 단점을 극복하는 장치가 마련되어 있습니다. 논-로컬 피처 추출이라는 것인데요. 방법은 GCNet의 행렬 곱, SENet의 SE 블록, GhostNet의 CAT, 비전 트랜스포머 등이 있습니다. 2020년도에는 아직 비전 트랜스포머가 주류로 인정받지 않았던 시절이라 아마 SENet을 사용한 듯합니다. 참고로 GhostNet도 2020년에 출판되었습니다. 개인적으로는 비전 트랜스포머 공통 블록을 그대로 또는 변형하여 사용하기 보다 보다 근본적인 연산인 Densely Connected Layer인 행렬 곱, NN (FC) 에서 다시 생각하여 알고리즘을 발전시켜 나가는 것을 선호합니다.

    '딥러닝 > CNN 모델' 카테고리의 다른 글

    DenseNet의 아이디어  (0) 2022.06.09
    ResNet의 잔차 아이디어  (0) 2022.06.05

    댓글

Designed by Tistory.