Naver AI Tech 7기/LEVEL2

Week13 주간 학습정리 - [Semantic Segmentation 강의 정리]

지혜의 시작 2024. 11. 15. 19:45
728x90

📌 의료쪽에서 Unet이 많이 사용되는 이유

의료 분야에서 U-Net이 많이 사용되는 이유는 주로 의료 영상의 특성과 U-Net의 구조적 특징이 잘 맞아떨어지기 때문.


1. Segmentation에 최적화된 구조

  • 의료 영상 데이터는 주로 픽셀 단위로 정밀한 분할(Segmentation)이 필요합니다. 예를 들어, CT, MRI, X-ray 이미지에서 특정 장기, 병변, 또는 뼈 구조를 정확히 추출해야 합니다.
  • U-Net은 엔코더-디코더 구조로 되어 있어, 이미지를 압축(Downsampling)한 후 다시 복원(Upampling)하며 세부 정보를 보존할 수 있습니다.

2. 스킵 연결(Skip Connection)

  • U-Net의 주요 특징은 스킵 연결입니다. 이는 엔코더에서 추출된 저수준(low-level) 특징디코더의 대응 레벨로 바로 전달해줍니다.
  • 이는 작은 구조(예: 작은 병변, 세포, 혈관 등)를 포함한 세밀한 정보를 복원하는 데 매우 유리합니다.
  • 결과적으로 높은 정확도를 유지하면서 의료 이미지에서 세밀한 경계를 잘 예측할 수 있습니다.

3. 데이터 부족에 강한 성능

  • 의료 데이터는 종종 레이블링이 어렵고 데이터 양이 적은 경우가 많습니다.
  • U-Net은 비교적 적은 양의 데이터로도 우수한 성능을 발휘하며, 데이터 증강(Data Augmentation) 기법과 함께 활용될 때 더욱 효과적입니다.

4. 2D/3D 확장성

  • U-Net은 2D 이미지뿐만 아니라 3D U-Net 구조로 확장 가능하여 3D CT/MRI 스캔과 같은 데이터를 다룰 때도 적합합니다.
  • 이는 의료 영상의 다차원 데이터를 처리하기에 매우 유리합니다.

5. 모델의 해석 가능성

  • U-Net 구조는 비교적 단순하고 직관적이기 때문에 결과를 해석하기 쉽습니다.
  • 의료 분야에서는 결과의 신뢰성과 해석 가능성이 매우 중요하며, U-Net은 이러한 요구를 만족합니다.

6. 다양한 변형 가능

  • 의료 분야에서 U-Net은 Attention U-Net, ResUNet, 3D U-Net 등으로 변형되어 특정 작업에 맞게 조정됩니다.
  • 예를 들어, Attention U-Net은 중요한 영역에 초점을 맞춰 더욱 정확한 세그먼테이션 결과를 제공합니다.

7. 의료 영상 처리의 전반적인 적합성

  • 정밀도연산 효율성의 균형이 잘 맞음.
  • 다양한 크기의 병변이나 장기를 효과적으로 처리할 수 있음.
  • 코드 구현이 상대적으로 간단하며, 오픈소스 프레임워크(PyTorch, TensorFlow 등)에서 손쉽게 활용 가능.

이러한 이유로 U-Net은 의료 영상 처리 분야에서 사실상의 표준 모델로 자리 잡았습니다.

 

📌 Classification vs Segmentation

classification에서는 fc layer 써서 flatten해도 문제가 없음. 왜냐면 어떤 object가 존재 하는지에 대해서만 관심이 있고 어느 위치에 나오는지에 대한 것은 필요 없으니까

→ translation invariance : 입력의 위치가 변해도 출력의 결과는 바뀌지 않는 효과

 

하지만 segmentation은 각 픽셀마다 어떤 클래스를 가지는 지에 대한 정보가 중요!!

→ fc 제거하고 convolution으로 대체

 

📌 up sampling

up sampling ; segmentation에서 중요한 부분

→ FCN에서는 transposed conv로 UP SAMPLING 진행

 

📌 transposed conv & unpooling

transposed conv 는 unpooling이 복원한 경계 안을 복원한다. 안의 내용물 채움.

 

📌 receptive field

receptive field : 뉴런이 얼마만큼의 영역을 바라보고 있는지에 대한 정보, 영역

 

→ segmentation 에서는 각 픽셀마다 classification을 해야 하므로 모든 픽셀에 대한 정보가 중요

→ 이미지의 크기를 많이 줄인 상황에서 conv 이후 upsample 하면 해상도가 많이 줄어든다

→ 하지만 그렇다고 max pool을 안 쓰고 receptive field? 를 키우는 것은 파라미터가 너무 많이 증가..

→ dilated conv or atrous conv

728x90