Naver AI Tech 7기/LEVEL2

Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

지혜의 시작 2024. 11. 1. 20:12
728x90

📌 데이터 저작권

  • github copilot → copilot 이 학습 데이터로 사용한 코드 데이터 중 저작권에 문제가 되는 자료가 있을 수도.
  • 데이터를 사용할 때 주의해야 함. 저작권.
  • 데이터 수집 단계부터 조심해야 함.

📌 DATA Flywheel

  • 기업의 입장에서 서비스를 하다 보면 데이터가 지속적으로 쌓임 → 이 데이터를 모델의 학습 데이터로 가공하고 모델에게 계속 추가 학습을 진행하면서 자연스럽게 모델의 성능 UP
  • 데이터를 기반으로 모델과 상호작용을 하면서 여러 iteration하면서 모델과 데이터 둘 다 Quality가 좋아지도록 하는 것이 data flywheel

⇒ 이게 data centric ai 를 real world(실무)에 적용했을 때 가장 대표적인 형태

 

📌 데이터의 양과 Quality + 대회 적용

  • 데이터가 많다고, 단순히 라벨링을 많이 한다고 해서 ai 시스템의 성능이 오르지는 않음
  • 이번 대회에서 나는 우선적으로 Re-Labeling, Tagging, Transcription 등을 적용하면서 데이터 Quality를 높이는 실험을 먼저 진행할 것이다. 
  • 팀원들과 상의 하에 가이드 라인을 만들어서 위 실험들을 진행

📌데이터 균형

  • 라벨링 노이즈와 데이터 분포
  • 데이터 수집 시 자주 등장하는 케이스에 대한 샘플은 라벨링 작업자도 자주 보고 작업 가이드 라인을 작성하는 실무자도 이미 인지하고 있어서 라벨링 노이즈가 적음
  • 자주 등장하는 샘플은 자주 등장하니까 데이터 양도 많고 모델 자체도 쉽게 학습
  • 특이 케이스를 다루는 샘플일수록 그 개수가 적고 가이드 라인에서도 충분히 다루지 못하고 따라서 라벨링 작업자 역시 해당 케이스는 낯선 상황이라서 라벨링 노이즈가 클 수 밖에 없음
  • 가이드 라인에서 다루고 있지 않은 샘플의 경우 작업자 개개인의 주관적인 판단이 라벨의 bias로 이어질 수 있기 때문
  • 따라서 원본데이터의 수집단계 에서 부터 모든 케이스를 적절히 포괄할 수 있도록 균형 있게 데이터를 수집해서 데이터를 만드는 게 중요하고 데이터 라벨링 작업을 할 때 가이드 라인의 이런 모든 케이스를 적절히 다 포괄할 수 있도록 작성하는 것이 좋은 데이터를 만드는 가장 중요한 방법!!!
728x90