728x90
📌 데이터 저작권
- github copilot → copilot 이 학습 데이터로 사용한 코드 데이터 중 저작권에 문제가 되는 자료가 있을 수도.
- 데이터를 사용할 때 주의해야 함. 저작권.
- 데이터 수집 단계부터 조심해야 함.
📌 DATA Flywheel
- 기업의 입장에서 서비스를 하다 보면 데이터가 지속적으로 쌓임 → 이 데이터를 모델의 학습 데이터로 가공하고 모델에게 계속 추가 학습을 진행하면서 자연스럽게 모델의 성능 UP
- 데이터를 기반으로 모델과 상호작용을 하면서 여러 iteration하면서 모델과 데이터 둘 다 Quality가 좋아지도록 하는 것이 data flywheel
⇒ 이게 data centric ai 를 real world(실무)에 적용했을 때 가장 대표적인 형태
📌 데이터의 양과 Quality + 대회 적용
- 데이터가 많다고, 단순히 라벨링을 많이 한다고 해서 ai 시스템의 성능이 오르지는 않음
- 이번 대회에서 나는 우선적으로 Re-Labeling, Tagging, Transcription 등을 적용하면서 데이터 Quality를 높이는 실험을 먼저 진행할 것이다.
- 팀원들과 상의 하에 가이드 라인을 만들어서 위 실험들을 진행
📌데이터 균형
- 라벨링 노이즈와 데이터 분포
- 데이터 수집 시 자주 등장하는 케이스에 대한 샘플은 라벨링 작업자도 자주 보고 작업 가이드 라인을 작성하는 실무자도 이미 인지하고 있어서 라벨링 노이즈가 적음
- 자주 등장하는 샘플은 자주 등장하니까 데이터 양도 많고 모델 자체도 쉽게 학습
- 특이 케이스를 다루는 샘플일수록 그 개수가 적고 가이드 라인에서도 충분히 다루지 못하고 따라서 라벨링 작업자 역시 해당 케이스는 낯선 상황이라서 라벨링 노이즈가 클 수 밖에 없음
- 가이드 라인에서 다루고 있지 않은 샘플의 경우 작업자 개개인의 주관적인 판단이 라벨의 bias로 이어질 수 있기 때문
- 따라서 원본데이터의 수집단계 에서 부터 모든 케이스를 적절히 포괄할 수 있도록 균형 있게 데이터를 수집해서 데이터를 만드는 게 중요하고 데이터 라벨링 작업을 할 때 가이드 라인의 이런 모든 케이스를 적절히 다 포괄할 수 있도록 작성하는 것이 좋은 데이터를 만드는 가장 중요한 방법!!!
728x90
'Naver AI Tech 7기 > LEVEL2' 카테고리의 다른 글
Week13 주간 학습정리 - [Semantic Segmentation 강의 정리] (1) | 2024.11.15 |
---|---|
Week12 주간 학습정리 - [Data-Centric CV 대회 후 회고] (0) | 2024.11.08 |
Week10 주간 학습정리 - [CV level 2 대회 완료 후 회고] (4) | 2024.10.25 |
Week9 주간 학습정리 - [CV level 2 대회 진행 중] (0) | 2024.10.18 |
Week8 주간 학습정리 - [CV level 2 대회 시작] (0) | 2024.10.11 |