Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

Naver AI Tech 7기/LEVEL2

Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

지혜의 시작 2024. 11. 1. 20:12

https://www.lotteon.com광고

롯데 온라인 쇼핑 페스타 ~20만원 쿠폰팩 받아가세요 4,300만의 브랜드 대축제! 롯데ON 릴레이 할인 질주! 지금 놓치지 마세요!

http://www.coupang.com광고

쿠팡 FLYWHEEL 와우회원은 무제한 무료 배송 FLYWHEEL, 와우회원은 로켓배송 전 상품 무료배송 오늘주문 내일도착! 꼭 필요한 제품은 로켓배송으로 빠르게, 정기배송으로 더 저렴하게

728x90

📌 데이터 저작권

github copilot → copilot 이 학습 데이터로 사용한 코드 데이터 중 저작권에 문제가 되는 자료가 있을 수도.
데이터를 사용할 때 주의해야 함. 저작권.
데이터 수집 단계부터 조심해야 함.

📌 DATA Flywheel

기업의 입장에서 서비스를 하다 보면 데이터가 지속적으로 쌓임 → 이 데이터를 모델의 학습 데이터로 가공하고 모델에게 계속 추가 학습을 진행하면서 자연스럽게 모델의 성능 UP
데이터를 기반으로 모델과 상호작용을 하면서 여러 iteration하면서 모델과 데이터 둘 다 Quality가 좋아지도록 하는 것이 data flywheel

⇒ 이게 data centric ai 를 real world(실무)에 적용했을 때 가장 대표적인 형태

📌 데이터의 양과 Quality + 대회 적용

데이터가 많다고, 단순히 라벨링을 많이 한다고 해서 ai 시스템의 성능이 오르지는 않음
이번 대회에서 나는 우선적으로 Re-Labeling, Tagging, Transcription 등을 적용하면서 데이터 Quality를 높이는 실험을 먼저 진행할 것이다.
팀원들과 상의 하에 가이드 라인을 만들어서 위 실험들을 진행

📌데이터 균형

라벨링 노이즈와 데이터 분포
데이터 수집 시 자주 등장하는 케이스에 대한 샘플은 라벨링 작업자도 자주 보고 작업 가이드 라인을 작성하는 실무자도 이미 인지하고 있어서 라벨링 노이즈가 적음
자주 등장하는 샘플은 자주 등장하니까 데이터 양도 많고 모델 자체도 쉽게 학습
특이 케이스를 다루는 샘플일수록 그 개수가 적고 가이드 라인에서도 충분히 다루지 못하고 따라서 라벨링 작업자 역시 해당 케이스는 낯선 상황이라서 라벨링 노이즈가 클 수 밖에 없음
가이드 라인에서 다루고 있지 않은 샘플의 경우 작업자 개개인의 주관적인 판단이 라벨의 bias로 이어질 수 있기 때문
따라서 원본데이터의 수집단계 에서 부터 모든 케이스를 적절히 포괄할 수 있도록 균형 있게 데이터를 수집해서 데이터를 만드는 게 중요하고 데이터 라벨링 작업을 할 때 가이드 라인의 이런 모든 케이스를 적절히 다 포괄할 수 있도록 작성하는 것이 좋은 데이터를 만드는 가장 중요한 방법!!!

728x90

'Naver AI Tech 7기 > LEVEL2' 카테고리의 다른 글

Week13 주간 학습정리 - [Semantic Segmentation 강의 정리] (1)	2024.11.15
Week12 주간 학습정리 - [Data-Centric CV 대회 후 회고] (0)	2024.11.08
Week10 주간 학습정리 - [CV level 2 대회 완료 후 회고] (4)	2024.10.25
Week9 주간 학습정리 - [CV level 2 대회 진행 중] (0)	2024.10.18
Week8 주간 학습정리 - [CV level 2 대회 시작] (0)	2024.10.11

현재글Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

Beginning of Wisdom The fear of the LORD is the beginning of wisdom

250x250

Beginning of Wisdom

The fear of the LORD is the beginning of wisdom

Computer Vision, 공군, level2, 면접 질문, 티스토리챌린지, 선형대수, 책, 오블완, ai, 통계학, naver ai tech 7기, 통계, 김영익, 대학생, 변수, 군대, CV, 기초, week11, 수학,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Beginning of Wisdom

Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

📌 데이터 저작권

📌 DATA Flywheel

📌 데이터의 양과 Quality + 대회 적용

📌데이터 균형

'Naver AI Tech 7기 > LEVEL2' 카테고리의 다른 글

'Naver AI Tech 7기/LEVEL2'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

2025. 04
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Week11 주간 학습정리 - [Data-Centric CV 내용 정리]

📌 데이터 저작권

📌 DATA Flywheel

📌 데이터의 양과 Quality + 대회 적용

📌데이터 균형

'Naver AI Tech 7기 > LEVEL2' 카테고리의 다른 글

'Naver AI Tech 7기/LEVEL2'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역