카테고리 없음

Week3 주간 학습정리 - [EDA&DataViz]

지혜의 시작 2024. 8. 19. 10:24
728x90
개념/code 학습 중 생긴 이슈 및 해결 방법에 대해 기록하자

개념 Issue & Solution

1. pallete → 색약, 색맹

색약, 색맹..

→ 과학, 의료 같은 분야에서는 이를 보완하는 색 pallete 필요.

→ viridis,, 등등

 

2. 이미지 데이터 → 어떤 도메인에서 왔는가?

  • 어떤 도메인에서 왔는가? 가 가장 중요!!
    •  의료 데이터의 경우는 정확도가 상당히 중요, 사람 데이터는 어떤 왜곡점이 있는지가 중요..
  • 만화 캐릭터에 대해서 이미지 생성 task를 가지게 되면 어떤 게 중요?
    • 만화는 실제 사람의 얼굴과 다르게 눈이 엄청 커도 되고,, 비현실적인 얼굴의 비율을 가져도 허용
  • 이미지 자체가 도메인에 따라 다양한 특성을 가지고 허용할 수 있는 범위가 달라지기 때문에 항상 가장 중요한 것은 도메인!!

 

Code Issue & Solution

1. sort_index() 

group = titanic.groupby('sex')['alive'].value_counts()

 value_counts() 까지만 하면 이런식으로 count 값이 높은 값이 먼저 나옴.

 

group = titanic.groupby('sex')['alive'].value_counts().sort_index()   

 sort_index()를 해주면 no yes no yes 이런식으로 index가 정렬됨

⇒ 아마 알파벳 순서로 정렬 되는 듯(n이 y보다 앞이니까 no가 yes 보다 먼저 정렬됨)

→ 공식 문서 찾아보기

 

2. axes → 반복문 가능

for ax in axes:  
	ax.set_ylim(0, 200)
  • axes는 배열이 numpy 배열처럼 되어 있음
  • 그래서 반복문을 충분히 돌릴 수 있음

 

3. pandasselect_dtypes 메서드

  • 원하는 data type들의 데이터만 가져오기
  • numeric_titanic = titanic.select_dtypes(include=['int64', 'float64'])

 

4. autopct='%1.1f%%'

  • autopct(auto percent)는 파이 차트(pie chart)를 그릴 때, 각 조각의 비율을 표시하는 옵션
  • '%1.1f%%':
    • %1.1f: 1은 소수점 앞의 최소 자릿수를 의미하며, .1은 소수점 이하 자릿수를 의미합니다. 따라서, 1.1f는 소수점 아래 한 자리까지 포함하는 부동 소수점 숫자를 의미
    • %%: 첫 번째 %는 이스케이프 문자로, 두 번째 %를 실제 퍼센트 기호로 표시
  • 제일 앞의 %는 문자열 내에서 포맷 지정자를 시작하는 표시.
  • 파이썬에서는 문자열 내에 특정 값을 삽입하거나 형식을 지정할 때 %를 사용. 이는 % 뒤에 오는 포맷 지정자(1.1f 등)를 통해 숫자나 다른 값을 특정 형식으로 변환해줌
  • autopct='%1.0f%%' → 이렇게 해도 38% 이런식으로 정수형태의 퍼센트로 비율이 나옴 → 최소 1자리 그니까 2자리도 ok..!
  • autopct :
    • pyplot은 자체적으로 퍼센트를 계산해서 내장하고 있음
    • autopct(auto percent) 파라미터를 통해서 각 영역이 몇 퍼센트를 차지하는지 표현 가능

 

5. 

 

Retrospect

 

 

단순 개발자가 아닌 problem solver가 되자!


단순히 이론만 쌓는 것에 급급하기 보다는 AI 업계 흐름과 세상 문제에 집중하자!

 

 

 

 

 

 

728x90