Statistics

통계학 개론(Tips + 잘못된 통계학 지식 바로잡기)

지혜의 시작 2020. 12. 6. 23:12
728x90

이 글이 데이터 분석을 할 때 필요한 지식이라 생각된다. 데이터 분석 후 결과해석을 할 때 잘못된 해석을 방지하기 위해 미리 통계학을 제대로 알자!! (혹시 저의 지식에 잘못된 부분이 있다면 댓글 부탁드립니다~)

  • 평균 vs 중앙값 -> 많이 다르면 분포가 치우친다. 데이터 분석하기전에 미리 두가지 값을 구해서 비교해보자.
  • 사분위수 : 프로그래밍 언어에 따라 다르다.(R, Python, ...). 연속형에서는 사분위수가 문제가 되지 않는다. 하지만 이산형의 경우 사분위수안에 포함된 데이터 수가 달라질 수 있기 때문에 좋은 지표가 되지는 못한다.
  • 표본분산을 (n-1)로 나누는 이유 : n으로 나눌때보다 (n-1)로 나눌때 통계적으로 더 좋은 성질을 가진다. n으로 나누면 표본분산 ≠ 모집단 분산 (Bcs 표본분산 << 모집단분산). (n-1)로 나누면 표본분산 ≒ 모집단분산 
  • 상관계수 해석시 주의점!! : 1. 인과관계가 절대 아니다.!! 2. 중국 증시와 한국 증시의 상관계수가 0.8로 나타났다.    -> 1) 이 말은 두 증시의 동조화 현상이 일어났음 or 강함(= 방향성을 같이 한다.)을 말한다.(O) 2) 중국 증시가 오르기 때문에 한국 증시가 오른다.(X) 3. 기울기가 아니다! 4. 항상 그림을 그려 본 후 해석하는 것이 좋다.(Bcs 선형 강도가 0.8 정도로 강하게 나왔다고 하더라도 가운데 값들이 비어있는 상태일 수도 있다.)

오늘은 여기까지만 포스팅 하는걸로..나머지는 시험 끝나고 업로드 하겠습니다..!

728x90

'Statistics' 카테고리의 다른 글

<3-1> 확률과 확률분포  (0) 2023.01.27
<3-2> 확률과 확률분포  (0) 2023.01.25
<2> 모집단과 표본  (0) 2022.09.17
<1> 자료의 생성  (0) 2022.09.17
통계학 개론  (0) 2020.12.06