CS공부/빅데이터_통계학기초 4

[포스코 AI·Big Data 아카데미 사전학습] 데이터사이언스를 위한 통계학입문 1-4

1-4 빅데이터 분석에서 확률과 분포 ① 확률의 기초개념 • 통계에서 확률의 개념이 왜 필요한가? - 사건 하나하나에 대해 미리 아는 것은 불가능하지만, 장기적으로 확률적 모형을 통하여 많은 시행의 결과 예측 가능하다. • 확률변수와 기대값 - 확률변수 : 확률 실험으로부터 나타난 결과에 실수를 할당한 점수 - 기대값 : 확률적 사건에 대한 평균값으로, 사건이 일어나서 얻는 값과 그 사건이 일어날 확률을 곱한 것을 모든 사건에 대해 합한 값. ex) 앞면이 나오는 회수 기대값 : 0*1/4+1*2/4+2*1/4=1 ② 조건부 확률과 베이즈 확률 • 조건부 확률 : 어떤 사건(B)가 발생한다는 조건 하에 다른사건(A)이 발생하게 될 확률 ex) 방안에 남 10명 여 10명 있다. 남자 중 3명이 승무원, ..

[포스코 AI·Big Data 아카데미 사전학습] 데이터사이언스를 위한 통계학입문 1-3

1-3 데이터 시각화와 통계적 해석 ① 상자그림이 주는 정보와 해석 • 5가지 정보 제공 (중앙값, 일사분위수, 삼사분위수, 최대값, 최소값) - 데이터 분포의 대칭성/치우침/이상치 쉽게 파악 가능 • 상자그림 그리기 5가지 정보 제공 (중앙값, 일사분위수, 삼사분위수, 최대값, 최소값) 1) 데이터의 중앙값을 찾는다. 2) 일사분위수(Q1)과 삼사분위수(Q3)을 찾는다. - 일사분위수(Q1) : 데이터를 크기순서대로 배열했을 때 25%지점의 값 - 삼사분위수(Q3) : 데이터를 크기순서대로 배열했을 때 75%지점의 값 3) 일사분위수 ~ 삼사분위수를 상자로 그린다. 4) 최소값~일사 분위수, 삼사분위수~최대값을 그린다. 5) 이상치를 표시한다. - 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치 이..

[포스코 AI·Big Data 아카데미 사전학습] 데이터사이언스를 위한 통계학입문 1-2

1-2 빅데이터 탐색의 첫걸음 ① 데이터의 평균(중심위치) • 평균 : 데이터를 하나의 값으로 표현한 요약된 정보(추정치) 평균 = 데이터 값의 총합 / 데이터 개수 • 평균을 다룰 때 주의사항 - 표본선정을 어떻게 하는가? 모집단에서 표본을 선정하면 다양한 데이터들을 표본으로 모아야 한다. 편향된 데이터만 표본으로 모은다면 이 표본은 모집단을 대표하지 않게 되며 신뢰도가 떨어진다. - 표본이 적합하게 추출되었는 지 어떻게 평가하는가? '편의'(Bias)가 적은지 체크! 정확도가 높은 지 체크 (정확도 - 반복실험 시 얼마나 유사한 값이 나오는가) • 같은 평균이라도 분산이 다르면 데이터 특성이 다르다. • 평균은 표본이 적은 경우 아주 큰 값이나 작은값(outlier)에 민감한 추정치이다. 때로는 중앙..

[포스코 AI·Big Data 아카데미 사전학습] 데이터사이언스를 위한 통계학입문 1-1

아카데미 입과에 앞서 사전학습 목록이 공지되어 있어서, 관련강좌를 모두 듣기로 했다. SQLD 자격증을 취득하면서 데이터 분석에 대한 부분에 대해서는 입문적인 공부를 했지만, 통계학과 관련하여 지식이 없기에 제일 먼저 수강하였다. 청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC) 취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다. pabi.smartlearn.io 위의 링크에서 관련된 강의를 누구나 무료로 들을 수 있다. 1-1 데이터 과학과 통계 ① 데이터 과학이란 무엇인가? DATA ANALYSIS을 통하여 INSIGHT를 창출하는 것 DATA ANALYSIS란? • 데이터 큐레이션 : 데이터 추출 및 변환 (SQL, R, Python..