오전: 고딩 때 안 배웠다구요...ㅠㅠ굉굉 뭔 말인지 1도 모르겠다
시그마(∑): 합계 or 총계
σ: 표준 편차
■편차
- 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표
평균이 60점인 시험에서 으는 75점 받음
-편차: 15점
Q1. 평균과 표준편차 12와 8 중 어느 것이 더 좋은 점수일까?
A: 8아님??
■표준편차: σ
-정의: 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다. <분산을 제곱근한 거>::데이터-평균값/표준편차 == 0
- 분산에 제곱근을 취한 표준편차(Standard Deviation)
■분산
-정의: 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. <(차이값)**2/len>
- 편차의 평균은 항상 0이 되므로 편차의 제곱을 이용한 분산(Variance)를 사용
- var() 함수에는 ddor=0으로 기본설정
- 불편분산은 ddof=1일때 해당(자유도 1)
- numpy와 pandas의 기본 설정 값이 다르기 때문에 주의정규분포
■정규 분포
-정의: 연속 확률 분포의 하나이다.
- 정규분포는 수집된 자료의 분포를 근사(노동)하는 데에 자주 사용
데이터의 정규화
- 시험 점수는 동일한 60점이라도, 평균 점수가 30점인 어려운 시험에서 얻은 60점과 평균 점수가 90점인 쉬운 시험에서 얻은 60점은 동일하게 해석하면 안됨
- 평균이나 분산에 의존하지 않고도 데이터의 상대적인 위치 관계를 알수 있는 지표가 필요
- 통일된 지표로 변환하는 것을 정규화(normalization)이라고 함
표준화
- 데이터에서 평균을 빼고 표준편차로 나누는 작업을 표준화(standardization)
- 표준화된 데이터를 표준화 변량(standardization data) 혹은 Z-점수(Z-score)
편차값
- 편차값은 평균이 50, 표준편차가 10이 되도록 정규화한 값
■도수분포표
-주어진 자료를 도수분포표로 나태내고, 그 표의 의미를 이해할 수 있음
-도수분포표로 주어진 자료의 평균을 구할 수 있음
1-2. 도수분포표
1-2. 도수분포표 * 변량(variate) : 자료를 수량으로 나타낸 것을 변량이라고 한다. (위 표 3의 문자 발송 ...
blog.naver.com
■가설검정
- 통계적 추측의 하나
-모집단(모든 데이터) 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다.
-통계적 추정: 관측된 데이터로부터 모집단을 추리하는 것
-추측하려는 N을 모집단이 가진 '모수'라고 함
사분위수 범위: IQR
-제 1사분위수(Q1)와 제 3사분위수(Q3) 사의의 거리임
공식: IQR = Q3 - Q1
<사분위수 범위를 구하는 방법>
1 단계: 측정값들을 최소부터 최대까지 순서대로 나열하세요.
2 단계: 중앙값을 구하세요. 자료의 개수가 홀수이면, 중앙에 위치한 자료가 중앙값이고, 자료의 개수가 짝수이면 중앙에 있는 두 자료의 평균이 중앙값입니다.
3 단계: 제 1사분위수는 자료의 중앙값을 기준으로 왼쪽 값들의 중앙값을 의미합니다. 제 1사분위수를 구하세요.
4 단계: 제 3사분위수l는 자료의 중앙값을 기준으로 오른쪽 값들의 중앙값을 의미합니다. 제 3사분위수를 구하세요.
5 단계: 을 계산하여 사분위수 범위를 구하세요.
<예제문제 풀어보기>
'AI' 카테고리의 다른 글
KonlPy 오류 jvm.py 파일 오류 (0) | 2022.08.31 |
---|---|
0723 (0) | 2020.07.23 |