A. 기술 통계 분석
- Desccriptive Statistics, 설명(=기술)하기 위한 통계
- 수집된 자료를 정리, 요약하여 수치, 표, 그래포로 자료의 특징을 파악
- eg. 평균 키?
주요약방법 | 자료정리 | 그래프 | |
---|---|---|---|
질적자료 | 도표 | 도수분포표 | 막대도표(도수) |
그래프 | 분활표 | 막대도표(%) | |
원도표 | |||
연속자료 | 수치 | 산술평균 | 히스토그램 |
그래프 | 중앙값 | 상자도표 | |
조화평균 | 시계열도표 | ||
산점도 |
1. 수치로 기술
1.1 질적 자료
- 없음
1.2 연속 자료
중심위치와 산포 경향으로 표현
- 중심 위치(대표값) : 산술평균, 중앙값, 최빈값, 기하평균, 조화 평균, 가중 평균
- 산포 경향(변동) : 편차, 분차, 표준편차
중심위치
- 산술평균(Mean)
- 조화평균(Harmonic Mean)
- 속도등과 같이 여러 단위가 결합되어 있을 때 계산
- eg. 서울과 부산(400km)를 왕복하는데, 가는데 시속 400km/h로 오는데 시속 100km/h로 왔다면 왕복 평균 시속은
$$ \overline x_H = \frac{2A}{\frac{A}{400}+\frac{A}{100}} = \frac{800}{\frac{400}{400}+\frac{400}{100}} = \frac{800}{5} = 160km/h
$$
- 가중 평균(Weighted Mean)
수강생 | 반평균 | |
---|---|---|
A | 40 | 78 |
B | 50 | 73 |
C | 20 | 80 |
$$ X_w = \frac{4075+5073+20*80}{40+50+20}=75
$$
- 기하평균(Geometric Mean)
- 곱의 평태로 변화 하는 자료
- 비율의 평균 계산에 많이 사용
- eg. 연평균 증가율, 물가 상승률, 인구 변동률
년도 | 연봉 |
---|---|
2010 | 250 |
2011 | 3,200 |
2012 | 3,700 |
2013 | 4,500 |
2014 | 4,800 |
$$ G = \sqrt[5]{250+3,200+3,700+4,500+4,800} = 2,297
$$
절단 평균 (Trimmed Mean)
- 최대, 최소값 중 K개를 제외한 평균
- 극단치를 빼고 계산
중앙값(Median) : 자료를 크기순으로 나열할때 가장 가운데 오는 값
최빈값(Mode)
산포 경향
- 표준편차
- 자료의 분포와 변동에 대한 중용한 정보를 제공
- 자료의 이상치 점검
- 가설 검정과 연결
[참고] 변이계수(Coefficient of Variation)
- 특정 단위가 다르거나 자료값의 차이가 큰 경우
- $$CV = 100 * \frac{s}{\overline x}$$
- eg. 어린아이와 어른의 몸무게 분포 비교
[참고] 체리세프의 정리
- $$ \mu \pm k\sigma, 100 \left(1-\begin{array}{c}1\ k^2\end{array}\right) $$
[참고] Empirical Rule(경험적 법칙)
- k=1, 68.26% 이상의 데이터가 $$ \mu \pm 1\sigma $$ 안에 있음
- k=2, 95.44% 이상의 데이터가 $$ \mu \pm 2\sigma $$ 안에 있음
- k=3, 99.73% 이상의 데이터가 $$ \mu \pm 3\sigma $$ 안에 있음
2. 표로 기술
2.1 질적 자료
- 도수분포표 : 빈도, %로 표시
- 분할표 : 질적변수가 2개 일때
2.2 연속 자료
- 없음
3. 그래프로 기술
3.1 질적 자료
- 막대도표
- 원도표
3.2 연속 자료
- 히스토 그램
- 상자도표
- 시계열도표
- 산점도
자유도
- 표본크기 $$n$$에서 데이터로부터 추정하고자 하는 모수 $$p$$의 수를 뺀것
- 평균을 추정할때는 $$n-1$$의 자유도를 가지게 된다.
- eg. 5개의 박스에 값을 넣어 평균이 4가 되게 할때, 1~4개의 박스는 아무 값을 넣어도 되지만 마지막 박스는 고정된 값이 된다.
- 따라서, 이때의
자유도는 4
이다.
모집단의 분산 & 표본의 분산
$$ 모집단의 분산 = \sigma^2 = \frac{\sum(y-\overline y)^2}{n}
$$
$$ 표본의 분산 = s^2 = \frac{\sum(y-\overline y)^2}{n-1}
$$
표본은 모집단이 아니므로 마지막 값을 자유롭게 뽑을수 없음($$n-1$$)
분산
$$ 분산 = s^2 = \frac{제곱합}{자유도} = \frac{\sum(y-\overline y)^2}{n-1}
$$
- 두 데이터의 분산이 같다면(등분산)면 통계 분석(=평균 비교)의 중요한 가정을 만족한것
분산이 다르면 평균 비교를 해서는 안된다.
분산의 사용 분야
1. 비신뢰도(unreliability)의 측정
- 비신뢰도의 측정치 = 표준오차
$$ 비신뢰도 \propto \sqrt{\frac{s^2}{n}}
$$
$$\propto$$ : 비례
$$s^2$$: 분산이 커질수록 비신뢰도는 증가 -분자에 위치
$$n$$ :표본크기가 커질수록 비신뢰도는 감소 - 분모에 위치
$$\sqrt{}$$ : 모수의 차원과 같은 차원을 가진 비신뢰도 측정치를 위해
- 신뢰구간 = 표본 추출이 반목해서 이뤄졌을때 평균이 놓일 수 있는 범위
- 비신뢰도가 크면 신뢰구간도 넓어짐
$$ 신뢰구간 \propto 비신뢰도 측정치 \propto \sqrt{\frac{s^2}{n}}
$$
신뢰구간 공식에서 비례($$\propto$$)의 표현을 등호(=) 바꾸려면
분포
를 적용 하면 된다.신뢰구간을 계산하는 또 다른 방법은
부트스트랩
이 있다.
평균 & 표준편차 & 분산
- 데이터는 오차(=치우침)를 관리하고 예측 하는것이 주요
- 통계 = 오차를 분석하고 관리 하는 학문
- 치우침을 표현하는 대표적 척도가
표준편차
(SD2)와분산
이다. - 얼마나 치우쳤는지 비교 하기 위해 기준점 필요
- 기준점으로 최빈값, 중앙값, 평균 사용
표준편차 & 분산은 치우침, 평균은 그 기준점
- 평균값으로 중심 경향성을 표현하고, 분산으로 얼마나 다양히 퍼져 있는지 표현
표준편차가 있는데 분산을 사용하는 이유 = 음수(-)값으로 인한 상쇄방지
$$ 표준편차= \sqrt{분산}
$$
평균 | 표준편차 | 분산 | |
---|---|---|---|
모집단 | $$ \mu $$ | $$ \sigma $$ | $$ \sigma^2$$ |
표본 | $$\overline y $$ | $$ S $$ | $$ S^2$$ |
중심 경향값의 종류 (중심 경향 척도)
산술 평균 (Mean, $$\overline Y$$) : 전체 사례의 값을 더한 후 총 사례수로 나눈값
가중 평균 (Weighted mean)
중앙값 (Median, $$ M_e $$) " 가장 작은 수 부터 가장 큰 수까지 크기순으로 배열했을때 중앙에 위치하는 사례의 값
최빈값 (Mode, ??) : 가장 많은 도수를 같는 점수
중심 경향값으로 살펴본 분포
- 정규 분포 평균, 중앙값, 최빈값이 일치하며 좌우 대칭이 되는 평태의 분포
평균 | 표현 | 계산법 | 설명 | 특징 | R함수 |
---|---|---|---|---|---|
산술평균 | $$ \overline{y} $$ (bar) | $$ \overline{y} = \frac{\sum y}{n} $$ | 데이터를 모두 더한($$\sum y$$) 다음 데이터 수($$n$$)로 나눔 | 이상치 영향을 받음->중앙값으로 해결 | mean() |
기하평균 | $$ \hat{y} $$ (hat) | $$\hat{y} = \sqrt[n]{\prod y}$$ | 데이터를 모든 곱한 값의 $$n$$제곱근 | 로그(Logarithms)를 이용해 구할수도 있음 | |
조화평균 | $$ \tilde{y} $$ | $$\tilde{y} = \frac{1}{\frac{\sum\frac{1}{y}}{n}} = \frac{n}{\sum\frac{1}{y}}$$ |
$$\sum y$$ : 모든것을 더하다(SIGMA)
$$\prod y$$ : 모든것을 곱한다(pi)
$$ \tilde{y} $$ : (curl)
- 곱의 형식으로 변화 하는 데이터를 다룰때는 원래의 데이터에 로그를 적용해 그래프를 그려 봐야 한다.
- 로그의 영향을 제거하기 위해 antilog(exp)를 적용한다.
- 기하 평균 = exp(mean(log(데이터))) = 데이터에 로그를 적용하고 산술평균을 구한후 이에 대한 antilog를 계산
산술 평균 (AM, $$ \overline{y} $$ )
- 두 수를 더해서 둘로 나누는것
- 두 수는 물리량을 의미 해야 한다.
- 물리량은 무게, 길이 등 양적으로 측정되어 사칙 연산이 가능해야함
- 산술평균으로
배수/비율
값에 대한 계산은다 맞지 않는다.