A. 기술 통계 분석

  • Desccriptive Statistics, 설명(=기술)하기 위한 통계
  • 수집된 자료를 정리, 요약하여 수치, 표, 그래포로 자료의 특징을 파악
  • eg. 평균 키?
주요약방법 자료정리 그래프
질적자료 도표 도수분포표 막대도표(도수)
그래프 분활표 막대도표(%)
원도표
연속자료 수치 산술평균 히스토그램
그래프 중앙값 상자도표
조화평균 시계열도표
산점도

1. 수치로 기술

1.1 질적 자료
  • 없음
1.2 연속 자료

중심위치와 산포 경향으로 표현

  • 중심 위치(대표값) : 산술평균, 중앙값, 최빈값, 기하평균, 조화 평균, 가중 평균
  • 산포 경향(변동) : 편차, 분차, 표준편차
중심위치
  • 산술평균(Mean)
  • 조화평균(Harmonic Mean)
    • 속도등과 같이 여러 단위가 결합되어 있을 때 계산
    • eg. 서울과 부산(400km)를 왕복하는데, 가는데 시속 400km/h로 오는데 시속 100km/h로 왔다면 왕복 평균 시속은

$$ \overline x_H = \frac{2A}{\frac{A}{400}+\frac{A}{100}} = \frac{800}{\frac{400}{400}+\frac{400}{100}} = \frac{800}{5} = 160km/h

$$

  • 가중 평균(Weighted Mean)
수강생 반평균
A 40 78
B 50 73
C 20 80

$$ X_w = \frac{4075+5073+20*80}{40+50+20}=75

$$

  • 기하평균(Geometric Mean)
    • 곱의 평태로 변화 하는 자료
    • 비율의 평균 계산에 많이 사용
    • eg. 연평균 증가율, 물가 상승률, 인구 변동률
년도 연봉
2010 250
2011 3,200
2012 3,700
2013 4,500
2014 4,800

$$ G = \sqrt[5]{250+3,200+3,700+4,500+4,800} = 2,297

$$

  • 절단 평균 (Trimmed Mean)

    • 최대, 최소값 중 K개를 제외한 평균
    • 극단치를 빼고 계산
  • 중앙값(Median) : 자료를 크기순으로 나열할때 가장 가운데 오는 값

  • 최빈값(Mode)

산포 경향
  • 표준편차
    • 자료의 분포와 변동에 대한 중용한 정보를 제공
    • 자료의 이상치 점검
    • 가설 검정과 연결

[참고] 변이계수(Coefficient of Variation)

  • 특정 단위가 다르거나 자료값의 차이가 큰 경우
  • $$CV = 100 * \frac{s}{\overline x}$$
  • eg. 어린아이와 어른의 몸무게 분포 비교

[참고] 체리세프의 정리

  • $$ \mu \pm k\sigma, 100 \left(1-\begin{array}{c}1\ k^2\end{array}\right) $$

[참고] Empirical Rule(경험적 법칙)

  • k=1, 68.26% 이상의 데이터가 $$ \mu \pm 1\sigma $$ 안에 있음
  • k=2, 95.44% 이상의 데이터가 $$ \mu \pm 2\sigma $$ 안에 있음
  • k=3, 99.73% 이상의 데이터가 $$ \mu \pm 3\sigma $$ 안에 있음 Empirical Rule

2. 표로 기술

2.1 질적 자료
  • 도수분포표 : 빈도, %로 표시
  • 분할표 : 질적변수가 2개 일때
2.2 연속 자료
  • 없음

3. 그래프로 기술

3.1 질적 자료
  • 막대도표
  • 원도표
3.2 연속 자료
  • 히스토 그램
  • 상자도표
  • 시계열도표
  • 산점도

자유도

  • 표본크기 $$n$$에서 데이터로부터 추정하고자 하는 모수 $$p$$의 수를 뺀것
  • 평균을 추정할때는 $$n-1$$의 자유도를 가지게 된다.
    • eg. 5개의 박스에 값을 넣어 평균이 4가 되게 할때, 1~4개의 박스는 아무 값을 넣어도 되지만 마지막 박스는 고정된 값이 된다.
    • 따라서, 이때의 자유도는 4이다.

모집단의 분산 & 표본의 분산

$$ 모집단의 분산 = \sigma^2 = \frac{\sum(y-\overline y)^2}{n}

$$

$$ 표본의 분산 = s^2 = \frac{\sum(y-\overline y)^2}{n-1}

$$

표본은 모집단이 아니므로 마지막 값을 자유롭게 뽑을수 없음($$n-1$$)

분산

$$ 분산 = s^2 = \frac{제곱합}{자유도} = \frac{\sum(y-\overline y)^2}{n-1}

$$

  • 두 데이터의 분산이 같다면(등분산)면 통계 분석(=평균 비교)의 중요한 가정을 만족한것

분산이 다르면 평균 비교를 해서는 안된다.

분산의 사용 분야

1. 비신뢰도(unreliability)의 측정

  • 비신뢰도의 측정치 = 표준오차

$$ 비신뢰도 \propto \sqrt{\frac{s^2}{n}}

$$

$$\propto$$ : 비례

$$s^2$$: 분산이 커질수록 비신뢰도는 증가 -분자에 위치

$$n$$ :표본크기가 커질수록 비신뢰도는 감소 - 분모에 위치

$$\sqrt{}$$ : 모수의 차원과 같은 차원을 가진 비신뢰도 측정치를 위해

  • 신뢰구간 = 표본 추출이 반목해서 이뤄졌을때 평균이 놓일 수 있는 범위
  • 비신뢰도가 크면 신뢰구간도 넓어짐

$$ 신뢰구간 \propto 비신뢰도 측정치 \propto \sqrt{\frac{s^2}{n}}

$$

  • 신뢰구간 공식에서 비례($$\propto$$)의 표현을 등호(=) 바꾸려면 분포를 적용 하면 된다.

  • 신뢰구간을 계산하는 또 다른 방법은 부트스트랩이 있다.

평균 & 표준편차 & 분산

  • 데이터는 오차(=치우침)를 관리하고 예측 하는것이 주요
  • 통계 = 오차를 분석하고 관리 하는 학문
  • 치우침을 표현하는 대표적 척도가 표준편차(SD2)와 분산이다.
  • 얼마나 치우쳤는지 비교 하기 위해 기준점 필요
    • 기준점으로 최빈값, 중앙값, 평균 사용

표준편차 & 분산은 치우침, 평균은 그 기준점

  • 평균값으로 중심 경향성을 표현하고, 분산으로 얼마나 다양히 퍼져 있는지 표현

표준편차가 있는데 분산을 사용하는 이유 = 음수(-)값으로 인한 상쇄방지

$$ 표준편차= \sqrt{분산}

$$

평균 표준편차 분산
모집단 $$ \mu $$ $$ \sigma $$ $$ \sigma^2$$
표본 $$\overline y $$ $$ S $$ $$ S^2$$

중심 경향값의 종류 (중심 경향 척도)

  • 산술 평균 (Mean, $$\overline Y$$) : 전체 사례의 값을 더한 후 총 사례수로 나눈값

  • 가중 평균 (Weighted mean)

  • 중앙값 (Median, $$ M_e $$) " 가장 작은 수 부터 가장 큰 수까지 크기순으로 배열했을때 중앙에 위치하는 사례의 값

  • 최빈값 (Mode, ??) : 가장 많은 도수를 같는 점수

중심 경향값으로 살펴본 분포

  • 정규 분포 평균, 중앙값, 최빈값이 일치하며 좌우 대칭이 되는 평태의 분포
평균 표현 계산법 설명 특징 R함수
산술평균 $$ \overline{y} $$ (bar) $$ \overline{y} = \frac{\sum y}{n} $$ 데이터를 모두 더한($$\sum y$$) 다음 데이터 수($$n$$)로 나눔 이상치 영향을 받음->중앙값으로 해결 mean()
기하평균 $$ \hat{y} $$ (hat) $$\hat{y} = \sqrt[n]{\prod y}$$ 데이터를 모든 곱한 값의 $$n$$제곱근 로그(Logarithms)를 이용해 구할수도 있음
조화평균 $$ \tilde{y} $$ $$\tilde{y} = \frac{1}{\frac{\sum\frac{1}{y}}{n}} = \frac{n}{\sum\frac{1}{y}}$$

$$\sum y$$ : 모든것을 더하다(SIGMA)

$$\prod y$$ : 모든것을 곱한다(pi)

$$ \tilde{y} $$ : (curl)

  • 곱의 형식으로 변화 하는 데이터를 다룰때는 원래의 데이터에 로그를 적용해 그래프를 그려 봐야 한다.
  • 로그의 영향을 제거하기 위해 antilog(exp)를 적용한다.
  • 기하 평균 = exp(mean(log(데이터))) = 데이터에 로그를 적용하고 산술평균을 구한후 이에 대한 antilog를 계산

산술 평균 (AM, $$ \overline{y} $$ )

  • 두 수를 더해서 둘로 나누는것
  • 두 수는 물리량을 의미 해야 한다.
    • 물리량은 무게, 길이 등 양적으로 측정되어 사칙 연산이 가능해야함
  • 산술평균으로 배수/비율값에 대한 계산은다 맞지 않는다.

results matching ""

    No results matching ""