시각화 시각기호 기호의 시각변수(위치1) 기호 시각변수(위치2) 기호 시각변수(크기1) 기호 시각변수(크기2) 장식 시각변수(색) 장식 시각변수(명도) 장식 시각변수(텍스쳐/모양) 비고
막대그래프 x축(명의척도이상) 높이(순서척도이상) ○(명의척도) ○(명의척도) ○(명의척도) 색.명도.텍스처는 병용하면 혼돈하기 쉬우므로 한쪽만 쓰길 추천한다
누적그래프 x축(명의척도이상) 높이(순서척도이상) ○(명의척도) ○(명의척도) ○(명의척도) 색.명도.텍스처는 병용하면 혼돈하기 쉬우므로 한쪽만 쓰길 추천한다. 선의 길이는 전체에 대해 정규화된 비율인 경우와 절대량인 경우 두 가지가 있다.
히스토그램 x축(간격척도) 높이(비례척도) 너비(간격척도이상) X X X 너비와 높이 두개가 계급(구간)과 도수
퍼널그래프 x축(순서척도이상) 높이(간격척도이상) Δ(순서척도이상) ◎(순서척도이상) Δ(순서척도이상) 선서성을 명확하게 갖는 기삭변수로서 명도를 권장한다.
꺽은선그래프 x축(간격척도이상) y축(간격척도이상) ○(명의척도) ○(명의척도) X 일련의 계열임을 명시적으로 하기위해 점을 선분으로 연결한다.
평행형차트 x측(명의척도) y축(간격척도이상) ○(명의척도) ○(명의척도) X 동일 데이터임을 표현하고자 점을 선분으로 연결한다. 유사도나 다른 간격척도 이상의 데이터 변수를 색과 명도에 이용함으로써 카테고리등의 특성을 발견하는데에 도음이 된다.
면그래프 x축(간격척도이상) 높이(간격척도이상) ○(명의척도) ○(명의척도) Δ(명의척도) 누적막대그래프를 일련의 데이터에 대응시킨 것, 면적이 의미를 가진다. Y축의 위치값은 간격척도 이상이 되지만 실제로 계열에는 순서성을 가지게 하여 그떄까지의 높이의 총합이 되므로 계열의 순서에 의존한다
원그래프,도넛그래프 원호 편각(간격척도이상) ○(명의척도) ○(명의척도) Δ(명의척도) 정규화되어 비율을 각도로 표현한다. 맨드라미 그래프의 경우는 반지름에도 값을 이용할 수 있다.
맨드라미차트 원호 편각(간격척도이상) 반지름(비례척도이상) ○(명의척도) ○(명의척도) Δ(명의척도) 정규화되어 비율을 각도로 표현한다. 맨드라미 그래프의 경우는 반지름에도 값을 이용할 수 있다.
상자수염그림 선,점x3 x축(명의척도이상) y축(간격척도이상) 높이(간격척도이상) 최대/최소(간격척도 이상) ○(명의척도) 상자라고 하지만 너비에 의미는 없고 상자의 높이(=길이)와 가각의 위치에 의미가 있다. 중앙값 최댓값 최솟값 등 다섯개의 같은 단위를 가진 값을 표현할 수 있다.
산포도 x축(순서척도이상 y축(순서척도이상) ○(명의척도이상) ○(명의척도이상) ○(명의척도) 색에 순서척도 이상의 데이터 변수를 할당할 때는 더 선택성이 높은 네모나 원, 삼각, 십자 등의 형상으로 적용시키면 좋다. 컬러바를 명시하면 색도 정량성과 순서성을 모두 충분히 발휘할 수 있다.
버블차트 x축(순서척도이상 y축(순서척도이상) 반지름(비례척도) ○(명의척도이상) ○(명의척도이상) 면적과 값을 대응시키기 위해 반지름은 값의 제곱근으로 한다.
히트맵 x축(순서척도이상 y축(순서척도이상) ○(간격척도이상) ○(간격척도이상) 색과 명도를 사용하면 혼란이 생기기 쉽다. 컬러바를 준비함으로써 색단독으로도 순서성을 발휘 한다.
컬러테이블 x축(순서척도이상 y축(순서척도이상) ○(간격척도이상) ○(간격척도이상) 색과 명도를 사용하면 혼란이 생기기 쉽다. 컬러바를 준비함으로써 색단독으로도 순서성을 발휘 한다.
트리맵 x축(명의척도이상) y축(순서척도이상) 면적(비례척도) ○(명의척도이상) ○(명의척도이상) ○(명의척도) 크기에 더해 위치 관계와 중첩 관계로 데이터 간의 관계성을 표현. 실제로는 면적과 데이터 변수가 대응하면 되고, 높이나 폭은 나머지 데이터와의 관계로 정해진다.
파티션다이어그램 x축(명의척도이상) y축(순서척도) 폭/편각(비례척도) ○(명의척도이상) ○(명의척도이상) ○(명의척도) 중첩 관계로 데이터 간의 관계성을 표현하고, 높이(극좌표에서는 편각)에 따라 데이터 변수를 표현한다. 계층의 깊이에 따로 y축 위치가 결정된다.
샨키 차트 점 or 면 x축(명의척도이상) y축(순서척도) 반지름/높이(비례척도) 폭(비례척도) ○(명의척도이상) ○(명의척도이상) ○(명의척도) 데이터 변수를 여러 개 실을 수 있다. 그 수에 따라 시각 기호는 점.선.면 중 하나를 취한다. 중첩 관계로 데이터 간의 관계성을 표현, 계층의 깊이에 따라서 y축의 위치가 정해 진다
역학 그래프 점 or 선 "위치(명의척도)※하나 이상의 위치" 노트반경/높이(비례척도) 노드 폭(비례척도) ○(명의척도이상) ○(명의척도이상) ○(명의척도) 점 또는 면의 크기에 어떤 값을 싣기도 하지만, 그렇지 않을 때도 있다. 값이 없는 선으로 연결하기도 하지만, 관계의 강도 크기 등을 선의 굵기로 표현할 수도 있다.
역학 그래프 선 or 면 링크길이/높이(비례척도) 링크 폭(비례척도) ○(명의척도이상) ○(명의척도이상)

> 일단 전체를 한장에 작성

[content]

파이차트

목표

  • 전체와 부분을 비교
  • (=도넛, 분할막대, 트리맵)

특징

  • 전체를 백분율 또는 분수로 나누어 표시
  • 각 부분을 모두 더하면 100%

    구성

  • 독립변수(범주형) : 측정하고 하는 대상, 파이조각으로 표현 -> 회사명
  • 종속변수(정량형) : 파이조각 크기로 표현 -> 시장 점유율

표기

  • 레이블과 퍼센테이지 값을 표기 하는것 추천

기타

  • 파이차트는 분할 막대 차트로 대체 표현 가능(누적 퍼센테이지 표현)
  • 분류가 많을경우 수평 막대차트 사용 추천

도넛차트

목표

  • 전체와 부분을 비교 (=도넛, 분할막대, 트리맵)

특징

  • 전체를 백분율 또는 분수로 나누어 표시
  • 각 부분을 모두 더하면 100%

구성

  • 독립변수(범주형) : 측정하고 하는 대상, 세그먼트 표현 -> 회사명
  • 종속변수(정량형) : 세그먼트 크기로 표현 -> 시장 점유율

표기

  • 도넛 가운데 구명은 절대적 총량을 기술 하는데 사용된다
  • 레이블과 퍼센테이지 값을 표기 하는것 추천

기타

  • 도넛차트에 비하여 표현양이 적다 (각도 정보 알기 어려움)

수직막대차트(=칼럼차트)

목표

  • 절대치를 나타내는 여러 항목 비교, 우선순위
  • (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)

특징

  • 기준선은 항상 0 이어야 한다
  • 높이만으로 값 표현(넓이는 동일 해야함)

구성

  • 독립변수(범주형 or 순위형) : x측
  • 종속변수(정량형) : y측

표기

  • 막대 위에 값을 표기 하면 y축 척도는 없어도 된다

기타

  • 막대사이의 간격은 막대 넓이의 50%가 적당
  • X측이 시간대를 표현 한다면 선차트가 적당 할수 있다.

히스토그램

목표

  • 각 구간에서 발생 하는 빈도 표현 (=스텝 차트)

특징

  • 높이와 넓이로 값을 표현한다 (넓이 x 높이 = 빈도)
  • 빈이라는 구간에 따라 나뉜 연속 변수의 분포를 표현
  • 히스토 그램의 총 면적은 1이다

구성

표기

  • 막대는 떨어져 있지 않고 붙어 있다.

기타

히스토램을 이용하여 얻을수 있는 정보는 아래와 같다.

  1. 중심성향(Central Tendency) : 데이터가 평균값을 중심으로 분포 되어 있는가?

  2. Modes : 데이터 분포상 하나 이상의 무리가 있는가?

  3. Spread : 데이터가 어느 정도로 분산되어 있는가?

  4. Tail : 하위 25%와 상위 25% 데이터 분포의 기울기 하락도가 완만한가 아니면 급한가?

  5. 이상치 : 예외값이 분포도에 존재하는가?

줄기잎그림

목표

  • 어떻게 범위를 비교할 것인가

특징

구성

  • 줄기 : 제시된 값들의 맨 앞자리
  • 잎 : 주어진 값들의 준번쨰 자리 숫자

기타

수평 막대차트

목표

  • 절대치를 나타내는 여러 항목 비교, 우선순위
  • (=수평 막대차트, 스텝차트, 버블차트, 그림표)

특징

  • 길이만으로 값 표현(넓이는 동일 해야함)

구성

  • 독립변수(범주형 or 순위형) : y측
  • 종속변수(정량형) : x측

표기

기타

  • 막대사이의 간격은 막대 넓이의 50%가 적당

분할 막대차트

목표

  • 전체와 부분을 비교 (=도넛, 분할막대, 트리맵)

특징

  • 막대는 %영역 의미
  • 막대의 높이는 언제나 100% 의미

구성

  • 독립변수(범주형 or 순위형) : y측
  • 종속변수(정량형) : y측, 막대의 높이

표기

기타

  • 파이차트와 달리 누적 백분율을 표현 할수 있음 -> 이경우 누적 %는 좌측에 표시

누적 막대차트

목표

  • 절대 수량의 합계를 보여 주는 차트(=레이터차트)

특징

구성

  • 독립변수(범주형 or 순위형) : y측, 분할막대로 표현
  • 종속변수(정량형) : y측, 분할 막대의 높이로 표현

표기

  • 레이블은 막대의 우측에 표기
  • 누적값은 막대의 촤측에 표기

기타

  • 레이어 차트는 누적 막대 차트와 동일한 유형의 정보 표현 + 시간의 흐름 추가 표현

스텝차트

목표

  • 절대 수량의 범위를 보여 주는 차트 (=수직 막대차트, 수평 막대차트)

특징

  • 수평거리나 수직선이 없는 수직 막대차트
  • 상대적으로 변동이 거의 없는 정략적 변수 시각화

구성

  • 독립변수 : 1~5년등의 동일한 기간 범위

표기

  • 너비는 동일하다

기타

  • 스텝이 너무 많으면 선차트 활용 추천

버블 차트(=디스크차트)

목표

  • 항목들의 절대 수량을 비교 (=수직/수평 막대 차트, 스텝차트, 그림표, 열지도)

특징

  • 막대 차트와 동일한 용도로 사용

구성

  • 독립변수(범주형 or 순위형) : 버블
  • 종속변수(정량형) : 버블의 면적

표기

  • 면적을 한번에 알기가 어려우므로 숫자를 같이 표기

기타

  • X측, y측, 반지름 이라는 세가지 수치 데이터 표현

선차트

목표

  • 연속적 변수(=시간)에 따른 항목들 변화
  • (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)

특징

구성

  • 독립변수 : x축
  • 종속변수 : y축

표기

  • 양축에는 척도가 명확하게 숫자로 명시 되어야 함

기타

레이어 차트(=영역차트)

목표

  • 시간에 따라 변화 하는 누적 수량 비교 (=누적 막대 차트)

특징

구성

  • 독립변수 : 시간
  • 종속변수: 누적 수량

표기

  • 레이어 순서가 없다면, 가장 변동폭이 작은 레이어를 가장 밑에 오는것 추천

기타

  • 개별 선차트로 분리 가능

레이더 차트(=거미줄/별모양 차트)

목표

  • 한 요소에 따라 항목들이 어떻게 변하며, 비교 할것인가

특징

  • 막대차트와 동일한 종류의 데이터 처리

구성

  • 독립변수(범주형) : 반지름(바퀴살) , eg.기간, 범주
  • 종속변수(정량형) : 바퀴살을 따라 표현된 값, eg. 점유율

표기

기타

산점도 (=산포도, 점도표)

목표

  • 두 정량형 변수들의 상관 관계
  • (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)

특징

  • 좌측 하단에서 우측 상단 패턴 = 양의 상관관계
  • 좌측 상단에서 우측 하단 패턴 = 음의 상관 관계
  • 전체적으로 분포 = 관계 없음

구성

표기

기타

  • 산포도는 두 데이터의 관계성을 파악시 사용
  • 산포도 행렬(산포도 메트릭스 집합)은 여러 변수의 관계성 시각화

경사도

목표

  • 정해진 기간 동안 정략적 변수가 어떻게 변화하는가

특징

구성

표기

기타

열지도

목표

  • 항목들이 많을경우 비교 방법

특징

  • 숫자 대신 색상으로 표현

구성

표기

기타

상자수염(Box-whisker’s plot)

목표

  • 통계 요약 5종(최솟값, 1사분위, 중앙값, 3사분위, 최댓값) 정보 제공

특징

구성

  • 이상치 : 양단의 Whisker에 속하지 않은 값으로 일반적인 데이터 값이 아닌 값들이다.
  • Whisker : 하단의 whisker는 Q1-1.5IQR, 상단의 Whisker는 Q1+1.5IQR로 계산한값
  • Mean : 평균값
  • Median : 중간값
  • Quartile : 25th 백분위수는 사분위의 Q1이고 75th 백분위수는 Q3이다.

표기

기타


EDA 기초 Step

1 . 분포 파악 하기 -> 히스토그램 이용

  • 각 변수의 분포 관찰
  • 각 대상의 분포 비교

  • 세개 이상의 분포 파악 -> 상자 수염 그림 이용

  • 복수의 분포에서 중앙값과 차이를 비교
  • 중앙값에서 상한 힌지의 길이로 분포의 편중을 파악(대칭성 검사)

  • 변수의 관게를 시각화 -> 산포도 / 산포도 행결

results matching ""

    No results matching ""