시각화 | 시각기호 | 기호의 시각변수(위치1) | 기호 시각변수(위치2) | 기호 시각변수(크기1) | 기호 시각변수(크기2) | 장식 시각변수(색) | 장식 시각변수(명도) | 장식 시각변수(텍스쳐/모양) | 비고 |
---|---|---|---|---|---|---|---|---|---|
막대그래프 | 선 | x축(명의척도이상) | 높이(순서척도이상) | ○(명의척도) | ○(명의척도) | ○(명의척도) | 색.명도.텍스처는 병용하면 혼돈하기 쉬우므로 한쪽만 쓰길 추천한다 | ||
누적그래프 | 선 | x축(명의척도이상) | 높이(순서척도이상) | ○(명의척도) | ○(명의척도) | ○(명의척도) | 색.명도.텍스처는 병용하면 혼돈하기 쉬우므로 한쪽만 쓰길 추천한다. 선의 길이는 전체에 대해 정규화된 비율인 경우와 절대량인 경우 두 가지가 있다. | ||
히스토그램 | 면 | x축(간격척도) | 높이(비례척도) | 너비(간격척도이상) | X | X | X | 너비와 높이 두개가 계급(구간)과 도수 | |
퍼널그래프 | 선 | x축(순서척도이상) | 높이(간격척도이상) | Δ(순서척도이상) | ◎(순서척도이상) | Δ(순서척도이상) | 선서성을 명확하게 갖는 기삭변수로서 명도를 권장한다. | ||
꺽은선그래프 | 점 | x축(간격척도이상) | y축(간격척도이상) | ○(명의척도) | ○(명의척도) | X | 일련의 계열임을 명시적으로 하기위해 점을 선분으로 연결한다. | ||
평행형차트 | 점 | x측(명의척도) | y축(간격척도이상) | ○(명의척도) | ○(명의척도) | X | 동일 데이터임을 표현하고자 점을 선분으로 연결한다. 유사도나 다른 간격척도 이상의 데이터 변수를 색과 명도에 이용함으로써 카테고리등의 특성을 발견하는데에 도음이 된다. | ||
면그래프 | 면 | x축(간격척도이상) | 높이(간격척도이상) | ○(명의척도) | ○(명의척도) | Δ(명의척도) | 누적막대그래프를 일련의 데이터에 대응시킨 것, 면적이 의미를 가진다. Y축의 위치값은 간격척도 이상이 되지만 실제로 계열에는 순서성을 가지게 하여 그떄까지의 높이의 총합이 되므로 계열의 순서에 의존한다 | ||
원그래프,도넛그래프 | 원호 | 편각(간격척도이상) | ○(명의척도) | ○(명의척도) | Δ(명의척도) | 정규화되어 비율을 각도로 표현한다. 맨드라미 그래프의 경우는 반지름에도 값을 이용할 수 있다. | |||
맨드라미차트 | 원호 | 편각(간격척도이상) | 반지름(비례척도이상) | ○(명의척도) | ○(명의척도) | Δ(명의척도) | 정규화되어 비율을 각도로 표현한다. 맨드라미 그래프의 경우는 반지름에도 값을 이용할 수 있다. | ||
상자수염그림 | 선,점x3 | x축(명의척도이상) | y축(간격척도이상) | 높이(간격척도이상) | 최대/최소(간격척도 이상) | ○(명의척도) | 상자라고 하지만 너비에 의미는 없고 상자의 높이(=길이)와 가각의 위치에 의미가 있다. 중앙값 최댓값 최솟값 등 다섯개의 같은 단위를 가진 값을 표현할 수 있다. | ||
산포도 | 점 | x축(순서척도이상 | y축(순서척도이상) | ○(명의척도이상) | ○(명의척도이상) | ○(명의척도) | 색에 순서척도 이상의 데이터 변수를 할당할 때는 더 선택성이 높은 네모나 원, 삼각, 십자 등의 형상으로 적용시키면 좋다. 컬러바를 명시하면 색도 정량성과 순서성을 모두 충분히 발휘할 수 있다. | ||
버블차트 | 원 | x축(순서척도이상 | y축(순서척도이상) | 반지름(비례척도) | ○(명의척도이상) | ○(명의척도이상) | 면적과 값을 대응시키기 위해 반지름은 값의 제곱근으로 한다. | ||
히트맵 | 점 | x축(순서척도이상 | y축(순서척도이상) | ○(간격척도이상) | ○(간격척도이상) | 색과 명도를 사용하면 혼란이 생기기 쉽다. 컬러바를 준비함으로써 색단독으로도 순서성을 발휘 한다. | |||
컬러테이블 | 점 | x축(순서척도이상 | y축(순서척도이상) | ○(간격척도이상) | ○(간격척도이상) | 색과 명도를 사용하면 혼란이 생기기 쉽다. 컬러바를 준비함으로써 색단독으로도 순서성을 발휘 한다. | |||
트리맵 | 선 | x축(명의척도이상) | y축(순서척도이상) | 면적(비례척도) | ○(명의척도이상) | ○(명의척도이상) | ○(명의척도) | 크기에 더해 위치 관계와 중첩 관계로 데이터 간의 관계성을 표현. 실제로는 면적과 데이터 변수가 대응하면 되고, 높이나 폭은 나머지 데이터와의 관계로 정해진다. | |
파티션다이어그램 | 선 | x축(명의척도이상) | y축(순서척도) | 폭/편각(비례척도) | ○(명의척도이상) | ○(명의척도이상) | ○(명의척도) | 중첩 관계로 데이터 간의 관계성을 표현하고, 높이(극좌표에서는 편각)에 따라 데이터 변수를 표현한다. 계층의 깊이에 따로 y축 위치가 결정된다. | |
샨키 차트 | 점 or 면 | x축(명의척도이상) | y축(순서척도) | 반지름/높이(비례척도) | 폭(비례척도) | ○(명의척도이상) | ○(명의척도이상) | ○(명의척도) | 데이터 변수를 여러 개 실을 수 있다. 그 수에 따라 시각 기호는 점.선.면 중 하나를 취한다. 중첩 관계로 데이터 간의 관계성을 표현, 계층의 깊이에 따라서 y축의 위치가 정해 진다 |
역학 그래프 | 점 or 선 | "위치(명의척도)※하나 이상의 위치" | 노트반경/높이(비례척도) | 노드 폭(비례척도) | ○(명의척도이상) | ○(명의척도이상) | ○(명의척도) | 점 또는 면의 크기에 어떤 값을 싣기도 하지만, 그렇지 않을 때도 있다. 값이 없는 선으로 연결하기도 하지만, 관계의 강도 크기 등을 선의 굵기로 표현할 수도 있다. | |
역학 그래프 | 선 or 면 | 링크길이/높이(비례척도) | 링크 폭(비례척도) | ○(명의척도이상) | ○(명의척도이상) |
> 일단 전체를 한장에 작성
[content]
파이차트
목표
- 전체와 부분을 비교
- (=도넛, 분할막대, 트리맵)
특징
- 전체를 백분율 또는 분수로 나누어 표시
- 각 부분을 모두 더하면 100%
구성
- 독립변수(범주형) : 측정하고 하는 대상, 파이조각으로 표현 -> 회사명
- 종속변수(정량형) : 파이조각 크기로 표현 -> 시장 점유율
표기
- 레이블과 퍼센테이지 값을 표기 하는것 추천
기타
- 파이차트는 분할 막대 차트로 대체 표현 가능(누적 퍼센테이지 표현)
- 분류가 많을경우 수평 막대차트 사용 추천
도넛차트
목표
- 전체와 부분을 비교 (=도넛, 분할막대, 트리맵)
특징
- 전체를 백분율 또는 분수로 나누어 표시
- 각 부분을 모두 더하면 100%
구성
- 독립변수(범주형) : 측정하고 하는 대상, 세그먼트 표현 -> 회사명
- 종속변수(정량형) : 세그먼트 크기로 표현 -> 시장 점유율
표기
- 도넛 가운데 구명은 절대적 총량을 기술 하는데 사용된다
- 레이블과 퍼센테이지 값을 표기 하는것 추천
기타
- 도넛차트에 비하여 표현양이 적다 (각도 정보 알기 어려움)
수직막대차트(=칼럼차트)
목표
- 절대치를 나타내는 여러 항목 비교, 우선순위
- (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)
특징
- 기준선은 항상 0 이어야 한다
- 높이만으로 값 표현(넓이는 동일 해야함)
구성
- 독립변수(범주형 or 순위형) : x측
- 종속변수(정량형) : y측
표기
- 막대 위에 값을 표기 하면 y축 척도는 없어도 된다
기타
- 막대사이의 간격은 막대 넓이의 50%가 적당
- X측이 시간대를 표현 한다면 선차트가 적당 할수 있다.
히스토그램
목표
- 각 구간에서 발생 하는 빈도 표현 (=스텝 차트)
특징
- 높이와 넓이로 값을 표현한다 (넓이 x 높이 = 빈도)
- 빈이라는 구간에 따라 나뉜 연속 변수의 분포를 표현
- 히스토 그램의 총 면적은 1이다
구성
표기
- 막대는 떨어져 있지 않고 붙어 있다.
기타
히스토램을 이용하여 얻을수 있는 정보는 아래와 같다.
중심성향(Central Tendency) : 데이터가 평균값을 중심으로 분포 되어 있는가?
Modes : 데이터 분포상 하나 이상의 무리가 있는가?
Spread : 데이터가 어느 정도로 분산되어 있는가?
Tail : 하위 25%와 상위 25% 데이터 분포의 기울기 하락도가 완만한가 아니면 급한가?
이상치 : 예외값이 분포도에 존재하는가?
줄기잎그림
목표
- 어떻게 범위를 비교할 것인가
특징
구성
- 줄기 : 제시된 값들의 맨 앞자리
- 잎 : 주어진 값들의 준번쨰 자리 숫자
기타
수평 막대차트
목표
- 절대치를 나타내는 여러 항목 비교, 우선순위
- (=수평 막대차트, 스텝차트, 버블차트, 그림표)
특징
- 길이만으로 값 표현(넓이는 동일 해야함)
구성
- 독립변수(범주형 or 순위형) : y측
- 종속변수(정량형) : x측
표기
기타
- 막대사이의 간격은 막대 넓이의 50%가 적당
분할 막대차트
목표
- 전체와 부분을 비교 (=도넛, 분할막대, 트리맵)
특징
- 막대는 %영역 의미
- 막대의 높이는 언제나 100% 의미
구성
- 독립변수(범주형 or 순위형) : y측
- 종속변수(정량형) : y측, 막대의 높이
표기
기타
- 파이차트와 달리 누적 백분율을 표현 할수 있음 -> 이경우 누적 %는 좌측에 표시
누적 막대차트
목표
- 절대 수량의 합계를 보여 주는 차트(=레이터차트)
특징
구성
- 독립변수(범주형 or 순위형) : y측, 분할막대로 표현
- 종속변수(정량형) : y측, 분할 막대의 높이로 표현
표기
- 레이블은 막대의 우측에 표기
- 누적값은 막대의 촤측에 표기
기타
- 레이어 차트는 누적 막대 차트와 동일한 유형의 정보 표현 + 시간의 흐름 추가 표현
스텝차트
목표
- 절대 수량의 범위를 보여 주는 차트 (=수직 막대차트, 수평 막대차트)
특징
- 수평거리나 수직선이 없는 수직 막대차트
- 상대적으로 변동이 거의 없는 정략적 변수 시각화
구성
- 독립변수 : 1~5년등의 동일한 기간 범위
표기
- 너비는 동일하다
기타
- 스텝이 너무 많으면 선차트 활용 추천
버블 차트(=디스크차트)
목표
- 항목들의 절대 수량을 비교 (=수직/수평 막대 차트, 스텝차트, 그림표, 열지도)
특징
- 막대 차트와 동일한 용도로 사용
구성
- 독립변수(범주형 or 순위형) : 버블
- 종속변수(정량형) : 버블의 면적
표기
- 면적을 한번에 알기가 어려우므로 숫자를 같이 표기
기타
- X측, y측, 반지름 이라는 세가지 수치 데이터 표현
선차트
목표
- 연속적 변수(=시간)에 따른 항목들 변화
- (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)
특징
구성
- 독립변수 : x축
- 종속변수 : y축
표기
- 양축에는 척도가 명확하게 숫자로 명시 되어야 함
기타
레이어 차트(=영역차트)
목표
- 시간에 따라 변화 하는 누적 수량 비교 (=누적 막대 차트)
특징
구성
- 독립변수 : 시간
- 종속변수: 누적 수량
표기
- 레이어 순서가 없다면, 가장 변동폭이 작은 레이어를 가장 밑에 오는것 추천
기타
- 개별 선차트로 분리 가능
레이더 차트(=거미줄/별모양 차트)
목표
- 한 요소에 따라 항목들이 어떻게 변하며, 비교 할것인가
특징
- 막대차트와 동일한 종류의 데이터 처리
구성
- 독립변수(범주형) : 반지름(바퀴살) , eg.기간, 범주
- 종속변수(정량형) : 바퀴살을 따라 표현된 값, eg. 점유율
표기
기타
산점도 (=산포도, 점도표)
목표
- 두 정량형 변수들의 상관 관계
- (=수평 막대차트, 스텝차트, 버블차트, 그림표, 열지도)
특징
- 좌측 하단에서 우측 상단 패턴 = 양의 상관관계
- 좌측 상단에서 우측 하단 패턴 = 음의 상관 관계
- 전체적으로 분포 = 관계 없음
구성
표기
기타
- 산포도는 두 데이터의 관계성을 파악시 사용
- 산포도 행렬(산포도 메트릭스 집합)은 여러 변수의 관계성 시각화
경사도
목표
- 정해진 기간 동안 정략적 변수가 어떻게 변화하는가
특징
구성
표기
기타
열지도
목표
- 항목들이 많을경우 비교 방법
특징
- 숫자 대신 색상으로 표현
구성
표기
기타
상자수염(Box-whisker’s plot)
목표
- 통계 요약 5종(최솟값, 1사분위, 중앙값, 3사분위, 최댓값) 정보 제공
특징
구성
- 이상치 : 양단의 Whisker에 속하지 않은 값으로 일반적인 데이터 값이 아닌 값들이다.
- Whisker : 하단의 whisker는 Q1-1.5IQR, 상단의 Whisker는 Q1+1.5IQR로 계산한값
- Mean : 평균값
- Median : 중간값
- Quartile : 25th 백분위수는 사분위의 Q1이고 75th 백분위수는 Q3이다.
표기
기타
EDA 기초 Step
1 . 분포 파악 하기 -> 히스토그램 이용
- 각 변수의 분포 관찰
각 대상의 분포 비교
세개 이상의 분포 파악 -> 상자 수염 그림 이용
- 복수의 분포에서 중앙값과 차이를 비교
중앙값에서 상한 힌지의 길이로 분포의 편중을 파악(대칭성 검사)
변수의 관게를 시각화 -> 산포도 / 산포도 행결