mmings_pring_day

[wiset- 데이터 시각화 구현 프로그래밍] 데이터 시각화하기 본문

데이터 분석 강의/wiset

[wiset- 데이터 시각화 구현 프로그래밍] 데이터 시각화하기

mming_10 2024. 7. 17. 15:05

전문 연구 분야로서의 데이터 시각화

  • 1990년대 이후

 

'데이터 시각화'의 역할

  • 데이터의 특성을 쉽고 빠르게 알 수 있도록 도와줌
  • 데이터에 감춰진 의미를 논리성과 심미성의 균형을 이루며 보여줌

 

데이터 시각화 개념

 

1. 데이터 시각화란?

(데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하는 것)

*시각화를 위해서는 데이터의 의미를 정확하게 표현하는 '기능적인 측면'과 사람이 쉽게 인지하고 직관적으로 이해할 수 있는 '심미적인 측면'을 모두 고려해야 함*

 

 

2. 데이터 시각화 시 고민해 봐야할 사항들 (4W)

  • 왜 시각화하는지? (WHY)

= 시각화를 해야 하는 목적

  • 누가 볼 것인지? (WHO)

= 누구를 대상으로 하는지 

  • 어떤 데이터를 사용하는지? (WHAT)

= 사용되는 데이터에 따라 여러 종류의 시각화 방법이 달라짐

  • 어떤 흐름과 어떤 방법으로 제공할 것인지? (HOW)

= 주장하고자 하는 바에 맞는 효과적인 방법과 흐름


시각화를 위한 데이터

 

1. 데이터의 유형

 

2. 데이터 시각화 방법 및 도구

 

1) 시간 시각화 정의

= 시간에 따른 데이터의 변화 표현

= 일정 기간에 걸쳐 진행되는 변화와 트렌드 추적에 용이

= 시간 데이터

 

2-1) 시간 시각화 방법 -> 막대 그래프

= 데이터 값을 길이로 표현한 막대를 배치함으로써 상대적인 차이를 표현

= 막대의 길이로 정량값을 나타낼 수 있음 (데이터 간 차이 더욱 명확)

= 범주화된 정성적, 정량적 변수를 제시하는 데에 이상적

막대그래프 (막대그래프/ 누적 막대그래프/ 묶은 막대그래프)

 

2-2) 시간 시각화 방법 -> 점 그래프

= 면적을 표시할 필요가 없기 때문에 더 적은 공간에 그릴 수 있음

= 한 점에서 다음 점에서 변하는 점의 집중 정도와 배치에 따라 흐름을 파악하기 쉬움

= 일반적으로 두 변수의 연관 관계를 부여해 줄 때 많이 사용

 

2-3) 시간 시각화 방법 -> 꺾은선 그래프

= 점그래프에서 점과 점 사이를 선으로 연결한 그래프

= 데이터의 연속된 특성을 표현

= 가로축의 길이를 너무 길게 하면 변화의 패턴이 잘 나타나지 않음

= 세로축이 0부터 시작하지 않는 경우, 데이터 값들의 차이를 더 잘 나타낼 수 있음 (해석의 부작용_오해을 일으킬 수 있음)

 

 

2-4) 시간 시각화 방법 -> 계단 그래프

= 변화가 생길 때까지 일정한 선을 유지하다가 다음 값으로 바뀌는 지점에서 급격하게 변화하는 것을 표현

  (데이터의 연소된 변화를 표현하기에 적합)

= 특정 시점에서의 변화를 표현하는 데에는 계단 그래프가 유리

= 연도별 법인세율 변화, 연도별 최저임금 변화 등에 이용

 

2-5) 시간 시각화 방법 -> 추세선

= 데이터 값의 즉각적인 변화보다는 경향성을 보여줌

= 추세선의 데이터에 대해 다양한 함수를 적용해서 구할 수 있음

= 지수형, 로그형, 선형, 이동평균형 등이 있음

 


2-6) 시간 시각화 방법 -> 분포 시각화

= 데이터의 분포를 시각적으로 표현하는 기법 (최대, 최소, 전체 분포 표현)

= 특정 변수의 값들이 어떻게 분포되어 있는지를 파악하기 위해 사용

= 비율로 영역을 표현하는 경우, 각 영역을 모두 합치면 1 또는 100% 가 되는 특징을 가짐

= 전체의 관점에서 각 부분이 차지하는 정보를 히스토그램, 파이 차트, 도넛 차트, 누적 막대그래프, 트리맵 등으로 시각화

  • 히스토그램

= 세로축은 데이터 분포 정도를 표현, 가로축은 특정 변수의 구간 폭을 의미

= (도수분포) 데이터셋 안에서 특정 변수의 값이 어떻게 분포되어 있는지를 파악해야 하는 경우 주로 사용

= 적절한 구간 폭 선택, 막대가 동일한 폭을 갖도록 설정해야 정확하게 표현됨

- (구간 폭을 좁게 -> 데이터 분포 차이를 잘 표현하지만, 전체적인 흐름 파악은 어려움)

- (구간 폭을 넓게 -> 데이터 분포의 급격한 분포를 표현하기가 어려움)

  • 원그래프 (파이 차트)

= 데이터의 비율에 따라 조각으로 나누어서 데이터의 분포를 표현 (비율이 중요한 경우에 사용!)

= 데이터가 전체에서 차지하는 비율 (백분율)이 중요할 경우 사용

= 각 요소의 비율을 한 눈에 제시 (데이터의 값을 정확하게 표현하기 어려움)

= 여러 분류에 대한 값을 표현하기 위해서는 각각의 차트가 필요

  • 도넛 차트

= 막대그래프를 누적하고 도넛 모양으로 만든 형태

= 면적이 아닌 길이로 데이터 값의 정도를 표현

= 같은 성격의 데이터인 경우 여러 개의 차트를 겹쳐서 보여줄 수 있음

= (중첩 도넛) 도넛 차트 여러 개를 겹쳐서 표현, 여러 분류에 대한 값을 하나의 차트로 표현 가능

  • 트리맵

= 하나의 사각형 영역에 세부 사각형들의 크기로 데이터의 분포를 시각화

= 하나의 대분류에 속한 세부 분류 데이터들의 분포를 영역의 크기를 이용하여 제시

= 계층형/ 트리 구조를 가진 데이터를 표현하는 데 유용

  • 누적 연속 그래프 (누적 영역 차트)

= 시간 변화에 따른 값의 변화를 선 그래프의 영역으로 표현

= 가로축은 시간, 세로축은 데이터 값

= 시간에 따라 변화하는 값의 흐름을 더 잘 보여줌

= 세로 영역의 한 단면만 보여주면 그 시점의 분포를 볼 수 있음

= (누적 영역 차트) 값의 분포를 표현하는 데 적합, 한 집단의 경향성 제시가 어려움

 

3) 관계 시각화

- 관계 시각화의 정의

= 데이터 사이의 관계를 시각적으로 표현

= 데이터셋에 변수가 2개 이상이 있을 때, 이 변수들의 상관관계를 표현

(편의점에서 우유와 빵의 판매량 사이의 관계를 표현, 키와 몸무게 사이의 관계를 표현)

= 관계 시각화를 위한 대표적인 도구: 산접도, 버블차트, 히트맵 등

 

3-1) 관계 시각화- 산점도 (스캐터플롯: Scatter Plot) -> 둘 또는 세 가지의 양적 변수에 사용 가능

= 두 변수의 값을 2차원 (또는 3차원) 좌표계를 활용하여 점으로 표시한 것

= 포인트가 많을 때 유용

= 점들의 분포에 따라 집중도 (강도, 영향력)를 확인, 추세선 추가 가능

= 하나의 산점도에 다양한 데이터의 특징 표현 가능 (점의 크기, 형태, 색상 등)

= 군집이나 패턴, 관계를 나타낸 데이터를 제시할 경우 유용

 

3-1) 관계 시각화- 버블 차트 

= x, y 값의 위치를 표시하는 산점도에, 점의 위치에 해당하는 제 3의 변수값을 원의 크기로 표현

= 원(버블)은 면적으로 표현되어야 하며, 반지름이나 지름으로 표현되면 실제 값보다 너무 크게 원이 그려질 수 있어서 주의해야 함

= 도시별 인구밀집도, 도시별 우유 판매량 등 국가나 지역에 따른 값의 분포를 표현하는 데 매우 유용


3-1) 관계 시각화-히트맵 

= 데이터 분포와 관계에 대한 정보를 색 (Heat)으로 표현

= 데이터를 식별하기 위해 각각의 칸마다 색 (Heat)으로 수치의 정도를 표현

= (비교 시각화 도구) 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있어 유용함

= (표 작성 -> 표 값의 높고 낮은 관계를 표현) 한 눈에 파악 가능

 

4) 비교 시각화의 정의

= 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현

= 하나 또는 그 이상의 그래프를 통하여 전체를 비교 분석 가능

(자동차를 구매할 떄 제조사나 모델에 따라 크기, 엔진출력, 색상, 가격, 편의성 등 여러 가지 변수를 비교하는 경우/

컴퓨터를 구매할 때, 노트북, 데스크탑, 태블릿 등의 유형에 따라 CPU 성능, 메모리 용량, 화면 크기 등 여러 변수를 비교하는 경우)

 

4-1) 비교 시각화- 히트맵 

= 데이터 분포와 관계에 대한 정보를 색 (Heat)으로 표현

= 데이터를 식별하기 위해 각각의 칸마다 색 (Heat)으로 수치의 정도를 표현

= (비교 시각화 도구) 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있어 유용함

 

4-1) 비교 시각화- 체르노프페이스 (Chernoff Faces)

=  실생활에서 사람의 얼굴을 쉽게 구분한다는 점에 착안하여, 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법으로 사람의 얼굴 모양에서 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법

 

 

4-1) 비교 시각화- 스타차트 (Star Chart)

=  하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고, 축에 표시된 해당 변수의 값들을 연결하여 별 모양 (또는 거미줄 모양)으로 표현

= 변수마다 시작점 (중점)은 최소값을, 끝점은 최대값을 표시

= 여러 변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는 데 적합

= 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현

 

4-1) 비교 시각화- 평형좌표계

=  스타차트의 여러 축을 평행 배치, 축의 윗부분을 최대값, 아랫부분을 최소값으로 하여 값들을 선으로 연결해서 표현

= 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려짐

 

5) 공간 시각화의 정의

= 장소나 지역에 따른 데이터의 분포를 표현

= 실제 지도나 지도 모양의 다이어그램을 배경으로 데이터의 위치를 시각화

(생태조사 데이터는 특정 식물이나 동물이 서식하는 장소가 나열되어 있다./

인구분포 데이터는 시,군,구에 따른 인구 집중도를 시각적으로 보여줄 수 있다.)

= 위치와 거리 또는 색상을 이용하여 정보를 표현 (정확한 투영_Projection 이 필요)

(1) 지형코드화_Geocoding: 레스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 처리과정으로 지동상의 위치 (위도와 경도) 표현

(2) 매핑_Mapping: 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시

 

 

5-1) 공간 시각화- 단계 구분도

= 여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도

= 색으로 밀도를 표현할 때 가장 효과적

= 보통 밀도가 높은 영역을 진하게 표현하고 밀도가 낮은 영역을 연하게 표현

 

5-1) 공간 시각화- 카토그램

= 데이터 값의 변화에 따라 지도의 면적을 인위적으로 왜곡 (확대 또는 축소)하여 데이터 값에 대한 직관적인 이해가 가능하도록 한 다이어그램

= 단계구분도가 지도상의 데이터 값을 정확하게 표현

= (주의) 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡 발생

 


데이터 시각화 개요

3. 데이터 시각화 절차

1. [데이터 파악] = 데이터 수집 범위와 방법, 유형 파악

2, [목표 설정] = 제공 대상/ 무엇을 알리고 싶은가?

3. [도구 선정] = 효과적 시각화 방법 선정/ 시각화 도구 선정

4. [시각화 S/W 선정] = 선정한 시각화 도구에 강점을 가진 S/W 선정

5. [스토리텔링] = 의미 전달을 위한 스토리텔링 구성

 

 

4. 주요 용어

- 탐색적 자료분석= 주어진 자료에 대해 다양한 탐색 기법을 이용해 자료에 대한 충분한 이해를 하는 방법, 데이터셋에 대한 주요 특징을 주로 시각적 방법을 이용해 분석함

- 차트= 개별적인 데이터를 표현하는 방식으로 원그래프, 막대그래프, 선 그래프, 면적그래프 등 데이터의 특성에 따라 다른 종류의 차트를 선택할 수 있음

- 데이터셋= 데이터 시각화의 기초가 되는 데이터의 집합

- 축= 데이터가 표시될 위치에 대한 기준선으로 2차원 그래프는 2개, 3차원 그래프는 3개의 축으로 구성됨

- 스케일= 그래프에 표현되는 데이터 값의 범위를 말하며, 각각의 축에 일정한 간격을 가지고 표시됨

- 범례 (계열) = 차트에 표현되고 있는 기호나 선 등이 어떤 의미인지 설명하는 역할을 함

- 이상치= 데이터의 정상분포를 벗어나는 데이터로, 데이터 시각화를 통해 이상치를 효율적으로 발견할 수 있음