본문 바로가기
반응형

데이터과학 기초/R배우기3

ggplot 쉽게 배우기 (3) - 밀도(density) 시각화와 수직선/수평선 밀도(Density) 시각화 이전 포스팅에서 히스토그램을 통해 연속된 데이터를 시각화 하는 방법과 제한을 설명했습니다. 히스토그램 대신 연속된 데이터의 분포를 확인하는 또 다른 방법은 밀도 시각화가 있습니다. 간단히 말하면, 울퉁불통한 히스토그램(빈도)을 부드러운 곡선(밀도)으로 변환하여 시각화 하는 것이 밀도 시각화 입니다. (Density Plot을 정확히 번역하기 애매하군요) 이 과정에서 히스토그램 시각화의 빈도를 연속된 밀도로 바꿔주는 수학적 기법이 동원되는데요. 이를 커널 함수(kernel function)이라고 부르며, 가우시안(gaussian)을 기본값으로 설정합니다. (데이터 과학에 관심이 있거나 관련 분야를 공부하신 분이라면 가우시안이라는 말이 익숙하실 겁니다. 혹은 전공에 따라 정규 분.. 2022. 7. 4.
ggplot 쉽게 배우기 (2) - 히스토그램 지난 기초 강의(1) 에 이어 ggplot의 주요 그래프에 대해 알아보겠습니다. 다시 한번 [데이터 + 배치 + 표현]을 기억하시고. library(tidyverse) 기본 세팅 후 시작합니다. 연속? 분리? 지난 시간에는 ggplot을 통한 시각화 중, 가장 많이 사용하는 산점도(Scatter Plot)를 그려봤습니다. [데이터+배치] + "점(표현)" 이라고 생각할 수도 있겠군요. 다른 표현 방식에는 어떤 것이 있을까요? 대부분의 사람들은 데이터 과학이나 연구를 해본 적이 없기에 이런 질문에 대답하기 어렵습니다. (그래서 시각화 초보의 경우 자동 추천 기능이 있는 Tableau를 사용하는 것도 나쁘지 않습니다) 문제를 간단히 하기 위해 데이터를 두 가지로 설정하겠습니다. - 1,2,3,4... 와 같.. 2022. 7. 2.
ggplot 쉽게 배우기 (1) - 기본구조 ggplot? matplotlib? seaborn? 개인적으로 Python을 주로 사용하지만, 시각화 과정에서 R을 사용하는 경우가 많습니다. Python 패키지인 matplotlib이나 seaborn이 있지만, R의 ggplot이 강력한 성능을 가지고 있기 때문인데요. 특히, 폰트, 기본 테마 설정과정에서 상대적으로 ggplot이 간단하기 때문에 시각화 강의나 간단한 설명 자료를 만들때 ggplot를 추천하는 경우가 많습니다. (인터렉티브 시각화에서는 python 패키지인 plotly나 altair를 추천하거나, 통합해서 Tableau를 추천하기도 합니다) 다만, ggplot의 경우 처음에 기본 문법을 이해하기 어렵기에 쉽게 손이 가지 않는데요. 강의를 하면서 많이 받았던 질문을 기준으로 간단한 ggp.. 2022. 7. 2.
반응형