반응형 분류 전체보기27 파이썬으로 빠르게 글자 수 세기 - Counter 파이썬은 데이터 사이언스 도구로 알려져 있지만, 단순한 반복 작업을 대체하기 위해 파이썬을 사용하는 사람도 많습니다. 오늘은 이런 단순 작업 중, Counter로 대표되는 글자 수 세는 방법을 방법을 살펴보겠습니다. Counter는 이름대로 숫자를 세는 함수로, 워드 클라우드 같은 빈도 기반의 작업과 연계되는 중요한 역할을 합니다. 입력/출력 과정이 복잡한 측면이 있어 처음에 익숙해 지기는 어렵지만, 한번 효용을 알게 되면 데이터 분석에서 무조건 한번 이상 사용하게 되는 명령어이기도 합니다. (특히, NLP와 같은 문자 처리에서는 Counter 명령어의 다양한 사용법을 아는 것이 필수입니다) 오늘은 간략한 Counter의 사용 방법과 예시를 확인해 보도록 하겠습니다. colletions과 Counter .. 2022. 8. 17. 파이썬으로 분산분석(ANOVA)하기 (1) - One Way (일원 분산분석) 분산 분석(ANOVA)으로의 확장 지금까지 우리는 t-test와 상관관계 분석을 수행했습니다. 두 방법론은 앞으로 배울 방법론의 기초가 되는 방법론으로 분산분석(ANOVA)과 회귀분석(Regression)과 깊은 관계를 갖습니다. (좀 더 깊은 레벨에서 보자면, ANOVA와 Regression, 더 나아가 t-test는 모두 선형 모형이라는 큰 범주에 속해 있습니다) 오늘은 이 중, 실험에서 많이 사용되는 분산분석(ANOVA, Analysis of Variance)에 대해 배워보겠습니다. 분산분석(ANOVA, Analysis of Variance)? 분산 분석은 말 그대로 분산을 분석하는 방법론입니다. 그렇다면 분산(Variance)는 무엇일까요? 일단 사전적 정의로는 (개별값 - 평균)을 제곱하여 합한.. 2022. 8. 14. 파이썬으로 상관관계(Correlation analysis) 분석하기 : 스피어만의 rho / 켄달의 tau 상관관계 분석(Correlation analysis)의 여러 분파들 지난 시간에는 상관관계 분석에서 가장 보편적으로 사용되는 피어슨의 r에 대해 알아봤습니다. 2022.08.11 - [데이터과학 기초/통계] - 파이썬으로 상관관계(Correlation analysis) 분석하기 : 피어슨의 r 이 포스팅에서는 피어슨의 r을 소개하면서 반복적으로 "연속형 변수"라는 말을 강조했습니다. 이는 "연속형 변수(Continuous Variable)"와 "서열형 변수(Ordinal Variable)"의 속성 차이가 결과에 크게 영향을 미치는 데도 불구하고 현실에서 잘못 사용되거나, 혼용되는 경우가 많기 때문입니다. 오늘은 "서열형 변수(Ordinal Variable)"의 상관관계 분석을 위한 "스피어만의 ρ (Sp.. 2022. 8. 12. 파이썬으로 상관관계(Correlation analysis) 분석하기 : 피어슨의 r 가 아닌 를 보자 지금까지 우리는 A그룹 B그룹의 차이(t-test) 혹은 분포의 유사성이나 상관관계(Chi-Square)에 대해 공부했습니다. 하지만, 통계 검정에는 단순히 두 그룹의 차이만 확인하는 기법만 있지 않습니다. 오늘 배울 상관관계 분석(Correlation analysis)은 두 그룹의 "차이"가 아닌 "상관관계"에 집중하는 분석 방식입니다. 특히, 상관관계 분석은 나중에 배울 회귀분석(Regression)과 연결된다는 점에서 한번 정도 확인하고 넘어갈 필요가 있습니다. 상관관계 분석(Correlation analysis)의 종류 막연하게 두 변수의 상관관계를 알아보겠다고 했지만, 사실 상관관계를 측정하는 방식에는 여러 방식이 있을 수 있습니다. 1) 데이터의 유형에 따라 범주형과 연속형의.. 2022. 8. 11. 이전 1 2 3 4 5 6 7 다음 반응형