본문 바로가기
반응형

초보13

최소한의 통계로 p-value 이해해 보기 p-value란 도대체 무엇인가? t-test부터 분산분석(ANOVA)에 이르기까지, 우리는 다양한 통계 검정을 실습하고 해석해 봤습니다. 여기까지 검색해서 오신 분들이라면 대개 통계에 대해 익숙하신 분들이겠지만, 만약 오랜만에 통계를 돌리거나 처음 실습하시는 분들은 다양한 의문이 생기실 겁니다. 특히, 저를 포함해서 통계를 처음 배우시는 분들은 p-value에 대해 여러 의문을 갖고 있는 분들이 많을 것이라 생각합니다. "도대체 p-value가 뭐지?" "왜 0.05 이하면 p-value가 유의하다고 하는 거지? 별 표시는 뭐지?" 와 같은 의문 말입니다. 물론, 인터넷의 광대한 세계에서는 이런 의문을 쉽게 해결할 수 있지만 어느 정도 수학 실력을 요구합니다. 저 또한 수학을 이해하지 않고 통계를 돌리.. 2022. 9. 1.
헷갈리는 csv, tsv 한번에 정리하자 - TidyData(타이디데이터) 데이터 저장 방식? 파이썬이나 R과 같은 통계 관련 프로그램을 사용하다 보면 csv나 tsv에 대한 이야기를 듣게 됩니다. 어느 정도 작업(?)에 익숙해졌으면 모르지만, 처음 이런 형식을 접한 초보 유저는 당황하게 되는데요. 사실, 꼼꼼하게 내용을 확인하면 그리 어렵지 않다는 사실을 알 수 있습니다. 오늘은 파이썬, R에서 사용하는 파일 형식에 대해 알아보도록 하겠습니다. 타이디 데이터(TidyData) 기본적으로 컴퓨터를 통한 데이터 분석에서 사용하는 형식은 타이디 데이터(TidyData) 형식을 갖습니다. 간단하게 말해서, 가로축과 세로축을 가진 값을 말하는데요. 구체적으로, 여기서 말하는 가로축과 세로축은 각각 실험대상과, 속성을 의미합니다. 사실, 이렇게 말하면 과학 연구자가 아닌 이상 헷갈리기 .. 2022. 8. 20.
파이썬으로 빠르게 글자 수 세기 - Counter 파이썬은 데이터 사이언스 도구로 알려져 있지만, 단순한 반복 작업을 대체하기 위해 파이썬을 사용하는 사람도 많습니다. 오늘은 이런 단순 작업 중, Counter로 대표되는 글자 수 세는 방법을 방법을 살펴보겠습니다. Counter는 이름대로 숫자를 세는 함수로, 워드 클라우드 같은 빈도 기반의 작업과 연계되는 중요한 역할을 합니다. 입력/출력 과정이 복잡한 측면이 있어 처음에 익숙해 지기는 어렵지만, 한번 효용을 알게 되면 데이터 분석에서 무조건 한번 이상 사용하게 되는 명령어이기도 합니다. (특히, NLP와 같은 문자 처리에서는 Counter 명령어의 다양한 사용법을 아는 것이 필수입니다) 오늘은 간략한 Counter의 사용 방법과 예시를 확인해 보도록 하겠습니다. colletions과 Counter .. 2022. 8. 17.
파이썬으로 분산분석(ANOVA)하기 (1) - One Way (일원 분산분석) 분산 분석(ANOVA)으로의 확장 지금까지 우리는 t-test와 상관관계 분석을 수행했습니다. 두 방법론은 앞으로 배울 방법론의 기초가 되는 방법론으로 분산분석(ANOVA)과 회귀분석(Regression)과 깊은 관계를 갖습니다. (좀 더 깊은 레벨에서 보자면, ANOVA와 Regression, 더 나아가 t-test는 모두 선형 모형이라는 큰 범주에 속해 있습니다) 오늘은 이 중, 실험에서 많이 사용되는 분산분석(ANOVA, Analysis of Variance)에 대해 배워보겠습니다. 분산분석(ANOVA, Analysis of Variance)? 분산 분석은 말 그대로 분산을 분석하는 방법론입니다. 그렇다면 분산(Variance)는 무엇일까요? 일단 사전적 정의로는 (개별값 - 평균)을 제곱하여 합한.. 2022. 8. 14.
반응형