728x90
SMALL
- 요즘에는 개인이든 어떤 기업이든 간에 데이터가 중요하다고 얘기합니다. 하지만 정작 데이터를 제대로 읽는 사람은 많지 않은 것 같습니다.
- 그래서 제가 학부 시절, 그리고 그 이전 학창 시절에 배웠던 통계학이 그 빈틈을 채워주곤 했습니다. 데이터를 그저 확인하는 것에서 이해하는 것으로 바꿔주는 것이 통계학의 역할이었습니다.
왜 통계학을 알아야 하나요?
- 이유는 간단합니다. 보통 데이터를 다루는 사람들은 먼저 가공(전처리 등)한 데이터를 EDA하면서 데이터를 이해하고 분석하는 과정을 거칩니다. 이 과정 안에 데이터의 분포, 연관성, 확률 등을 통계적으로 깊이 있게 분석하는 것도 포함됩니다.
- 특히 사람들이 궁금해하는 현상의 원인을 찾아내고 미래를 예측하기 위해서는 먼저 나름대로의 가설을 설정해야하고, 통계적인 분석을 통해 이 가설을 검정해야 합니다. 이것 또한 확률 분포와 신뢰구간 추정과 이어집니다.

근데 머신러닝이랑 다를 게 있나요?
- 머신러닝의 주된 목적은 예측에 있고, 통계학은 해석에 있습니다.
- 그리고 보통 머신러닝에서의 분석 모형은 복잡도가 높고, 특히 고질적인 문제인 과적합 해결에 집중하는 편입니다.
- 반면 통계학은 모델의 신뢰도를 중시하며 복잡성보다는 단순성을 추구합니다. 그리고 각 변수의 영향력에 대한 해석과 모집단에서 추출한 샘플의 가정과 통계적인 적합성에 집중합니다.
- 이외에도 다양한 차이점이 존재하는데 정리해보면 다음과 같습니다.
| 통계학 | 머신러닝 | |
| 접근 방식 | 확률 변수를 통해 자료 생성 과정을 파악 | 알고리즘 모델을 생성 |
| 기반 | 수학, 이론 | 비선형 데이터 피팅 |
| 목표 | 가설 검정, 현상 해석 | 예측 정확도 향상 |
| 변수(차원) | 10개 이하의 소수 변수 활용 | 다차원의 변수 활용 |
| 활용 | 과거와 현재 데이터를 활용한 현상의 해석 | 과거와 현재 데이터를 활용한 미래 예측 |
| 접근 방향 | 가설 → 데이터 | 데이터 → 가설 |
- 통계학은 데이터를 확률 변수라는 관점에서 바라봅니다. 그래서 어떤 데이터가 우연에 의해 만들어진 확률적인 과정을 수학적으로 설명하려는 접근 방식을 취합니다. 반면 머신러닝은 확률보다는 패턴을 학습하는 알고리즘에 집중합니다.
- 그리고 머신러닝은 비선형 관계, 예를 들어 곡선 형태를 가지거나 여러 요인들 간의 얽히는 관계 등을 다루는 데 강하고, 통계학은 수학적 이론과 검증 절차를 중심으로 발전해왔습니다.
- 마지막으로 통계학에서는 먼저 가설을 세우고, 데이터를 통해서 검증하는 방향으로 접근합니다. 그리고 머신러닝은 데이터에서부터 출발해 규칙과 가설을 도출하는 방향으로 접근하게 됩니다.
그렇담 통계학에서는 데이터를 어떻게 다루나요?
- 통계학은 데이터를 단순히 요약하는 데만 사용되는 것이 아니라 데이터의 특성을 묘사(기술 통계)하거나, 더 넓은 모집단으로 추정(추론 통계)하는 역할도 함께 수행합니다.
- 기술 통계는 말 그대로 주어진 데이터의 특성을 사실에 근거해 설명하고 묘사하는 것입니다. 다시 말해, 전체 데이터를 쉽고 직관적으로 파악할 수 있도록 도와줍니다.
- 이런 기술 통계를 내는 과정을 데이터 과학에서는 EDA(Exploratory Data Analysis)라고 합니다. 이 과정으로 Raw Data를 의사 결정을 하기 위한 정보(Information)으로 바꾸는 것입니다.
- 반면 추론 통계는 주어진 표본으로 모집단의 특성을 추정하는 과정입니다. 예를 들어 한 학급의 데이터를 분석해서 전교생의 경향을 예측하는 것이라고 보시면 됩니다.
- 결국 통계학의 핵심은 표본에서 모집단으로 가는 과정입니다.
- 그래서 기술 통계와 추론 통계의 통합적인 프로세스는 "표본의 특성을 분석 → 특성의 일반화 여부 판단 → 모집단의 특성으로 추정"의 방향으로 흐르게 됩니다.

참고 도서
- 『데이터 분석가가 반드시 알아야 할 모든 것』, 저자 황세웅, 위키북스
728x90
LIST
'데이터 분석 > 이론' 카테고리의 다른 글
| 데이터는 우연 속에서 패턴을 찾는다 (0) | 2025.12.03 |
|---|---|
| 데이터는 우연을 계산한다 (0) | 2025.10.21 |
| 평균은 시작일 뿐이다 (0) | 2025.10.20 |
| 데이터한테도 MBTI가 있다...? (0) | 2025.10.16 |
| 고양이 100마리로 서울의 모든 고양이 수를 알 수 있을까? 🐈 (0) | 2025.10.15 |