고전적인 통계학에서는 거의 추론(inference), 즉 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도출하는 데 집중했습니다.
하지만 1962년 존 투기는 'The future of data analysis' 논문에서 통계적 추론을 하나의 구성 요소로 보는 데이터 분석이라는 새로운 과학적 학문을 제안했습니다.
※ 참고: https://link.springer.com/chapter/10.1007/978-1-4612-4380-9_31
탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 존 투키의 1977년 책 'Exploratory Data Analysis'를 통해 정립되었습니다.
그는 EDA를 numerical detective work라고 언급하면서 실험의 첫 번째 단계로서 데이터를 통계 도구, 그래프 등을 사용하여 탐구하면서 통찰과 패턴을 발견하는 과정이라고 설명했습니다.
Exploratory data analysis is a detective work -- numerical detective work -- or counting detective work -- or graphical detective work
EDA can never be the whole story, but nothing else can serve as the foundation stone -- as the first step.
만일 실험에만 초점을 마추고 EDA를 함께 하지 않으면, 가장 흥미로운 결과를 놓칠 가능성이 너무 높습니다.
이때, EDA로부터 얻어진 내용들을 모두 결정적인 것으로 받아들이는 것은 매우 어리석은 일이겠지만, 단지 우연일 가능성이 있다는 이유로 모든 내용들을 무시하는 것도 심각한 일입니다.
따라서, EDA는 데이터에 존재하는 혹시 모를 중요하거나 흥미로운 내용을 파악하는 데이터 기반 실험에서의 기초적인 첫 번째 단계로 반드시 필요합니다.
'Statistics' 카테고리의 다른 글
[Statistics#2] Bayes Theorem(베이즈 정리)란 뭘까? (0) | 2025.01.04 |
---|