Data preprocessing 6

[데이터 전처리#6] 데이터 구조 전처리 - 전개

이번 시간에는 데이터 구조 전처리 중 마지막 파트인 '전개'입니다. 만약 앞의 내용이 기억이 안 난다면 복습하고 와서 보시면 더 이해가 잘 될 것입니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 전개 데이터 집계 결과를 표 형식으로 변환하는 전개는 전처리에서 빼놓을 수 없습니다. 가로 데이터 vs 세로 데이터 가로 데이터는 데이터를 표 형식으로 나타냅니다. 다시 말해, 행은 적고 열은 많은 특징을 가지고 있습니다. 반면 세로 데이터는 데이터가 레코드 형식일 때를 의미합니다. 새로 데..

Data preprocessing 2023.07.10

[데이터 전처리#5] 데이터 구조 전처리 - 생성

지난 시간에는 나누어져 있는 데이터를 특정 ID를 기준으로 결합하는 것에 대해 알아보았습니다. [데이터 전처리#4] 데이터 구조 전처리 - 결합 본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 just-data.tistory.com 사실 책의 순서로 따지면 분할 파트가 있지만 이 부분은 머신러닝에서 다루는 게 더 나은 것 같아 제외했습니다. 이번 시간에는 데이터를 생성하는 방법에 대해 알아보겠습니다. 생성 머신러닝에서 모델으로 예측을 할 때 학습 데이터가 불균형하면 예측 정확도가 떨어지는 경우가 많습니다. 데이터 불균형이란 어느 분류에 속하는 데이터 수가 다른 분류에..

Data preprocessing 2023.07.10

[데이터 전처리#4] 데이터 구조 전처리 - 결합

본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 이번 주제는 결합에 대한 내용입니다. 결합 실제 현업에서 데이터는 종류별로 테이블이 나뉘기 때문에 하나의 테이블에 필요한 데이터가 모두 포함된 경우는 드뭅니다. 데이터 분석용인 데이터는 하나의 테이블에 모두 정리된 가로로 긴 데이터가 이상적입니다. 마스터 테이블에서 정보 얻기 레코드 테이블과 마스터 테이블의 결합..

Data preprocessing 2023.07.04

[데이터 전처리#3] 데이터 구조 전처리 - 집약

지난 포스팅에서 데이터 구조 전처리 중 추출에 대해 알아보았습니다. 열 추출, 행 추출에 관한 내용이었습니다. [데이터 전처리#2] 데이터 구조 전처리 - 추출 지난 시간 데이터 전처리의 전체적인 개요에 대해 설명드렸습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. just-data.tistory.com 이번 시간에는 데이터 구조 전처리 중 집약에 대한 내용입니다. 집약 예를 들어 시험 과목별로 점수의 평균값을 계산하면 시험 과목의 난이도를, 각 학생이 받은 점수의 평균값을 계산하면 학생별 결과를 쉽게 파악할 수 있습니다. 이렇게 데이터의 가치를 되도록 손실 없이 압축하여 데이터의 단위(데이터 행의 의미)를 변환할 수 있도..

Data preprocessing 2023.07.04

[데이터 전처리#2] 데이터 구조 전처리 - 추출

지난 시간 데이터 전처리의 전체적인 개요에 대해 설명드렸습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 데이터 전처리는 크게 구조에 대한 전처리와 내용에 대한 전처리로 나눠지게 됩니다. 그중 구조에 대한 전처리는 주로 전체 전처리 과정 중 비교적 빠른 단계에 진행되게 됩니다. 오늘은 구조 전처리 중 추출에 대한 이야기를 해보려 합니다. 추출 적절한 데이터 추출 작업은 불필요한 처리를 없애줄 뿐만 아니라 다루어야 할 데이터의 크기도 줄여주는 중요한 과정입니다. 크게 네 종류로 나누어..

Data preprocessing 2023.07.02

[데이터 전처리#1] 데이터 전처리 개요

최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직에서 이를 사용해서 큰 수익을 얻은 사례가 있는 만큼 더 이상 기업에서 무시할 수 없게 되면서 데이터 과학자, 엔지니어 등의 직업군을 채용하고 있습니다. 동시에 데이터 분석에 관한 강의, 수업, 책도 쏟아져 나오고 있습니다. 대부분의 매체에서 '데이터 분석의 8할은 전처리가 차지한다'라고 얘기할 만큼 데이터 전처리 과정에 대한 중요성을 언급하고 있습니다. 전처리가 충분히 이루어지지 않은 상태에서는 어떤 모델도 좋은 성능을 발휘하지 못합니다. 많은 머신러닝, 딥러닝 모델들이 패키지로 나와 사용하기 편하게 되었지만 유독 전처리..

Data preprocessing 2023.06.29