파이썬 3

[데이터 전처리#3] 데이터 구조 전처리 - 집약

지난 포스팅에서 데이터 구조 전처리 중 추출에 대해 알아보았습니다. 열 추출, 행 추출에 관한 내용이었습니다. [데이터 전처리#2] 데이터 구조 전처리 - 추출 지난 시간 데이터 전처리의 전체적인 개요에 대해 설명드렸습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. just-data.tistory.com 이번 시간에는 데이터 구조 전처리 중 집약에 대한 내용입니다. 집약 예를 들어 시험 과목별로 점수의 평균값을 계산하면 시험 과목의 난이도를, 각 학생이 받은 점수의 평균값을 계산하면 학생별 결과를 쉽게 파악할 수 있습니다. 이렇게 데이터의 가치를 되도록 손실 없이 압축하여 데이터의 단위(데이터 행의 의미)를 변환할 수 있도..

Data preprocessing 2023.07.04

[머신러닝#2] 지도 학습 - KNN

저번 포스팅에서 설명드렸던것처럼 머신러닝에는 다양한 알고리즘이 존재합니다. https://just-data.tistory.com/10 이번 포스팅에서는 그중 KNN에 대해서 알아보겠습니다. KNN KNN은 특정 자료의 분류기준을 정할 때, 주변 k개의 데이터가 속하는 클래스들 중에서 가장 많은 클래스로 특정자료를 분류하는 방식을 의미합니다. 위의 사진처럼 새로운 데이터 ? 가 속하는 클래스를 결정하기 위해 가장 가까운 k개의 데이터(k=5) 클래스들 중 다수투표(major voting) 방식에 의해 최다 출현 클래스로 할당하게 됩니다. 따라서 다음과 같은 특징들이 존재합니다. lazy learner training data로부터 수학적 모형인 판별 함수를 학습하지 않습니다. instance-based l..

Machine Learning 2023.05.11

[추천 시스템#2] 콘텐츠 기반 추천 시스템(content-based recommender system)

지난 시간에는 추천 시스템의 정의, 종류 등을 살펴보았습니다. 이번 포스팅은 추천 시스템 종류 중 콘텐츠 기반 추천 시스템(content-based, CB)에 대해서 얘기를 나눠볼려고 합니다. Content-based filtering content-based filtering이라고도 불리는 CB는 사용자의 구매 이력을 통해 이와 비슷한 카테고리의 제품을 추천하는 방법을 의미합니다. CB의 특징은 다음과 같습니다. 독립적 정보 활용 추천 대상 사용자의 과거 구매이력이나 profile 정보만 이용하기 때문에 CF처럼 다른 사용자의 정보가 부족할 경우에도 유용하게 쓰일수 있습니다. 위의 특징은 다시 말해 사용자의 정보가 부족하다면 성능이 낮아지거나 존재하지 않는다면 구현이 불가능하다는 뜻과 같습니다 Firs..

reommender system 2023.04.27