python 3

Pandas DataFrame vs Spark DataFrame

데이터 분석이나 전처리를 하다 보면 가장 많이 접하게 되는 객체 중 하나가 바로 DataFrame입니다.하지만 사용하는 환경에 따라 Pandas의 DataFrame과 Spark의 DataFrame은 구조도, 처리 방식도, 확장성도 전혀 다릅니다. 이 글에서는 두 프레임워크의 DataFrame이 어떻게 다르고, 어떤 상황에서 각각을 써야 하는지 비교해보겠습니다. Pandas DataFrame특징 CSV, Excel, SQL 등 다양한 파일을 쉽게 불러오기.groupby(), .pivot(), .merge() 등 강력한 분석 API 제공Python 코드와 완벽한 통합 (NumPy, Matplotlib 등과 잘 맞음)장점 NumPy 기반으로 구현되어 매우 빠름→ Pandas의 대부분 연산은 NumPy의 배..

Spark 2025.04.18

[머신러닝#2] 지도 학습 - KNN

저번 포스팅에서 설명드렸던것처럼 머신러닝에는 다양한 알고리즘이 존재합니다. https://just-data.tistory.com/10 이번 포스팅에서는 그중 KNN에 대해서 알아보겠습니다. KNN KNN은 특정 자료의 분류기준을 정할 때, 주변 k개의 데이터가 속하는 클래스들 중에서 가장 많은 클래스로 특정자료를 분류하는 방식을 의미합니다. 위의 사진처럼 새로운 데이터 ? 가 속하는 클래스를 결정하기 위해 가장 가까운 k개의 데이터(k=5) 클래스들 중 다수투표(major voting) 방식에 의해 최다 출현 클래스로 할당하게 됩니다. 따라서 다음과 같은 특징들이 존재합니다. lazy learner training data로부터 수학적 모형인 판별 함수를 학습하지 않습니다. instance-based l..

Machine Learning 2023.05.11

[추천 시스템#2] 콘텐츠 기반 추천 시스템(content-based recommender system)

지난 시간에는 추천 시스템의 정의, 종류 등을 살펴보았습니다. 이번 포스팅은 추천 시스템 종류 중 콘텐츠 기반 추천 시스템(content-based, CB)에 대해서 얘기를 나눠볼려고 합니다. Content-based filtering content-based filtering이라고도 불리는 CB는 사용자의 구매 이력을 통해 이와 비슷한 카테고리의 제품을 추천하는 방법을 의미합니다. CB의 특징은 다음과 같습니다. 독립적 정보 활용 추천 대상 사용자의 과거 구매이력이나 profile 정보만 이용하기 때문에 CF처럼 다른 사용자의 정보가 부족할 경우에도 유용하게 쓰일수 있습니다. 위의 특징은 다시 말해 사용자의 정보가 부족하다면 성능이 낮아지거나 존재하지 않는다면 구현이 불가능하다는 뜻과 같습니다 Firs..

reommender system 2023.04.27