머신러닝 10

MLOps란?

MLOps(Machine Learning Operations)는 머신러닝(ML) 시스템이 현대 비즈니스 환경에서 증가하는 데이터 복잡성과 빠르게 변화하는 요구사항에 효과적으로 대응하기 위해 등장했습니다. 초기의 ML 시스템은 연구 및 실험 수준에서 사용되었으나, 비즈니스 적용이 확대되면서 운영 단계에서의 문제들이 부각되었습니다. 이러한 문제에는 데이터의 변화로 인한 모델 성능 저하, 예측 서비스의 불안정성, 수동 관리로 인한 운영 부담 등이 포함됩니다. 특히, ML 시스템 운영의 핵심 과제는 다음과 같습니다.데이터의 변화에 대한 적응성데이터는 시간에 따라 변화하거나 품질에 문제가 생길 수 있습니다. 이를 무시하면 모델 성능 저하로 이어질 가능성이 큽니다.운영 효율성데이터 준비, 모델 학습, 검증, 배포 ..

MLOps 2024.12.21

[머신러닝#4] 지도학습 - 의사결정 나무(Decision Tree)

계속해서 지도학습의 알고리즘에 공부해보겠습니다. 지난시간에는 로지스틱 회귀를 이용해 binary값을 예측하는 모델을 만들어보았습니다. [머신러닝#3] 지도 학습 - 로지스틱 회귀(Logistic Regression) 이번 시간에 이야기해볼 지도 학습 머신러닝 모델은 로지스틱 회귀입니다. 로지스틱 회귀 로지스틱 회귀 모델은 분류에 사용될 수 있는 회귀 알고리즘입니다. 어떤 상황을 가정해 봅시다. 만약 just-data.tistory.com 오늘은 또 다른 지도학습의 대표적인 알고리즘인 결정트리에 대해 알아보겠습니다. 의사결정 나무(Decision Tree) 의사결정나무란 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 통해, 한번에 하나씩의 설명변수를 사용하여 분류와 회귀가 가능한 규칙들의 집합을 생..

Machine Learning 2023.07.06

[머신러닝 기본#2] 경사 하강법

저번 포스팅에서 분류에 대한 전반적인 시스템에 대해 알아보았습니다. 이번 글에서는 모델 학습 방법 중 경사하강법을 이용한 학습 방법에 대해 알아보도록 하겠습니다. 지난 포스팅에서 살펴봤던 KNN, SVM 등은 거리 기반 알고리즘으로 최적의 파라미터를 찾기 위해 GridSearch를 해야 한다는 특징이 있습니다. 하지만 이번에 알아볼 학습 방법은 데이터에 맞게 가중치를 갱신하는 방식으로 모델 최적화를 하게 됩니다. 먼저 해결해야할 상황에 대해 정의하고 시작하겠습니다. 아래와 같이 데이터가 분포되어 있습니다. 이때, 이 데이터셋을 가장 잘 설명할 수 있는 직선을 찾는 문제입니다. 즉, 아래의 식에서 $ \theta $를 찾는 선형 회귀 문제입니다. 이 문제를 크게 두 가지 방식으로 직선의 가중치를 찾아보도록..

Machine Learning 2023.06.30

[머신러닝 기본#1] 분류

이번 포스팅을 원래 가장 먼저 다루었어야 했는데 이제야 올리게 되었습니다. 지도 학습은 크게 회귀와 분류로 나눌 수 있습니다. 이때 대부분의 내용은 비슷하지만 학습 결과를 확인하는 과정 등 조금씩 다른 몇몇 부분이 존재합니다. 그래서 이번 포스팅에서는 분류 시스템에 집중적으로 다루어보도록 하겠습니다. 전체적인 과정과 결과를 해석하는 법을 알고 나면 이후 다른 모델을 적용하실 때 더 수월할 것입니다. 데이터 불러오기 아주 유명한 분류 데이터인 MNIST를 사용하도록 하겠습니다. from sklearn.datasets import fetch_openml mnist = fetch_openml("mnist_784", version = 1, as_frame = False) X, y = mnist["data"], ..

Machine Learning 2023.06.29

[데이터 전처리#1] 데이터 전처리 개요

최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직에서 이를 사용해서 큰 수익을 얻은 사례가 있는 만큼 더 이상 기업에서 무시할 수 없게 되면서 데이터 과학자, 엔지니어 등의 직업군을 채용하고 있습니다. 동시에 데이터 분석에 관한 강의, 수업, 책도 쏟아져 나오고 있습니다. 대부분의 매체에서 '데이터 분석의 8할은 전처리가 차지한다'라고 얘기할 만큼 데이터 전처리 과정에 대한 중요성을 언급하고 있습니다. 전처리가 충분히 이루어지지 않은 상태에서는 어떤 모델도 좋은 성능을 발휘하지 못합니다. 많은 머신러닝, 딥러닝 모델들이 패키지로 나와 사용하기 편하게 되었지만 유독 전처리..

Data preprocessing 2023.06.29

[머신러닝#3] 지도 학습 - 로지스틱 회귀(Logistic Regression)

이번 시간에 이야기해볼 지도 학습 머신러닝 모델은 로지스틱 회귀입니다. 로지스틱 회귀 로지스틱 회귀 모델은 분류에 사용될 수 있는 회귀 알고리즘입니다. 어떤 상황을 가정해 봅시다. 만약 종속변수의 값이 0과 1로만 이루어져 있는 이진분류 상황에서 회귀분석을 쓸 수 있을까? 일반적인 회귀분석으로는 No! 입니다. 만일 데이터를 넣어서 모델을 실행시키면 위와 같은 결과가 나올 것입니다. 따라서 분류의 목적에 맞게 회귀 모델을 변형시켜 줄 필요성이 있습니다. 여러분은 어떤 방식이 떠오르시나요?? ※ 간단한 답이니 잠시 멈추고 생각해 보세요. 답이 떠오르시지 않으셔도 됩니다^^ 답은 간단합니다. 회귀분석 값을 시그모이드 함수로 감싸주는 것입니다. 시그모이드 함수는 딥러닝의 활성화 함수로 다들 잘 알고 계시겠지만..

Machine Learning 2023.06.29

[딥러닝#1] 딥러닝 개요

2023.05.10 - [Machine Learning] - [머신러닝#1] 머신러닝 개요 [머신러닝#1] 머신러닝 개요 산업이 발달하기 시작하면서 대부분의 기술들이 인간의 편의를 줄이기 위해 발전되었습니다. 그중 하나가 머신러닝이라고 할 수 있는데요. 예를 한번 들어봅시다. 우리가 흔히 아는 '스팸 메일' just-data.tistory.com 위의 글에서 지도학습 알고리즘 중에 Neural Network가 있다는 것을 알려드렸습니다. 딥러닝 카테고리에서는 이러한 Neural Network에 대해서 다루도록 하겠습니다. DNN에서 출발해서 CNN, RNN을 지나 LSTM까지 글을 올리도록 하겠습니다. 딥러닝(Deep Learning) 딥러닝을 설명하기 위해서 이해를 돕기 위해 많은 책들에서 논리 게이트..

Deep Learning 2023.05.15

[머신러닝#2] 지도 학습 - KNN

저번 포스팅에서 설명드렸던것처럼 머신러닝에는 다양한 알고리즘이 존재합니다. https://just-data.tistory.com/10 이번 포스팅에서는 그중 KNN에 대해서 알아보겠습니다. KNN KNN은 특정 자료의 분류기준을 정할 때, 주변 k개의 데이터가 속하는 클래스들 중에서 가장 많은 클래스로 특정자료를 분류하는 방식을 의미합니다. 위의 사진처럼 새로운 데이터 ? 가 속하는 클래스를 결정하기 위해 가장 가까운 k개의 데이터(k=5) 클래스들 중 다수투표(major voting) 방식에 의해 최다 출현 클래스로 할당하게 됩니다. 따라서 다음과 같은 특징들이 존재합니다. lazy learner training data로부터 수학적 모형인 판별 함수를 학습하지 않습니다. instance-based l..

Machine Learning 2023.05.11

[머신러닝#1] 머신러닝 개요

산업이 발달하기 시작하면서 대부분의 기술들이 인간의 편의를 줄이기 위해 발전되었습니다. 그중 하나가 머신러닝이라고 할 수 있는데요. 예를 한번 들어봅시다. 우리가 흔히 아는 '스팸 메일'의 같은 경우, 지금은 자동으로 스팸메일을 잘 분류해 주지만 초기에는 아마 다음과 같은 방법으로 분류했을 겁니다. 스팸 메일에서 자주 등장하는 단어 파악 Ex. 신용카드, 무료, 펀드 등 해당 단어가 등장하는 메일을 프로그램이 발견했을때, 그 메일을 스팸으로 분류 충분한 성능이 나올 때까지 1단계와 2단계를 반복 초반에는 위의 방법이 잘 통할수 있지만 시간이 지날수록 등장하는 단어의 규칙, 방법 등이 다양해지면서 수작업으로 규칙을 모두 정의하는 것은 매우 힘들어졌을 겁니다(또한 비용도 많이 들어가죠.). 따라서 스팸과 같..

Machine Learning 2023.05.10

Diversity, Serendipity, Novelty, and Coverage A Survey and Empirical Analysis of Beyond-Accuracy Objectives in Recommender Systems(2016)

들어가기 전 이번에 리뷰할 논문은 추천 시스템을 평가하는 다양한 지표들에 대해서 정리한 논문입니다. 정확도를 제외한 각 지표들은 다양성에 관한 다른 관점들을 가지고 있습니다. 이러한 점에 주목해서 논문을 읽으시면 더욱 도움이 될 것 같습니다. 해당 논문에서 각 지표들간의 관계에 대한 실험 내용이 나와있지만 요약으로 나타내도록 하겠습니다. 참고한 자료는 아래의 링크에서 아래와 같습니다. 논문 링크 https://dl.acm.org/doi/abs/10.1145/2926720?casa_token=SsI8HPAlvEcAAAAA%3A3kFhoO0M1rXbOdLiOscVIUVoz8_UQR5eZt1AG8Hv5e3QHF4KkbWiArz5by7Z4BI2wL_rz5c0saVD4uU Intorduction 기존 추천 시스템..

paper review 2023.04.02