딥러닝 7

MLOps란?

MLOps(Machine Learning Operations)는 머신러닝(ML) 시스템이 현대 비즈니스 환경에서 증가하는 데이터 복잡성과 빠르게 변화하는 요구사항에 효과적으로 대응하기 위해 등장했습니다. 초기의 ML 시스템은 연구 및 실험 수준에서 사용되었으나, 비즈니스 적용이 확대되면서 운영 단계에서의 문제들이 부각되었습니다. 이러한 문제에는 데이터의 변화로 인한 모델 성능 저하, 예측 서비스의 불안정성, 수동 관리로 인한 운영 부담 등이 포함됩니다. 특히, ML 시스템 운영의 핵심 과제는 다음과 같습니다.데이터의 변화에 대한 적응성데이터는 시간에 따라 변화하거나 품질에 문제가 생길 수 있습니다. 이를 무시하면 모델 성능 저하로 이어질 가능성이 큽니다.운영 효율성데이터 준비, 모델 학습, 검증, 배포 ..

MLOps 2024.12.21

[데이터 전처리#1] 데이터 전처리 개요

최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직에서 이를 사용해서 큰 수익을 얻은 사례가 있는 만큼 더 이상 기업에서 무시할 수 없게 되면서 데이터 과학자, 엔지니어 등의 직업군을 채용하고 있습니다. 동시에 데이터 분석에 관한 강의, 수업, 책도 쏟아져 나오고 있습니다. 대부분의 매체에서 '데이터 분석의 8할은 전처리가 차지한다'라고 얘기할 만큼 데이터 전처리 과정에 대한 중요성을 언급하고 있습니다. 전처리가 충분히 이루어지지 않은 상태에서는 어떤 모델도 좋은 성능을 발휘하지 못합니다. 많은 머신러닝, 딥러닝 모델들이 패키지로 나와 사용하기 편하게 되었지만 유독 전처리..

Data preprocessing 2023.06.29

[딥러닝#1] 딥러닝 개요

2023.05.10 - [Machine Learning] - [머신러닝#1] 머신러닝 개요 [머신러닝#1] 머신러닝 개요 산업이 발달하기 시작하면서 대부분의 기술들이 인간의 편의를 줄이기 위해 발전되었습니다. 그중 하나가 머신러닝이라고 할 수 있는데요. 예를 한번 들어봅시다. 우리가 흔히 아는 '스팸 메일' just-data.tistory.com 위의 글에서 지도학습 알고리즘 중에 Neural Network가 있다는 것을 알려드렸습니다. 딥러닝 카테고리에서는 이러한 Neural Network에 대해서 다루도록 하겠습니다. DNN에서 출발해서 CNN, RNN을 지나 LSTM까지 글을 올리도록 하겠습니다. 딥러닝(Deep Learning) 딥러닝을 설명하기 위해서 이해를 돕기 위해 많은 책들에서 논리 게이트..

Deep Learning 2023.05.15

[NLP#1] 자연어 처리란? - thesaurus

NLP 포스팅에서는 자연어 처리의 정의와 방법에 대해 알아보도록 하겠습니다. 다음 글까지는 신경망에 대한 지식은 필요 없지만 이후 글의 주제인 추론 기반 방법으로 넘어가게 되면 딥러닝의 개념이 적용되게 됩니다. 따라서 해당 지식을 학습하시고 오면 이해하시는데 큰 도움이 될 것입니다. ※ 딥러닝도 추후 다루도록 하겠습니다. NLP란? NLP란 Natural Language Processing의 약자로 직역하면 '자연어 처리'를 의미합니다. 자연어(natural language)는 한국어와 영어 등 우리가 평소에 쓰는 말을 뜻합니다. 따라서 NLP의 목표는 컴퓨터가 사람의 말을 이해할 수 있도록 가공하는 것입니다. 왜 자연어라고 말하는 걸까요? 우리가 사용하는 말은 시간, 장소, 주변 사람 등 많은 조건들에..

NLP 2023.05.12

[머신러닝#1] 머신러닝 개요

산업이 발달하기 시작하면서 대부분의 기술들이 인간의 편의를 줄이기 위해 발전되었습니다. 그중 하나가 머신러닝이라고 할 수 있는데요. 예를 한번 들어봅시다. 우리가 흔히 아는 '스팸 메일'의 같은 경우, 지금은 자동으로 스팸메일을 잘 분류해 주지만 초기에는 아마 다음과 같은 방법으로 분류했을 겁니다. 스팸 메일에서 자주 등장하는 단어 파악 Ex. 신용카드, 무료, 펀드 등 해당 단어가 등장하는 메일을 프로그램이 발견했을때, 그 메일을 스팸으로 분류 충분한 성능이 나올 때까지 1단계와 2단계를 반복 초반에는 위의 방법이 잘 통할수 있지만 시간이 지날수록 등장하는 단어의 규칙, 방법 등이 다양해지면서 수작업으로 규칙을 모두 정의하는 것은 매우 힘들어졌을 겁니다(또한 비용도 많이 들어가죠.). 따라서 스팸과 같..

Machine Learning 2023.05.10

Matrix Factorization Techniques Recommendation Systems (2009)

들어가기 전 최근 대부분의 추천 시스템은 비슷한 성향을 가진 사용자들 간의 유사도를 이용한 방식을 사용합니다. 이를 협업 필터링(Collaborative Filtering, CF)이라고 하는데요. 이는 크게 메모리 기반 방식(memory-based)와 모델 기반 방식(model-based)으로 나눌 수 있습니다. 이번 포스팅은 모델 기반 CF의 대표적인 예시인 MF(Matrix Factorization)에 대해서 설명하는 논문에 대해서 소개해 드리겠습니다. 참고한 자료는 아래의 링크에서 아래와 같습니다. 논문 링크 https://ieeexplore.ieee.org/abstract/document/5197422?casa_token=we8Q2eHsM1QAAAAA:YX49gyzdg-qpFTT-zbr24qiWL..

paper review 2023.04.12

Diversity, Serendipity, Novelty, and Coverage A Survey and Empirical Analysis of Beyond-Accuracy Objectives in Recommender Systems(2016)

들어가기 전 이번에 리뷰할 논문은 추천 시스템을 평가하는 다양한 지표들에 대해서 정리한 논문입니다. 정확도를 제외한 각 지표들은 다양성에 관한 다른 관점들을 가지고 있습니다. 이러한 점에 주목해서 논문을 읽으시면 더욱 도움이 될 것 같습니다. 해당 논문에서 각 지표들간의 관계에 대한 실험 내용이 나와있지만 요약으로 나타내도록 하겠습니다. 참고한 자료는 아래의 링크에서 아래와 같습니다. 논문 링크 https://dl.acm.org/doi/abs/10.1145/2926720?casa_token=SsI8HPAlvEcAAAAA%3A3kFhoO0M1rXbOdLiOscVIUVoz8_UQR5eZt1AG8Hv5e3QHF4KkbWiArz5by7Z4BI2wL_rz5c0saVD4uU Intorduction 기존 추천 시스템..

paper review 2023.04.02