전체 글 41

[NLP#2] 통계 기반

저번 포스팅에서는 thesaurus를 통해 컴퓨터에게 자연어의 의미 전달하는 방법에 대해 알아보았습니다. 2023.05.12 - [Deep Learning] - [NLP#1] 자연어 처리란? - thesaurus 이번 글에서는 저번 시간에 이어서 통계 기반 기법에 대해 알아보도록 하겠습니다. 컴퓨터에게 자연어를 이해시키기 위한 수단으로써 첫 번째로 수작업으로 단어 간 관계를 정의하는 시도가 있었습니다. 대표적인 예로 스탠퍼드에서 만들고 있는 WordNet을 소개해드렸습니다. 하지만 이런 thesaurus는 사람이 직접 관계를 구축하기 때문에 단어의 동적인 요소와 미묘한 차이를 표현할 수 없다는 점과 비용이 많이 든다는 단점이 존재했습니다. 따라서 이를 해결하기 위해 단어의 뜻을 자동으로 추출하는 '통계 ..

NLP 2023.05.15

[NLP#1] 자연어 처리란? - thesaurus

NLP 포스팅에서는 자연어 처리의 정의와 방법에 대해 알아보도록 하겠습니다. 다음 글까지는 신경망에 대한 지식은 필요 없지만 이후 글의 주제인 추론 기반 방법으로 넘어가게 되면 딥러닝의 개념이 적용되게 됩니다. 따라서 해당 지식을 학습하시고 오면 이해하시는데 큰 도움이 될 것입니다. ※ 딥러닝도 추후 다루도록 하겠습니다. NLP란? NLP란 Natural Language Processing의 약자로 직역하면 '자연어 처리'를 의미합니다. 자연어(natural language)는 한국어와 영어 등 우리가 평소에 쓰는 말을 뜻합니다. 따라서 NLP의 목표는 컴퓨터가 사람의 말을 이해할 수 있도록 가공하는 것입니다. 왜 자연어라고 말하는 걸까요? 우리가 사용하는 말은 시간, 장소, 주변 사람 등 많은 조건들에..

NLP 2023.05.12

[머신러닝#2] 지도 학습 - KNN

저번 포스팅에서 설명드렸던것처럼 머신러닝에는 다양한 알고리즘이 존재합니다. https://just-data.tistory.com/10 이번 포스팅에서는 그중 KNN에 대해서 알아보겠습니다. KNN KNN은 특정 자료의 분류기준을 정할 때, 주변 k개의 데이터가 속하는 클래스들 중에서 가장 많은 클래스로 특정자료를 분류하는 방식을 의미합니다. 위의 사진처럼 새로운 데이터 ? 가 속하는 클래스를 결정하기 위해 가장 가까운 k개의 데이터(k=5) 클래스들 중 다수투표(major voting) 방식에 의해 최다 출현 클래스로 할당하게 됩니다. 따라서 다음과 같은 특징들이 존재합니다. lazy learner training data로부터 수학적 모형인 판별 함수를 학습하지 않습니다. instance-based l..

Machine Learning 2023.05.11

[머신러닝#1] 머신러닝 개요

산업이 발달하기 시작하면서 대부분의 기술들이 인간의 편의를 줄이기 위해 발전되었습니다. 그중 하나가 머신러닝이라고 할 수 있는데요. 예를 한번 들어봅시다. 우리가 흔히 아는 '스팸 메일'의 같은 경우, 지금은 자동으로 스팸메일을 잘 분류해 주지만 초기에는 아마 다음과 같은 방법으로 분류했을 겁니다. 스팸 메일에서 자주 등장하는 단어 파악 Ex. 신용카드, 무료, 펀드 등 해당 단어가 등장하는 메일을 프로그램이 발견했을때, 그 메일을 스팸으로 분류 충분한 성능이 나올 때까지 1단계와 2단계를 반복 초반에는 위의 방법이 잘 통할수 있지만 시간이 지날수록 등장하는 단어의 규칙, 방법 등이 다양해지면서 수작업으로 규칙을 모두 정의하는 것은 매우 힘들어졌을 겁니다(또한 비용도 많이 들어가죠.). 따라서 스팸과 같..

Machine Learning 2023.05.10

[추천 시스템#3] 협업 필터링(Collaborative filtering) 개요

이번 시간부터는 현재까지 추천 시스템 분야에서 가장 많이 사용되는 기법인 협업필터링(Collaborative Filtering, CF)에 대해 알아보도록 하겠습니다. Collaborative filtering 협업필터링이라고 불리는 CF는 특정 아이템에 대해 선호도가 비슷한 사용자들은 다른 아이템에 대해서도 비슷한 선호도를 보일 것이라는 가정을 바탕으로 사용자 또는 아이템 간의 유사도를 통해 선호도를 예측하는 방식입니다. CB는 자신의 데이터만을 사용하여 선호도를 예측하지만 CF의 경우 다른 사람의 정보를 통해 선호도를 예측하는 것이 가장 큰 차이라고 할 수 있습니다. 따라서 다른 사람의 선호도를 반영하기 때문에 추천되는 아이템의 다양성을 보장할 수 있다는 장점이 있습니다. 하지만 사용자와 아이템 행렬을..

reommender system 2023.05.08

[추천 시스템#2] 콘텐츠 기반 추천 시스템(content-based recommender system)

지난 시간에는 추천 시스템의 정의, 종류 등을 살펴보았습니다. 이번 포스팅은 추천 시스템 종류 중 콘텐츠 기반 추천 시스템(content-based, CB)에 대해서 얘기를 나눠볼려고 합니다. Content-based filtering content-based filtering이라고도 불리는 CB는 사용자의 구매 이력을 통해 이와 비슷한 카테고리의 제품을 추천하는 방법을 의미합니다. CB의 특징은 다음과 같습니다. 독립적 정보 활용 추천 대상 사용자의 과거 구매이력이나 profile 정보만 이용하기 때문에 CF처럼 다른 사용자의 정보가 부족할 경우에도 유용하게 쓰일수 있습니다. 위의 특징은 다시 말해 사용자의 정보가 부족하다면 성능이 낮아지거나 존재하지 않는다면 구현이 불가능하다는 뜻과 같습니다 Firs..

reommender system 2023.04.27

[추천 시스템#1] 추천 시스템이란?

과거에는 대부분 매장에서 직접 물건을 구매하고 판매자와의 직접적인 소통을 통해 원하는 물건을 보고 체험한 뒤 구매를 결정하였습니다. 하지만 최근에는 TV나 컴퓨터, 핸드폰 등 각종 스마트 기기들의 발전에 따라 고객들은 다양한 방법을 통해 언제 어디서나 간편하게 물건을 구매할 수 있게 되었습니다. 그러나 정보 기술의 발전 또한 급격해짐에 따라 많은 양의 정보들이 생성되어 사용자들은 관심 있는 상품에 대한 선택이 어려워지는 상황에 직면하고 있습니다. 이를 위해 개인을 위한 맞춤 추천 시스템 개발의 중요성이 대두되고 있습니다. 추천 시스템은 우리가 사용하는 대부분의 매체에서 사용되고 있는데요. youtube를 예로 들어보겠습니다. 제가 최근 youtube에서 드라마 '미생' 영상과 재즈 영상을 많이 보았더니 ..

reommender system 2023.04.25

Matrix Factorization Techniques Recommendation Systems (2009)

들어가기 전 최근 대부분의 추천 시스템은 비슷한 성향을 가진 사용자들 간의 유사도를 이용한 방식을 사용합니다. 이를 협업 필터링(Collaborative Filtering, CF)이라고 하는데요. 이는 크게 메모리 기반 방식(memory-based)와 모델 기반 방식(model-based)으로 나눌 수 있습니다. 이번 포스팅은 모델 기반 CF의 대표적인 예시인 MF(Matrix Factorization)에 대해서 설명하는 논문에 대해서 소개해 드리겠습니다. 참고한 자료는 아래의 링크에서 아래와 같습니다. 논문 링크 https://ieeexplore.ieee.org/abstract/document/5197422?casa_token=we8Q2eHsM1QAAAAA:YX49gyzdg-qpFTT-zbr24qiWL..

paper review 2023.04.12

Diversity, Serendipity, Novelty, and Coverage A Survey and Empirical Analysis of Beyond-Accuracy Objectives in Recommender Systems(2016)

들어가기 전 이번에 리뷰할 논문은 추천 시스템을 평가하는 다양한 지표들에 대해서 정리한 논문입니다. 정확도를 제외한 각 지표들은 다양성에 관한 다른 관점들을 가지고 있습니다. 이러한 점에 주목해서 논문을 읽으시면 더욱 도움이 될 것 같습니다. 해당 논문에서 각 지표들간의 관계에 대한 실험 내용이 나와있지만 요약으로 나타내도록 하겠습니다. 참고한 자료는 아래의 링크에서 아래와 같습니다. 논문 링크 https://dl.acm.org/doi/abs/10.1145/2926720?casa_token=SsI8HPAlvEcAAAAA%3A3kFhoO0M1rXbOdLiOscVIUVoz8_UQR5eZt1AG8Hv5e3QHF4KkbWiArz5by7Z4BI2wL_rz5c0saVD4uU Intorduction 기존 추천 시스템..

paper review 2023.04.02

Analysis of Recommendation Algorithms for E-Commerce (2000)

들어가기 전 본 논문은 e-coomerce 데이터와 같이 대규모 데이터를 이용하여 추천 시스템을 구현할때 유용한 기술을 제안하는 내용입니다. sparse한 전자 상거래 데이터에 적합한 collaborative filtering 접근 방식을 전통적인 데이터 마이닝 추천 시스템과 비교하는 실험 내용을 담고 있습니다. 참고한 자료는 아래와 같습니다. 논문 링크 https://dl.acm.org/doi/pdf/10.1145/352871.352887 Introduction 많은 E-commerce 사이트가 생기면서 많은 제품 중에서 선택하는 것은 소비자에게 어려운 문제이다. 이를 위해 등장한 기술중 하나가 협업 필터링(collaborative filtering, CF) 이다. 하지만 CF는 다음과 같은 문제점을 ..

paper review 2023.03.26