paper review

A Framework for Collaborative, Content-Based and Demographic Filtering (1999)

j.d 2023. 3. 16. 16:25

들어가기 전

본 논문은 추천 시스템(Resys, recommender system)의 방법중 많이 알려진 협업 필터링 방식(collaborative filtering)과 콘텐츠 기반 방식(contents-based)에 대해 자세히 기술되어 있습니다. 추가적으로 demographic filtering과 collaborative via contetns 방식을 설명하며 단일 정보에 기반한 방법보다 다양한 정보를 결합한 방법이 더 높은 정확성을 보여주는 논문입니다. 해당 방법에 대해 설명하며 실험 결과를 같이 설명하고 있어 이번 포스팅은 논문과 비슷한 순서로 진행하겠습니다.

 

참고한 자료는 아래의 링크에서 아래와 같습니다.

 


서론

추천시스템의 중요성

  • 매년 발생하는 방대한 양의 정보앞에서 소비자들은 선택의 길에 직면하게 된다.

본론

Collaborative recommendations

  • 사용자들간의 상관관계를 찾아 추천하는 방법

Ratings of five users of five restaurants

  • Jill과 비슷한 패턴을 보이는 Karen을 통해 Jill이 Dolce에 대해 좋아할지 예측한다.

이를 위해 사용한 유사도: 피어슨 상관계수

실험결과

  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 67.9%의 정확도를 보임(사용자 기반 방식)
  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 59.8%의 정확도를 보임(아이템 기반 방식)

 

Content-based recommendations

  • 사용자가 평가한 항목과 추천 대상 항목의 설명을 분석하여 추천하는 방법
  • TF-IDF를 통해 가중치가 가장 높은 단어로 문서를 표현
  • 해당 연구에서는 winnow 알고리즘 사용

linear threshold function of winnow
The words contained in the description of 5 restaurants together with the ratings of a user for those restaurants

실험결과

  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 61.2%의 정확도를 보임(단어 처리x)
  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 61.5%의 정확도를 보임(단어 쌍을 사용)

실험 결과 단어 쌍을 포함하는 결과가 좋긴하지만 정확도에 큰 영향을 미치지 않는다.

 

 

Demographic-based recommendations

  • 특정 객체를 좋아하는 사용자의 유형을 분석하여 추천하는 방법
  • 최근에는 잘 사용하지 않는 방법
  • 텍스트 분류를 통해 사용자 분류(winnow 알고리즘 사용)

Demographic information on the users who rated a restaurant together with the ratings of the users for that restaurant

실험결과

  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 57.5%의 정확도를 보임

정확도가 다른 방법보단 높지 않지만 다른 정보와 결합하여 예측 정확도를 높이는데 활용 가능

 

 

Collaboration via content

  • sparse data 문제점을 해결하기 위해 제안
  • 각 사용자의 콘텐츠 기반 프로필을 사용하여 사용자 간 유사성을 분석

Content-based profiles of five users plus their ratings for a particular restaurant

실험결과

  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 70.1%의 정확도를 보임

협력 필터링보다 더 많은 항목을 사용하여 유사성 결정 가능

 

 

Comparison of models

The precision of the three learning methods when learning from sparse data

실험결과

  • 콘텐츠 기반 필터링은 사용자가 평가한 식당이 서로 다른 지역에 위치해 있어도 정확도가 일정
  • 협업 필터링은 사용자가 공통적으로 평가한 식당의 수가 많을수록 정확도가 향상
  • 콘텐츠 기반 협업 필터링은 사용자들이 평가한 항목의 분포에 크게 영향을 받지 않는것으로 나타남

 

Combining Recommendations from Multiple Profiles

  • 지금까지의 접근 방식을 결합하여 정확도를 높일 수 있다.
  • 추천된 항목의 순위만을 고려

실험결과

  • 상위 세 개의 레스토랑을 추천했을때, 평균적으로 72.1%의 정확도를 보임

 

결론

  • 학습 알고리즘이 사용할 수 있는 정보를 공통 프레임 워크 내에 배치
  • 하이브리드 추천 방식 2가지(collaboraitve via content, combining recommendations) 제안

마무리

논문을 읽고나서 결론 부분과 제목이 어울려지지 않는것 같아 주제를 파악하는데 고민을 많이 했던것 같습니다. 제가 생각하기에 이 논문의 주제는 단일 정보를 이용하는 것보다 여러가지 정보를 통해 추천하는 것이 더 나을수 있다 입니다.  또한 1999년에 투고된 논문인 만큼 지금은 사용하지 않는 기법도 등장합니다. 따라서 너무 자세히 읽는것 보단 추천 시스템이 발전하는 과정을 알아간다는 느낌으로 읽기에 좋은 논문인 것 같습니다.