추천 시스템 7장

행렬분해 : 평갓값 행렬을 저차원의 사용자 인자 행렬과 아이템 인자 행렬로 분해하는 것

행렬분해를 사용할 때는 라이브러리를 사용, 이들을 다루는 방법에 대해 이해한 뒤 적절한 데이터를 입력해 학습시켜야 한다.

평갓값이 명시적이다. = 사용자가 아이템에 대해 명시적으로 평가한 데이터를 말함.

ex) 각 영화와의 상성은 벡터의 내적을 사용해서 계산, 이렇게 정보를 압축해서 영화와 사용자를 저차원의 베터로 표현하고 그 벡터 공간 안에서 사용자의 상성을 측정하는 것이 행렬분해의 핵심

비음수 행렬 분해 : 행렬 분해 시 사용자와 아이템 각 벡터의 요소가 0 이상 되는 제약을 추가한다.

제약에 따라 각 사용자나 아이템의 벡터해석특성이 향상된다.

명시적인 평갓값에 대한 행렬 분해 : 결손값을 메꾸지 않고 관측된 평갓값만 사용해 행렬분해하는 방법

행렬분해에서는 잠재 인자 수와 에폭 수, 정규화 파라미터 조정이 중요하다.

파라미터들의 적절한 값은 그리드 서치나 베이즈최적화등을 이용해 찾는다.

암묵적인 평갓값에 대한 행렬 분해

암묵적인 평갓값이란 사용자가 명시적으로 평가하지 않은 사용자의 행동이력을 의미

암묵적인 평가의 특징

음수의 예가 없다.
클릭 수 등과 같이 평갓값을 가질 수 있는 범위가 넓다.
노이즈가 많다.

실무에서는 행렬 분해를 사용할 때 스파크 등 라이브러리나 서비스에 구현되어있느 ㄴ행렬 분해가 명시적 행렬 분해인지 암묵적 행렬 분해인지 확인한 후 적절히 사용해야한다.

FM : 사용자나 아이템의 속성 정보를 사용함으로써 신규 아이템이나 사용자에 대한 추천이 불가능한 콜드 스타트 문제에도 대응할 수있다는 장점을 갖고 있다.

사용자와 아이템의 속성 정보 등의 보조 정보를 연결한 것.

좋은 점 - 특징량끼리의 조합도 고려할 수 있음.

FM 식

FM에서는 특징량 수를 늘려도 파라미터가 제곱에 비례해서 늘어나는 것이 아니라 선형으로 늘어난다.

자연어 처리 방법에 대한 추천 시스템 응용

상품 설명문이나 사용자 리뷰를 분석함으로써 콘텐츠 기반 추천으로 비슷한 상품을 찾을 수 있음

토픽 모델

토픽 할당에 디리클레 분포를 사전 분포로 가정해 베이즈 추정을 한 모델

1. LDA를 문장에 적용할 때는 먼저 MeCab 등의 형태소 분석 라이브러리를 사용해 문장을 분할

2. 다음으로 조사나 구두점을 제거하고 명사와 형용사만 남기는 등으로 전처리

3. 어떤 품사 를 남기고 삭제하는가에 관한 판단은 비즈니스 목적에 따라 다름.

이 데이터를 LDA에 입력하면 각 토픽별 단어 분포와문장 토픽 분포가 계산된다.

LDA에 데 이터를 입력할 때는 토픽 수라는 파라미터를 미리 결정해놓아야 한다.

LDA를 사용한 협조 필터링 추천

행동 이력에 LDA를 적용해 얻을 수 있는 장점은 추천 시스템을 만드는 목적 외에도 탐색적 데 이터 해석 (EDA)으로 사용자나 아이템에 대한 이해도를 높일 수 있다,

행동 이력을 기반 으로 각 아이템을 모아주기 때문에 상품의 설명문만 언뜻 보면 다른 것처럼 보여도 사실 함께 구입되기 쉬운 아이템임을 알 수 있다.

word2vec

'단어의 의미는 그 주변 단어에 따라 결정된다라는 가설이 있다. 이 가설을 분포 가설이 라고 한다,

이 분포 가설을 기반으로 단어의 의미를 벡터로 표현하는 방법 중 하나가 word2vec이다.

word2vec을 학습시키면 출력으로 각 단어의 벡터를 얻을 수 있다.

그리고 그 단어의 벡터를 사용해 단어의 유사도를 설계할 수 있다.

word2vec을 사용한 협조 필터링 추천(item2vec)

이 방법은 item2vec 또는 prodZvec 이라 불리며 구현이 간단하고 추천 성능이 높아 에어비앤비Airbnb 등의 기업에서 사용되고 있다.

LDA의 경우와 마찬가지로 사용자의 행동 이력을 단어의 집합으로 간주하고 word2vec을 적용한다.

이때 사용자가 행동한 순서대로 아이템을 나열하는 것이 중요하다.

word2vec에 는 window.size라는 파라미터가 있으며 이 액션 순서까지 고려해 학습시킨다

이 벡터를 사용하면 아이템 간 유사도를 계산할 수 있으며 관련 아이템 추천을 구현한다,

그리고 이 아이템의 벡터를 사용하면 사용자에게 간단히 추천할 수 있다

딥러닝

딥 러닝Deep Learning은 2010년대 전반에 컴퓨터 비전이나 자연어 처리 등의 분야에서 기존 방법의 성능을 크게 뛰어넘으며 주목을 받았다.

오늘에 이르기까지 산업계와 학계에서 다양한 분 야의 딥 러닝 연구가 계속되고 있다

딥러닝을 활용한 추천 시스템 실무에서는 주로 다음과 같은 2가지 방법으로 딥러닝을 추천 시스템에 활용

• 이미지나 문장 등 비구조 데이터의 특징량 추출기로 활용

・ 복잡한 사용자 행동과 아이템 특징량 모델링

이미지나 문장 등 비구조 데이터의 특징량 추출기로 활용

딥러닝은 이미지 분석이나 자연어 처리 분야에서 많은 모델이 제안되었고 큰 성과를 남겼다,

그 모델들은 다층 레이어 구조로 되어 있어 분류 문제 등 태스크를 해결하는 데 필요한 특징이 각 레이어에서 추출된다.

즉, 입력 데이터로부터 불필요한 정보를 삭제하고 레이어를 경유해서 태스크를 해결하기 위해 필요한 정보로 압축한다고 생각할 수도 있다

복잡한 사용자 행동과 아이템 특징량 모델링 추천 시스템에서 딥러닝의 장점으로 다음 2가지를 들수 있다.

• 비선형데이터모델링

• 시계열데이터 모델링

비선형 데이터 모델링

DeepFM은 Factorization Ma사lines를 딥러닝화한 방법

아이템이나 사용자의 특징량 에 대해 특징량 엔지니어링이 필요 없으며 그대로 모델에 입력할 수 있다.

모델 안에서는 고차원의 각 특징량 조합도 학습해준다

시계열 데이터 모델링

RNN이나 LSTM은 자연어 처리 분야에서 제안된 방법

단어 예를 입력하면 다음에 만들어질 것으로 예상되는 단어를 알려준다.

이전 절의 자연어 처리 추천 시스템 응용 부분에서도 소개했지만 사용자가 클릭한 아이템 리스트를 단어 계열로 봄으로써 이 자연어 처리 방법들을 응용할 수 있다

도토리의 여행

추천 시스템 7장

자연어 처리 방법에 대한 추천 시스템 응용

토픽 모델

LDA를 사용한 협조 필터링 추천

word2vec

word2vec을 사용한 협조 필터링 추천(item2vec)

딥러닝

이미지나 문장 등 비구조 데이터의 특징량 추출기로 활용

복잡한 사용자 행동과 아이템 특징량 모델링 추천 시스템에서 딥러닝의 장점으로 다음 2가지를 들수 있다.

비선형 데이터 모델링

시계열 데이터 모델링

추천 시스템 평가

3가지평가 방법

오프라인 평가

기타 지표

온라인 평가

A/B 테스트

가설

지표의 역할

인터리빙

티스토리툴바