배움/자료

전자상거래 추천시스템에 관한 동향분석- 2장 이론적배경

올드코난 2010. 6. 4. 20:15
반응형

3절 협업필터링 추천 방법

 

협업필터링은 웹을 기반으로 하는 인터넷 쇼핑몰에서 이용되고 있는 상품추천기법중의 하나로써, 목표고객과 유사한 구매이력을 보이는 이웃 고객들의 상품에 대한 선호를 바탕으로 목표고객에게 유용한 상품을 추천하는 방법이다[27, 28]. 현재까지 협업필터링은 가장 성공적인 상품추천기법이고, 고객들의 상품에 대한 평가를 이용하는 정보 필터링 기법의 하나로, 일상생활에서 가족, 친구, 동료들의 경험을 통한 구전효과를 자동화한 것이다. , 해당 고객과 선호도가 유사한 고객들이 과거에 좋아했던 상품을 추천한다.


일반적으로 협업필터링은 다음의 과정으로 나눠볼 수 있다. [27]

(1)입력 데이터 구성(Data Representantion): 협업필터링 기반 상품추천시스템에서의 입력데이터는 보통 n개의 상품에 대하여 m명 고객의 구매 트랜잭션의 집합으로 구성되며, 보통 n m의 고객-상품 행렬 R로 표현될 수 있다.

(2)이웃 집단 탐색(Neighborhood Formation): 고객간의 유사도를 계산하여 이웃 집단을 탐색하는 과정이다. 두 고객의 유사도를 측정하는 방법으로써 피어슨 상관계수(Pearson Correlation), 코사인(Cosine) 등을 사용한다.

(3)추천 상품 결정(Generation of Recommendation): 상품추천을 위한 마지막 단계로서 설정된 이웃 집단으로부터 상위 N개의 추천상품 목록을 이끌어 내는 단계이다.

위의 과정을 소매업에서 협업필터링을 기반으로 하는 추천시스템은 다음과 같은 방법으로 제품을 추천한다[27].

(1)고객프로파일 생성(Customer profile construction) 특정 기간 동안 임의의 고객의 구매기록은 해당 고객의 상품 선호도를 나타내는 고객 프로파일을 구성하는 데 사용한다. 고객 프로파일은 통상적으로 P로 표현되는데 P의 원소 Pij는 고객 i가 제품 j를 구매하면 “1”, 그렇지 않으면 “0”으로 표시된다.

(2)유사 선호고객(Neighborhood)형성: 이 과정은 협업필터링 기반의 추천시스템에서 가장 중요한 부분이다. 이 과정에서 목표고객과 유사한 과거 구매 형태를 보인 유사 선호고객들을 찾는다. 목표고객의 프로파일과 각 고객의 프로파일간의 상관관계를 계산하여 유사 선호고객을 찾게 된다. 일반적으로 목표고객과 유사 선호고객간의 유사도에 따라 K개의 유사 선호고객을 찾게 되는데, 이를 K크기의 유사선호고객의 집합이라고 한다.

(3)추천제품도출(Recommendation generation): 일단 목표고객에 대한 유사 선호고객이 결정되면, 추천시스템은 유산 선호고객들이 구매한 제품이면서, 목표고객이 아직 구매하지 않은 상품 중 목표고객이 아직 구매하지 않은 상품 중 목표고객이 구매할 가능성이 높은 N개의 상품을 추출하여 추천하게 된다.

협업필터링에 대한 초기 연구로는 Tapestry [33], GroupLens [34] 등의 사례가 대표적이며, Ringo Video Recommender 등과 같은 e-mailweb기반의 협업필터링 기법에 의한 추천시스템 등이 있다[27]. 협업필터링은 고객들이 유사한 평가를 보이는 상품(item)에 대해 보다 높은 적중률을 보이며, Data가 많을수록 내용기반 필터링이나 다른 기법에 비해 상대적으로 높은 예측력을 보이는 장점을 가지고 있다. 이러한 장점 때문에 협업필터링은 다양한 분야에서 적용되고 있지만, 다음과 같은 근본적인 한계점을 갖고 있다.

(1)투명성(Transparency): 고객은 상품들이 어떻게 추천되었는지 알 수 없다는 추천정보와 고객 선호도와의 관계가 불명확하다는 문제점이 있다. 투명성 문제를 완화하기 위해 김재경[31]은 추천과정에서 발생한 고객 프로파일정보, 최근접 이웃고객정보, 고객 평가치 정보, 추천목록정보등과 웹로그 데이터, 아이템 데이터, 시스템이 생성 한 추천목록 데이터를 이용하여 아이템조회비율, 장바구니에 담은 비율, 구매비율, 유명매체 추천 등 20가지 유형의 설명기능을 추가한 추천시스템을 구현하였다.

(2)입력데이터의 희박성(Sparsity): 협업필터링은 고객의 선호도 데이터를 많이 확보할수록 추천의 정확도가 높아진다. 반대로 데이터 즉 고객의 상품에 대한 평가치가 적을수록 추천의 신뢰도가 떨어지게 된다. 협업필터링은 기본적으로 상품에 대한 고객의 선호도 또는 구매이력자료를 바탕으로 추천을 하게 되므로 고객 및 구매이력을 많이 보유하고 있는 대형 쇼핑몰에서는 유용하지만, 상대적으로 구매이력이 낮은 중소 인터넷 쇼핑몰이나 사업 초기단계의 경우에서는 적용 가능성이 떨어진다. , 협업필터링의 속성상 구매이력이 부족한 경우에는 추천의 성과가 떨어질 수 밖에 없다[28]. 희박성 문제를 완화하기 위해 선행연구에서는 웹 로그 정보를 활용하여 간접적으로 선호도 Data를 보충하고자 하였다[3, 26]. 하지만 웹 로그 정보는 일반적으로 대용량이며 정제되지 않은 형태이므로 고객의 선호도 점수를 직접 취득하는 것만큼 처리과정에 많은 시간과 비용이 소요된다는 단점이 있다.

(3)시스템의 확장성(Scalability): 고객과 거래 Data(상품의 수)가 늘어남에 따라 이웃고객 군을 찾기 위한 연산양은 기하급수적으로 늘어나기 때문에 심각한 시스템 확장성 문제에 직면하게 된다[3, 26]. 이는 해결해야 하는 문제가 제시된 이후에야 추론을 시작하는 게으른 학습방법(lazy learning technique)’의 일반적인 특징으로, 신속한 응답을 원하는 인터넷 사용자의 특성을 감안할 때 고객의 이탈을 유도할 수 있는 치명적인 한계점이다[29]. 확장성의 문제 해결을 위해 Li and Yamada(2004)는 고객들간의 유사도를 계산하는 대신 고객을 그룹화한 후 그룹들간의 유사도를 계산하여 추천목록을 생성하는 시스템을 제안하였다. 김재경[26] K-Means 군집분석을 협업필터링 사전단계로 활용하여 탐색공간을 축소하였고, Roh (2003)과 강부식(2003)은 군집분석기법의 하나인 자기조직화 지도를 활용하여 사례탐색공간을 축소하였다. Kim Han(2001)은 협업필터링과 함께 게으른 학습방법의 하나인 사례기반추론에서 자기조직화지도 분석을 추론 이전단계에 활용하여 분석 데이터의 양을 줄이고자 하였다. 김재경[1, 28], Cho(2002), Kim(2002), 조윤호(2004)등은 희박성과 확정성의 문제를 보완하기 위하여 상품계층도(Product taxonomy)를 활용하는 방법을 제안하였으나, 여전히 하나의 상품계층도의 각 상품계층군 안에서는 각 고객의 선호도가 제대로 반영되지 않아서 추천의 성과가 떨어지는 경우가 발생할 수 있다. , 상품계층도의 작성이 상품추천의 성과에 큰 영향을 미칠 수 있는데 선행연구에서는 전문가의 주관적인 판단을 참고하는 방식으로 연구를 진행하였으나 이 점 역시 한계점이 될 수 있다[29].

지금까지의 연구들을 종합해 보면 협업필터링이 상품추천에 있어서는 매우 유효한 방식이지만, 희박성과 확장성의 한계점이 있고, 이러한 한계점을 보완하고 완화시켜 추천 성능을 제고할 수 있는 방안에 대한 지속적인 연구가 필요하다.
반응형