배움/자료

전자상거래 추천시스템에 관한 동향분석- 제 3 장 추천시스템의 연구 및 적용사례

올드코난 2010. 6. 4. 20:20
반응형

3 장 추천시스템의 연구 및 적용사례

 

1G인터넷쇼핑몰의 사례[29]

 

데이터마이닝에 관한 연구는 지금도 계속 진행 중이고 그 중 연관규칙을 적용한 사례를 살펴보고자 한다. 연관규칙은 거래 데이터로부터 상품간의 관계를 규명하여 상품추천이나 상품진열 등을 지원하는 대표적인 데이터마이닝기법의 하나이며 다양한 연구활동이 이루어 지고 있다[Agrawal et al. 1993, 1994, 1996][Brin et al., 1997][Zaki et al., 1997]. 여기서 상품추천은 장바구니 분석(Basket Analysis)을 통해 고객이 관심을 가질 것으로 예상되는 상품을 제안하는 것이다[Shardanand and Maes et al., 1995][Konstan et al., 1997][Schafer et al., 1999][Kitts et al., 2000][Deshpand and Karypis et al., 2004] [Herlocker et al., 2004].

이와 같은 연구에도 오프라인의 소매상이 최적의 마케팅 믹스를 구성하기 위해 데이터마이닝 혹은 연관규칙을 어떻게 활용할 수 있는지에 대한 답은 제시하지 못하고 있다. , 연관분석을 통해 규명된 상품간의 관계가 전체 상품의 판매에 어떠한 파급효과를 일으키며, 각 상품이 전체 수익에 어느 정도 기여를 하는지에 대한 정확한 분석을 하지 못해 연관규칙이 상품의 가격결정이나 교체상품선택 등의 중요한 의사결정에는 사용되지 못하고 있는 실정이다[1]. 이러한 문제를 해결하기 위한 관련연구로 Brijs가 제안한 PROFSET[Brijs et al., 1999, 2000] Wang and Thomas[2002]가 제안한 HAP(Hub-Authority Profit Ranking)등을 들 수 있다. PROFSET은 개별상품의 수익보다는 교차판매에 따라 장바구니에 포함되는 전체 상품들의 수익극대화에 초점을 맞추고, 거래 내역으로부터 Maximal Frequent Itemset을 식별하여 이를 구매의도로 사용 했다. 하지만 PROFSET은 상품간의 관계 정도를 나타내는 연결 강도를 고려하지 못했고 Maximal Frequent Itemset은 거래에서 빈번히 발생하지 않기 때문에 이를 구매의도로 사용할 수 있는지에 대한 의문이 제기되었다. 또한, 선택된 상품간의 상대적인 우선순위에 대한 정보를 제시하지 못하는 단점이 있다 [Wang and Thomas, 2002]. Wang and Thomas(2002)는 웹의 연결구조를 이용하여 각 웹 페이지의 중요도를 평가하는 Kleinberg (1998) HITS(Hyperlink Induced Topic Search)알고리즘을 변형하여 상품간의 연관규칙에 따라 네트워크를 구성한 후, 각 상품의 Hub Authority값을 계산하여 각 상품의 중요도를 결정하는 HAP알고리즘을 제안하였다. 이 알고리즘은 상품간의 연결강도를 고려했으며, 각 상품이 전체 상품에 미치는 영향을 네트워크의 가중치 전파방법에 따라 계산함으로써 교차판매의 효과를 잘 반영하고 있으며, 컴퓨터 시뮬레이션에서 PROFSET보다 나은 성과를 보였다. 그러나 HAP에서 사용한 HITS알고리즘은 웹 페이지를 Hub Authority로 구분함으로써 정보검색의 효과를 극대화하기 위한 것으로써, 상품간의 영향의 정도를 표현하기에는 부족함이 있는 것으로 판단된다[1]. 데이터마이닝과 프로필 정보를 기반으로 한 추천시스템들에 대한 기존 연구를 토대로, 기존 접근 시스템의 한계를 극복할 수 있는 새로운 시스템을 제안하였다[29]. 저자가 제안한 연구를 통해 달성하고자 하는 4가지 핵심목표와 적용된 기법들은 다음과 같다.

(1)구매이력정보가 부족하더라도 효과적인 상품추천이 가능하도록 고객 프로필 관련정보를 최대한 활용한다.

(2)역사가 짧고, 영세한 쇼핑몰도 효과적으로 활용할 수 있도록 신규고객이나 구매이력이 없는 고객에게 효과적인 제품추천을 할 수 있는 추천 알고리즘을 구축한다.

(3)최대한 간단하게 알고리즘을 구현해, 적은 연산량으로도 추천결과를 생성할 수 있도록 설계한다.

(4)추천 방식이나 절차에 유연성을 부여해, 고객에게도 유용하지만, 판매자의 의도도 일부 반영할 수 있는 추천모델을 설계하도록 한다.

이상의 4가지 목표를 달성할 수 있도록, 새롭게 설계된 상품추천모델은 <그림2>와 같이 구성된다. <그림2>에서 새로운 모델은 두 가지 종류의 서로 다른 데이터 마이닝 알고리즘을 통해 구현되는 추천 모듈들과 이들의 결과를 조정해서 궁극적으로 최종적인 추천 결과를 양산해 내는 조정 에이전트로 되어 있다.

(1)모듈1 (연관규칙 기반추천) : 아이템간의 연관규칙을 찾아, 그 결과로 추천 아이템을 생성하는 모듈이다. 모듈1은 추천결과가 직접적인 형태로 도출되고, 적용이 용이한 규칙의 형태로 모델이 표현된다는 장점이 있지만, 고객이 최소한 어느 정도의 구매 이력을 갖고 있는 경우에만 추천결과를 제시할 수 있다는 단점이 있는데, 이러한 단점은 구매비율이 저조하고, 고객층이 넓지 않은 중소형 쇼핑몰들에게는 매우 큰 한계점이다.

(2)모듈2 (구매 행동예측을 위한 분류 기반 추천) : 구매이력이 충분하지 않아도 고객의 상세한 프로필 정보만 있으면 양질의 추천결과를 제시할 수 있도록 한다. 모듈2는 궁극적으로 사용자의 프로필정보를 토대로 모델링된 고객군들의 구매 추세를 기반으로 추천하는 알고리즘이다. 이는 사용자를 중심으로 추천 알고리즘을 모델링 하는 협동 필터링의 개념이 일부 반영된다. , 추천여부를 구매는1, 비구매는 0으로 분류하는 모형의 결과를 이용하는 것이다.

(3)조정 에이전트(Coordination Agent): 모듈12는 실질적인 추천결과를 양산해내는 역할을 하는 것이고, 조정에이전트는 각 모듈들이 추천한 결과들을 한데 모아, 그 중 우수한 것을 고르고, 최종적으로 고객에게 보여 줄 추천결과를 정리하는 기능을 수행하게 된다. 저자가 제시한 상품추천모델이 전체적인 웹 시스템으로 구축될 때, <그림3>와 같은 구조로 구현된다.

저자가 제안한 상품추천시스템의 구조는 Schafer(2001)가 제시한 전형적인 추천시스템의 구조를 충실하게 따르고 있다. 다만, 전통적인 구조에서는 고객과의 접점 역할을 하는 인터페이스 기능이 단순히 추천결과를 보여주는 기능만을 수행하는 반면, 제안된 시스템에서는 추 천을 담당하는 모듈이 2개이므로, 인터페이스가 추천결과를 조정하고, 화면 출력의 체계를 스스로 결정짓는 조정 에이전트의 개념을 함께 포함하고 있다는 차이가 있다.


제안한 추천시스템의 활용가능성을 검증하기 위해 저자는 G인터넷 쇼핑몰사이트에 적용해 봤다. G온라인 쇼핑몰은 오프라인에서 다이어트분야에 확고한 입지를 가지고 있는 P사가 운영하고 20007월 정식 오픈한 국내 유명 다이어트 전문온라인쇼핑몰이다. G사이트는 방대한 콘텐트와 우수한 서비스, 운영사의 신뢰도 높은 브랜드 이미지로 국내 온라인 다이어트 분야를 선도하고 있다. 다이어트는 고객이 익명성을 선호하면서도 한편으로는 성공적인 다이어트를 위해 서비스 제공자와의 상호작용 및 의사소통을 많이 원한다는 측면에서, 인터넷이 매우 효과적인 매체로 활용될 수 있는 분야이다. 특히, 이러한 전문 쇼핑몰의 경우, 회원 가입 시 고객이 제대로 된 맞춤서비스를 받기 위해 양질의 고개정보를 풍부하게 서비스 제공자에게 제공해 주기 때문에, 이러한 고객정보는 서비스 제공자에 있어 매우 유익한 정보로 활용될 수 있다.

 

<2> 모델링을 위해 G사이트로부터 확보한 데이터[29]

 

                   

데이터

-최근 3개월간 구매한 총3,298명의 회원의 4,353건에 대한 구매내역

-이때 데이터의 필더는 전처리 이후를 기준으로 46, 이 중41개의 변수가 명목형 변수, 5개는 비율척도로 된 변수

 

상품과 관련된 정보, 구매자의 연령, 체중, , 질병유무, 원하는 감량목표, 다이어트 요법 경험유무 등 고객의 개인적인 특성과 관련된 정보

구매경험

-전체구매고객의 80.44%가 위 기간 동안 단 1건만 구매

-그나마 구매 경험이 1건이라도 있는 고개의 비중은 전체회원의 단5%수준

=>기존의 추천방식들의 최소한 1건 이상의 거래내역이 있어야만 추천이 가능하다는 특성이 실제로 상당히 치명적인 문제점임을 증명한다.

 

<2>는 연구를 위한 데이터 정보이다. 이러한 자료들을 바탕으로 제안된 추천모델이 실제적으로 적용됐을 때의 결과와 이용자의평가를 확인하기 위해 프로토타입 형태의 웹 기반 시스템으로 구축하였다. <그림4>의 화면에서 방문객은 자신의 정보를 입력하고 <그림5>의 화면에서 자신이 예전에 구매한 경험이 있는 상품을 입력하면, 최종적으로 <그림6>와 같은 화면을 통해 최종적으로 추천결과를 제시한다.

저자의 연구에서 제시한 추천모델의 유용성을 검증하기 위해 프로토타입 시스템에 온라인 설문모듈을 첨부해 추천결과의 유용성에 대한 사용자들의 평가를 받아보았다.

설문은 크게 2단계로 나누어 이루어졌다. 1단계는 본 연구의 추천 알고리즘을 통해 상품을 추천한 뒤, 그 추천결과에 대한 사용자들의 평가를 입력 받았다. 2단계에서는 무작위로 상품을 추천해 보고, 그 추천결과에 대한 사용자들의 평가를 입력 받았다.

 실험의 공정성을 위해 무작위결과와 추천 알고리즘을 통한 결과 중 어떤 추천결과를 먼저 보여줄 것인가는 컴퓨터가 무작위로 선정하게 하였다. 그리고, 사용자가 입력하는 평가결과는 총5점 리커트 (Likert)척도로 입력하도록 하였다. <3>은 설문조사의 결과를 정리한 것이다.

 

<3> 온라인 설문의 결과[29]

 

추천시스템 결과

무작위 결과

빈도수

누적확률

빈도수

누적확률

점 수

1

0

0.00 %

8

10.81 %

2

14

18.92 %

13

28.38 %

3

33

63.51 %

37

78.38 %

4

19

89.19 %

15

98.65 %

5

8

100.00 %

1

100.00 %

평균점수

3.284

2.824

 

<3>에서 추천시스템을 통해 추천된 결과가 무작위로 추천된 결과에 비해 근소한 차이로 정보의 유용성 측면에서 앞서는 것으로 나타났다. 특히 누적 확률 분포로 볼 때, 추천시스템을 통해 추천된 결과가 특정고객에게 높은 점수를 받은 비중이 무작위로 추천한 결과에 비해 상대적으로 높은 것으로 나타났음을 알 수 있다. 두 만족도 점수 차이가 통계적으로 유의한지를 확인하기 위해 통계 소프트웨어 SPSS for Windows 13.0을 이용해 대응표본 T검정(paired-samples T-test)’을 수행하였다. 수행결과, 근사 유의확률이 0.003으로 나타나 95% 신뢰수준 하에서 두 만족도 점수간 평균의 차이는 통계적으로 유의함을 확인할 수 있었다[29]. <4>는 통계적 검증결과이다. 제안된 연구에서는 데이터마이닝 기법과 에이전트의 개념을 도입함으로써, 기존 상품추천방식들의 한계점을 어느 정도 극복할 수 있는 새로운 형태의 상품추천시스템을 제안하였다. 그리고 실제 국내 인터넷 쇼핑몰 사례에 적용하고, 그 시스템의 만족도를 설문 조사하여 시스템의 유용성을 검증하였다. 제안된 연구의 의의는 크게 2가지로 제시될 수 있다.

<4> 온라인 설문결과에 대한 통계적 검증결과[29]

 

Paired Difference

t

df

Sig.

(2-tailed)

Mean

Std.

Deviation

Std.Error

Mean

95%Confidence Interval of the Difference

Lower

Uper

SC1-SC2

.446

1.251

.145

.156

.736

3.066

73

.003

 

첫째, 인터넷 쇼핑몰이 확보된 고객 정보를 최대한 활용하여, 구매이력이 전혀 없는 고객에게도 효과적인 추천을 할 수 있는 새로운 추천 알고리즘을 제시하고 있다. 특히, 사례적용결과를 통해 볼 때, 상품군1의 예측율이 최대 80%이상까지 될 수 있다는 사실은 특정 분야에 전문성을 갖는 중소형 인터넷 쇼핑몰의 경우, 이러한 프로필 기반의 추천방식이 상당히 효과적으로 적용될 수 있음을 입증하고 있다고 할 수 있다. 둘째, 프로토타입 제시를 통해 모델의 적용가능성을 실제적으로 입증했다는 점이다. 특히 직접적으로 측정하지는 않았지만 개발된 프로토타입의 경우 팬티엄 3 PC서버 환경 에서도 거의 실시간으로 고객에게 추천결과를 제시할 수 있다. 즉 적은 연산량만을 필요로 함을 입증할 수 있었다. 하지만 몇 가지 한계점이 있는데, 우선 모델을 구축하는데 있어서, 프로필 정보는 활용하고 있으나, 웹 로그 등의 기타 행태적 정보를 배제시켜 제한적인 정보만을 활용하는 한계점이 있다. 또한, 사례 적용에 있어 적은 표본 수와 너무 광범위한 개념의 상품 군 설정으로 상품 군 1, 2 를 제외한 나머지 상품 군에서 분류 모형의 예측력이 전반적으로 낮게 나타난 점도 미흡하게 진행된 부분이다. 그리고 제시된 모델에서 조정 에이전트의 역할이 다소 수동적이고, 단순하게 설계 되었다는 점이다[29]. 제안된 자세한 내용은 [29]연구를 참조 하기 바란다.

반응형