その他 (国内) 潜在的ユーザクラスタリングによるWebサイトの評価指標の提案

吉田 明広*、日暮 立田島 玲、秦 希望*、田中 智*、丸石 理起*、木村 圭児*、立岩 斉明*、若松 孝*、八代 洋輔*、永松 健一*、藤澤 克樹* *九州大学

九大ー理研ー福岡市・ISIT 3者連携シンポジウム「数理・AIが解く未来~計算科学の展開と期待~」


Webサイトの評価指標として、ページビュー数やコンバージョン率や平均滞在時間などが知られている。従来用いられているこれらの指標はアクセスログに単純な計算を施しただけであり、データの一部の情報を見ているに過ぎない。本研究では、アクセスログ全体の滞在時間分布に着目し、Webサイトの分析・評価を行った。滞在時間分布推定には製品の故障率の測定に用いられるワイブル分布を用いている。一般にWebサイト上のユーザの挙動は複数のクラスタに分かれるため、混合ワイブル分布でフィッティングを行う。Yahoo! Japanとの共同研究において、同社の持つ超大規模実データを用いた数値実験を行い、ユーザーの興味度に応じてクラスタを作り、Webサイト毎にユーザーの興味度が移り変わる様子を表現した。そして、クラスタ毎に単一のワイブル分布にフィッティングし、その確率分布を基とした新たなWebサイトの評価指標の提案を行った。

There have been extensively used well-known indices for evaluating web site performance, such as the number of page view, the conversion rate, average time on website, and so on. These indicators can be easily calculated with the access log, however, they only focus on a part of enormous amount of information. Our research utilizes the residence time distribution of the access log to analyze and evaluate the performance of website. We assume that the residence time on each webpage follow Weibull distribution which has been used for measuring the failure rate of products. In general, the behavior of the user on the website is consisted of multiple clusters, so we apply the mixture Weibull distribution for fitting residence time. Numerical experiments are conducted by solving extremely large-scale optmization problems generated by real data which Yahoo Japan Corporation stores. We create clusters according to the interest of users, and express how the interest of each user changes for each website. After that, we fit single Weibull distribution per cluster and the mixture Weibull distribution can be reproduced by summing up Weibull distributions. We finally propose the new performance index for evaluating website based on the shape parameter of these distributions and the size of cluster.