(12月21日) 機械学習によるコンテンツの人気予測 in Wuaki.tv
こんにちは 。楽天技術研究所のumeda です。普段は、機械学習・統計学を、実際のビジネスに応用する業務に従事しています。今回は、その中の1例として、Wuaki.tvでのコンテンツ人気予測について、紹介させていただきます。1. Wuaki.tvとは??ところで、Wuaki.tvって、みなさんご存知ですか?Wuaki.tvは、スペインのバルセロナに本社を置く、動画配信サービス事業者です。設立は2009年で、2012年に楽天が買収致しました。現在は、本社があるスペインの他にも、イギリス・ドイツ・フランス・オーストリア・アイルランド等、欧州各地でサービスを展開しています。# 残念ながら、日本ではサービス展開していません >< (http://rakuten.today/blog/what-next-entrepreneur.htmlより引用)動画配信サービスには、大きく分けて、以下の2種類の形態があります。TVOD: ユーザは、見たいコンテンツを、都度、購入。SVOD: ユーザは、毎月一定額を支払い、好きなコンテンツを視聴。Wuaki.tvは、TVOD・SVOD両方のサービスを展開していますが、今回は、TVODでスペイン国内に配信されている映画のみに限定した話になります。2. コンテンツ買付けでの問題点Wuaki.tvは、コンテンツプロバイダ(例: Universal Studios, HBO,..)から放映権を購入する際、最初に、お金を支払う必要があります。ここ、重要なので、もう一度繰り返します。何人のユーザが、そのコンテンツを購入してくれるか分かりませんが、Wuaki.tvは、そのコンテンツを配信する前に、コンテンツプロバイダに、お金を支払う必要があります。このような仕組みだと、例えば、以下のようなことも、起こりえます。コンテンツプロバイダに、高い金額を、最初に支払った。そのコンテンツをWuaki.tvで配信したら、購入ユーザ数が、極端に少なかった。結果、「コンテンツプロバイダに最初に支払った金額 >> ユーザからの収入」となってしまった。このようなことを防ぐために、Wuaki.tv側からすれば、以下のような事項を事前に把握しておきたい・・・という課題がありました。配信しようとしているコンテンツが、配信後、何人のユーザから購入されるか?最初にコンテンツプロバイダに支払う金額は、幾らぐらいが、適切か?を事前に把握しておきたい・・・という課題がありました。というわけで、「配信前のコンテンツについて、配信後、購入ユーザ数がどれぐらいになるか、予測する」ということに、チャレンジしてみました。3. 予測方法過去にWuaki.tvで配信されたコンテンツについては、属性データや、購入ユーザ数のデータが存在します。そこで、これらのデータを教師データにして、予測モデルの構築を行いました。具体的には、以下のように、コンテンツの属性データから、購入ユーザ数を予測するモデルを構築します。ただし、購入ユーザ数を、ぴったり当てるのは難しいので、「購入ユーザ数を5つのレンジに分けて、各コンテンツが、どのレンジに該当するかを予測する」ことにします。幾つかの入力変数について、少し解説します。コンテンツプロバイダ、出演者、監督一定数以上のコンテンツに関連しているコンテンツプロバイダ・出演者・監督のみを、入力変数として、加えています。初期の興行収入映画の場合、インターネット上で配信可能になるのは、映画館で公開された後です。ですので、Wuaki.tvが配信したいコンテンツを選ぶ段階では、映画館での興行収入のデータが使えることになります。興行開始時期映画館での興行開始時期を表しています。モデルに関しては、今回は、ランダムフォレストというモデルを用いています。木の深さ・木の数等のパラメータについては、クロスバリデーションで最適な値を選択しています。4. 予測結果モデル構築に利用したコンテンツとは別に、評価用のコンテンツを用意しておき、モデルの評価を行った結果が、下記の表になります。Accuracyは、約81%です。つまり、約8割のコンテンツについては、将来の購入ユーザ数が正確に予測できたことになります。ところで、予測によく効いていた変数は、何でしょうか?ちょっと、考えてみてください。(下のほうにスクロールいただくと、答えを確認いただくことができます。)以下が、予測に特に効いていた変数TOP3になります。No.1は、興行開始時期です。言われてみれば当たり前・・かもしれませんが、「新しいコンテンツほど、購入ユーザ数が多い」ということになります。5. 現状と今後の課題現在、この予測モデルは、Web tool化され、Wuaki.tvでのコンテンツ買付け時に、利用されています。さらに、今後の課題となるのは、以下2点です。予測モデルのAccuracy向上: まだまだ予測がはずれているコンテンツも、全体の約20%存在しています。これらについて、例えば、楽天グループ内にあるEコマースのデータ等を用いて、さらにAccuracyを向上させることができるかもしれません。予測モデルの他国・他社への拡張: 今回は、Wuaki.tvの中でも、特に、スペイン国内向けに配信されているコンテンツだけを対象としていました。しかし、Wuaki.tvは、スペイン以外の国でも、サービスを展開しています。また、楽天グループ内には、Viki, 楽天Show Time等、コンテンツ配信を行っている会社が複数あります。予測モデルをさらに拡張させて、複数の国や会社に対応させることで、より汎用性が高いモデルを作ることができるかもしれません。最後に、ちょっと宣伝になりますが、楽天技術研究所では、Wuaki.tvでのコンテンツ人気予測のみならず、機械学習・統計学の実際のビジネスへの応用を進めています。興味がある方は、是非、以下のページから、ご応募ください!皆様からのご応募、お待ちしております!!https://rit.rakuten.co.jp/career.html