なりせなるてず

技術ブログにしたい

XVIDEOのタイトルを形態素解析

XVIDEOのデータをダンロード出来ることを最近知り、元々試してみたかった形態素解析に持ってこいだなーと思ったので試してみました。

試したくなった元記事↓
形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記


やったこと
  1. XVIDEOS' Entire Video Database 左のページからデータをダウンロード
  2. パースしてMysqlに保存
  3. タイトルを形態素解析MeCabを使用)。ストップワード処理を施す。
  4. それぞれの単語をカウント

元記事にもとづいて30位まで出してみました
統計学とかデータマイニングとかを勉強したことは無いのでお遊びです
f:id:ichiy:20131213195123p:plain

推測するとこんな感じでしょうか
・外国の方はとにかくファ○クが大好き
・そしてとことんハードコア
・レインボーフラッグとか掲げて街を練り歩いたりするあたり10位に「gay」が来るのも納得
・「teen」や「babe」など。危険な感じがするのでノーコメント
・「blond」「amateur」「sult」など日本のAVでもよくあるジャンルもある
・元記事の日本モノと比べると割りと普通な印象



もっと面白いのが来るかなーと思ってたんですが、やっぱり数えると王道なのが多いんですね。
それとも日本人に変わった性癖の方が多いだけでしょうか?

せっかく時間かけて解析したので何か面白いことしたかったんですが、結局何も思いつきませんでした。