共有する

いまさら聞けないテキストマイニングとは?

(Writer:幾谷)

顧客の気持ちをマイニングする

これまで扱いが難しかったアンケートの自由記述を分析し,顧客満足度を高めるためのプランを構築する.手間と時間を抑えながら本当に求められているキャンペーンを選択する.そんな夢のようなことがテキストマイニングという技術によってできるようになってきています.実際の企業では,ポッキーやプリッツで有名な江崎グリコが積極的にこの技術を取り入れ,市場調査などの分野で効果を上げています(参考:http://markezine.jp/article/detail/14029 ).

「マイニング(mining)」は英語で採掘を意味する単語です.テキストマイニングとは「テキストデータからの知識の採掘」と言われます.大量のテキストという鉱山の中からビジネスに役立つ金塊(=知識)を掘り出すという風にイメージしてもらえば,すこしこの言葉の意味がわかってもらえるでしょうか.この記事では知識がほとんどない,もしくはゼロの人に向けて,テキストマイニングとは何なのか,どのように実行されるのかを例を交えて説明します.

ai_01

(cited by http://biz-files.com/word/466.html

毎晩10時の日記

テキストマイニングについて理解するためにある状況を想定してみましょう.

私は毎日夜の10時からその日あったことや好きなものについてWeb上で日記をつけます.ひょんなことからあなたは私の日記をいつでも見られる立場にいます.仕事上の都合により,あなたは私の最近の好みを知る必要が出てきました.こういう状況で,あなたはどのような行動を取りますか?

もっとも単純な作戦としては,日記を全部チェックしてよく出てくる単語をリストアップすることが考えられます.よく出てくる単語は,私が最近よく気にしていることと強く関連するのは自然な流れです.ただし,すこしおかしくなった私は1日に1000本の日記をつけるようになりました.ひとつひとつ読んでいては埒があきません.そこであなたは,コンピューターを使って自動で日記の中によく出てくる単語を見つけようと考えます.テキストマイニングの出発点としてはこれで十分です.

コンピューターによる日記の分析

まずは日記の中の文章を意味のある最小単位(たとえば「小林さん」「渋谷」「待ち合わせ」)に分けたいと考えます.テキストマイニングでは文章をこのように分割することを「形態素解析」と呼びます.厳密には分割した最小単位それぞれの品詞を推定する作業も形態素解析に含まれます.また分割した文章の最小単位のことを「形態素」と呼びます.

形態素解析によって,私が書いた膨大な日記データは大量の形態素に変換されました.ここであなたはこの大量の形態素の中で最も多く現れる名詞を特定したいと考えます.このようなときに行うのが「形態素の頻度分析」です.形態素の頻度分析は,与えられた形態素の集合の中でどれがどのくらい頻繁に現れるかを計算します.頻度分析の結果,「エベレスト」「登山」「自然」という名詞が私の日記の中でよく現れる名詞ベスト3であることが分かりました.

この結果を見たあなたは登山時に便利なグッズを私に売り込むことを決めました.すると,私は大変喜んで,あなたからそのグッズを1000セット購入することを約束しました.

ai_02

(cited by http://gengoro.zoo.co.jp/index.php )

テキストマイニングの可能性

ここで紹介した例の中で,私の日記を「SNSで公開されている見込み客の日記」に,あなたの立場を「ECサイトのオーナー」に変更すると,すこしテキストマイニングの可能性が見えてくるのではないでしょうか? 今回ご紹介したのはテキストマイニングの基本の「キ」の内容です.したがって,もっともっとテキストマイニングを学べば,あなたが抱えている複雑な問題にもこの技術が適用できるかもしれません.

最後にテキストマイニングのためのツールをご紹介します.日本語の分析で最もポピュラーなものとしては,京都大学が開発したMeCabがあります(参考:http://taku910.github.io/mecab/ ).簡単にかつフリーで利用できるので,ご自身のパソコンに導入して遊んでみると良いかもしれません.

MeCabを利用してデータ分析をがっつりやろうとする場合には,統計解析プラットフォームRをお勧めします.MeCabとRの連携やその導入については既に分かりやすいサイトがありますので,一度そちらもご覧ください(参考:http://rmecab.jp/wiki/index.php?RMeCab ).

関連記事