わ〜い! 自然言語処理ごっこ

複数の小規模なコーパスを用いた、Web議論掲示板における投稿の自動分類の研究についてのブログ。

僕がどんな研究をしているか: 背景と目的編

はじめに

この記事では、僕がどういう研究ごっこおままごとをしているのかについて述べる。

背景: どんな問題を解決するのか?

住みやすい街を作るためにタウンミーティングがしたい。

保育園の不足や騒音問題、景観問題に通勤ラッシュなど、日本の街は多種多様な問題を抱えている。

地方自治体では、まちづくりのために住民同士の話し合い(タウンミーティング)によって意見を求める動きが進んでいる。

横浜市磯子区の例

http://www.townnews.co.jp/0111/images/a000632717_01.jpg

しかし、タウンミーティングには暇なジジババしか来ない。

タウンミーティングなどで解決を図ろうにも、そもそもタウンミーティングにはロクに人がやってこないし、やってくるのは老人ばかりである。以下は、堺市の人口分布と堺市タウンミーティングの参加者の人口分布である。地獄である。

堺市の人口
300,000人
 
1,000人
堺市の60歳以上の割合
 
31.9%
堺市タウンミーティングの60歳以上の割合
 
60.3%

そこで、Web上でタウンミーティングをすれば、誰でもどこからでも気軽に意見を投稿できるようになるのでは?と考えられて開発されたシステム「COLLAGREE」がある。COLLAGREEでは、ファシリテータと呼ばれる仲介人の下、スレッド型掲示板の形式でWebタウンミーティングを進める。COLLAGREEでタウンミーティングをしたら、若者もタウンミーティングに参加するようになった。

しかし、誰でもどこからでも気軽にボンボン意見を投稿するとなると、大量の投稿で溢れることとなり、途中からどの参加者も議論の全容を把握できなくなるという問題がある。Web掲示板が大量の投稿で溢れて参加者が議論の流れを追えなくなったのである。この問題を、議論を構造化することによって解決したい。

目的: どうやって解決するのか?

本ブログでは、Webタウンミーティングへの投稿に含まれるそれぞれの文をカテゴライズした上で、自動でそのカテゴリへ分類を行いたい。 次に示すのは、要するに僕がやりたいことの具体例である。

Before: たくさんの意見をわざわざ読むのも面倒‥

太郎さん

現在の小金井市には待機児童が約300人存在します。

少子化対策の為には小金井市に保育園が必要だと思います。

花子さん

いいですね、賛成です!

二郎さん

保育園を立てる為にはどのようなアクションが必要でしょうか?

皆さんの意見をお願いします!

After: 僕の研究により自動で構造化

太郎さん

現在の小金井市には待機児童が約300人存在します。

少子化対策の為には小金井市に保育園が必要だと思います。

花子さん

いいですね、賛成です!

二郎さん

保育園を立てる為にはどのようなアクションが必要でしょうか?

皆さんの意見をお願いします!

現状ではWebタウンミーティングでの投稿に存在する文を以下のようにカテゴライズした。

  • 返信先の意見に対して肯定する文.
    例) そうですね,わたしも反対です.
    例) 僕もそう思います.

  • ある事柄について考えを示している文.
    例) インターネットは自由であるべきです.

  • ある事柄について考えを示さずに事実を述べている文.
    例) 渋谷にはハチ公があるらしいですね.
    例) おじいさんとおばあさんがおったそうな.

  • 参加者に質問をしている文.
    例) 渋谷にはハチ公がありますか?

  • 参加者に提案している文.
    例) 具体的な解決策について話し合っていきましょう!

  • 経験 ある事柄について考えを示さずに経験談を述べている文.
    例) 渋谷ですごい人ごみに遭遇した経験があります .

本研究では、Random Forestによる教師あり学習によって、COLLAGREEへの投稿を文ごとに自動で分類することを目的とする。