わ〜い! 自然言語処理ごっこ

複数の小規模なコーパスを用いた、Web議論掲示板における投稿の自動分類の研究についてのブログ。

僕がどんな研究をしているか: 背景と目的編

はじめに

この記事では、僕がどういう研究ごっこおままごとをしているのかについて述べる。

続きを読む

Qiitaの記事における「いいね!」の数を色々な情報から自動で推定する

この記事は、以前使用していたブログのエントリの移植です。

はじめに

背景

近年、Qiitaはエンジニア間の情報共有インフラとして有効に活用されているシステムの一つである。

しかし、Qiitaに投稿された記事のうち非常に有用な記事は限られる。

そのため、Qiitaにおける良い記事を探す方法の一つとして、「いいね!」の数が多い記事のみを閲覧するという方法がある。

しかし、投稿されて間もない記事は「いいね!」が付くまでに時間が必要であり、新しい記事に対する「いいね!」の数の推定が必要である。

続きを読む

文末境界推定の手法

はじめに

現代の日本語では、「。」を文の切れ目、すなわち文末境界(=文境界)とするのが一般である。

この文末境界を利用して文書を文ごとに分割(=文分割)することで、例えば重要な文を選択して自動で文書を要約したり、文を自動で分類したりといったことが出来るのである。多分。

しかし悲しいことに、TwitterなどのSNSにおける日本語の文は「。」で区切られることはほとんどない。

ロクに句読点を書かないオタクや、むしろ「。」を読点に使っちゃうポエマーJDなど、彼らの文章をどうやって文ごとに分割するか、これを我々は考えていく必要があるのだ。

続きを読む