自然言語処理の勉強会行ってきた

自然言語処理とか個人的に興味があってNLPの勉強会行ってきた。↓
機械学習に基づく自然言語処理勉強会 #01 - connpass
講師は東大の中村晃一氏。ちなみに専門はコンパイラだそうですが(人工言語w)。機械学習とか自然言語処理とかアカデミックな分野は独学がつらいので、こーゆー講義形式の勉強会はありがたいです。毎週木曜の夜にやるようなので可能な限り参加していこうと思います。

勉強会の資料は後でconnpassのサイトにアップしていただけるとのことです。副読本はこれだそうです↓

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

ガチ教科書っぽいので今後大きめの本屋行ったときに探そう。

初回は導入と、単語をどうやって特徴ベクトルにするかという話でした。TF-IDF表現というのがなるほどなーと思ったのだけど、どの文章にも登場する単語は重要度が低いというのを数式で表したもの。
はてな記法TeX数式書く方法忘れたので、手抜きですが、イメージとしてはこんなかんじ↓

TF-IDF=単語の出現頻度 * log(文章数/(単語wが出現する文章数+1))

最近TeX使ってないから、講義のメモをPCで取るのに数式出てくると辛みある。ちょっと次回までにTeX記法思い出しておかねば。

googleの人が作ったword2vecというどの特徴ベクトルにするかも機械学習するという方法もあるようで、あとで調べたくなったときのためにとりあえずキーワードだけメモ。

あとこの勉強会の機械学習のサンプルデモはscikit-learnというpythonのライブラリを使うよう。アカデミックな分野はpython好きな人多いよねー(偏見ですが。