自然言語処理の勉強会#2

先週に引き続きNLPの勉強会行ってきた。
機械学習に基づく自然言語処理勉強会 #02 - connpass
今週は分類問題の教師付学習について。確率に基づく分類方法として、単純ベイズを識別器に用いると確率の掛け算でアンダーフローしがちなので、実装上は対数とって計算しておいて、確率に戻すのにlogsumexpというのを使うとよいよ。また、パラメータの学習法として、最尤推定するとサンプルが少ない場合にオーバーフィッティングするので事後分布最大化法というので確率が0とか1とか極端な結果を排除するためにディリクレ分布を掛けたりするので、大体のライブラリにあるsmoothingパラメータαというのはこのディリクレ分布の尖り具合でα=1は単純な一様分布。