HiKat
7/28/2017 - 3:50 AM

系列データモデリング課題0725のおまけ問題

系列データモデリング課題0725のおまけ問題

Encoder-DecoderとAttentionを用いた翻訳モデルについて説明する
通常のEncoder-Decoderモデルでは,
原言語側と目的言語側でそれぞれRNNを形成し, 
それを接続することで翻訳を行う.
このとき, 原言語側のRNNはEncoderの役割を果たし,
目的言語側のRNNはDecoderの役割を果たす.
原言語側ではまず, 
文章中の単語w_tの分散表現X_tを文頭からRNNに入力し, 
通常のネットワークの隠れ層と1時刻前の隠れ層を入力にとるRNNの隠れ層を計算する.
Pt = tanh(W_x_p * X_t)
Qt = LSTM(W_p_q * Pt + Wqq * Qt-1)
すると, 文章の終端まで入力が終わった時点での隠れ層のベクトルQeは,
文章全体の圧縮表現となっていると言える.
つぎに, 今度はこれをDecoder側のRNNへ入力する