这次课推导RNN,介绍各种训练技巧和拓展变种。梯度消失的推导很详细,用Python演示很直观,也给出了用裁剪防止梯度爆炸的直观解释。笔记里还补充了用于机器翻译时的5项改进。语言模型语言模型就是计算一个单词序列(句子)的概率($P(w_1,...,w_m)$)的模型。听上去很简单,做起来很难;听上去没什么用处,但用处非常多。比如在机器翻译中,判断译文序列中一种词序的自然程度高于另一种,判断一种用词选择优于另一种。传统语言模型句子的概率通常是通过待预测单词之前长度为$n$的窗口建立条件概率来预测,为了简化问题,...
本文由同步,最新版本请查看原文:
继续阅读: »
原文链接:
感谢阅读本文,欢迎 或访问获取更多内容