为你写诗 [2]


基于 Tensorflow 实现自动作诗(古诗)机器人。本文是系列文章二,简单介绍 Demo 的训练过程。涉及到的相关概念如有偏颇或错误,请各位大神不吝赐教,批评指出,这里先谢过。

相关文章:
为你写诗 [1]
相关 Github 源码

版权声明:本文为 frendy 原创文章,可以随意转载,但请务必在明确位置注明出处。


数据预处理


这部分在昨天的文章一 为你写诗 [1] 已经简单介绍过。今天有朋友问,张量到底是什么?这里引用百度百科的描述,张量源于力学,是矢量概念的推广,矢量是一阶张量。本文的 Demo 是把大量诗歌转换成了二阶张量(矩阵)来表示。


训练数据准备


由于数据量大,机器可能不够用(比如内存不够等等),因此分批训练还是必要的。此外涉及到模型持久化相关的,这里也不赘述啦。这里想提一个生成训练数据时的细节,笔者纠结了很久:

ydata[:-1] = xdata[1:]

x 和 y 要错一位?为什么需要这样处理?查了很久,原来 rnn 的输入和输出要错一位。这里说明什么?说明理论还是不能马虎的,找时间还是要深入啃啃 rnn 的原理。


模型参数


其实下面怎么设置还是有学问的,后面有时间还是得做做几组对照实验。

参数 说明
rnn_size rnn 的 cell 内神经元数目
num_layers rnn 层数
model rnn 类型,这里笔者选用的是 lstm
batch_size batch 大小(多少批数据)
num_epochs epoch 数目(一批数据有多少个)
save_every 保存的频次
grad_clip 梯度 clip(防止梯度爆炸)
learning_rate 学习率,决定每一步学习的步长
decay_rate 学习率削减时用到的参数

训练模型


这里笔者直接摘出核心,其实采用的是 softmax 回归模型来给不同的字符对象分配概率,如下所示:

self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)

表示成矩阵如下:

image

进一步写成表达式如下:

image

是的,就是 MNIST 手写数字分类问题里那个 softmax 回归模型,点这里看相关推导,笔者没能啃进去(捂脸)。


好吧,23:30,不早了,晚安。


欢迎来撩

frendy

It will shine for us...