在Theano中定义关于张量的梯度
问题内容:
我在概念上有一个关于Theano的简单问题,但我一直找不到答案(尽管本教程花了很多时间,但我还是坦白了自己并没有真正理解Theano共享变量的工作原理)。
我正在尝试实现“反卷积网络”;具体来说,我有3个张量的输入(每个输入是2D图像)和4个张量的代码;对于第i个输入代码,[i]代表一组代码字,它们一起对输入i进行编码。
我在弄清楚如何对码字进行梯度下降时遇到了很多麻烦。这是我的代码的相关部分:
idx = T.lscalar()
pre_loss_conv = conv2d(input = codes[idx].dimshuffle('x', 0, 1,2),
filters = dicts.dimshuffle('x', 0,1, 2),
border_mode = 'valid')
loss_conv = pre_loss_conv.reshape((pre_loss_conv.shape[2], pre_loss_conv.shape[3]))
loss_in = inputs[idx]
loss = T.sum(1./2.*(loss_in - loss_conv)**2)
del_codes = T.grad(loss, codes[idx])
delc_fn = function([idx], del_codes)
train_codes = function([input_index], loss, updates = [
[codes, T.set_subtensor(codes[input_index], codes[input_index] -
learning_rate*del_codes[input_index]) ]])
(这里的代码和字典是共享的张量变量)。Theano对此不满意,特别是对定义
del_codes = T.grad(loss, codes[idx])
我收到的错误消息是:
theano.gradient.DisconnectedInputError:要求grad方法针对不属于成本计算图一部分或仅由不可微分运算符使用的变量计算梯度:Subtensor
{int64} .0
我猜想它想要一个符号变量而不是code [idx]; 但是我不确定如何将所有东西连接起来以获得预期的效果。我猜我需要将最后一行更改为
learning_rate*del_codes) ]])
有人可以给我一些有关如何正确定义此功能的指示吗?我想我可能缺少与Theano合作的基本知识,但我不确定是什么。
提前致谢!
-贾斯汀
更新:凯尔的建议非常有效。这是我使用的特定代码
current_codes = T.tensor3('current_codes')
current_codes = codes[input_index]
pre_loss_conv = conv2d(input = current_codes.dimshuffle('x', 0, 1,2),
filters = dicts.dimshuffle('x', 0,1, 2),
border_mode = 'valid')
loss_conv = pre_loss_conv.reshape((pre_loss_conv.shape[2], pre_loss_conv.shape[3]))
loss_in = inputs[input_index]
loss = T.sum(1./2.*(loss_in - loss_conv)**2)
del_codes = T.grad(loss, current_codes)
train_codes = function([input_index], loss)
train_dicts = theano.function([input_index], loss, updates = [[dicts, dicts - learning_rate*del_dicts]])
codes_update = ( codes, T.set_subtensor(codes[input_index], codes[input_index] - learning_rate*del_codes) )
codes_update_fn = function([input_index], updates = [codes_update])
for i in xrange(num_inputs):
current_loss = train_codes(i)
codes_update_fn(i)
问题答案:
总结调查结果:
分配grad_var = codes[idx]
,然后创建一个新变量,例如: subgrad = T.set_subtensor(codes[input_index], codes[input_index] - learning_rate*del_codes[input_index])
然后打电话 train_codes = function([input_index], loss, updates = [[codes, subgrad]])
似乎可以解决问题。通常,我尝试为尽可能多的事情制作变量。有时,在单个语句中尝试执行过多操作会引起棘手的问题,而且以后很难调试和理解!另外,在这种情况下,我认为theano需要共享变量,但是如果在需要共享变量的函数内部
创建 共享变量,则会遇到问题。
很高兴为您服务!