您好,登錄后才能下訂單哦!
在深度學習中,遷移學習經常被使用,在大數據集上預訓練的模型遷移到特定的任務,往往需要保持模型參數不變,而微調與任務相關的模型層。
本文主要介紹,使用tensorflow部分更新模型參數的方法。
1. 根據Variable scope剔除需要固定參數的變量
def get_variable_via_scope(scope_lst): vars = [] for sc in scope_lst: sc_variable = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES,scope=scope) vars.extend(sc_variable) return vars trainable_vars = tf.trainable_variables() no_change_scope = ['your_unchange_scope_name'] no_change_vars = get_variable_via_scope(no_change_scope) for v in no_change_vars: trainable_vars.remove(v) grads, _ = tf.gradients(loss, trainable_vars) optimizer = tf.train.AdamOptimizer(lr) train_op = optimizer.apply_gradient(zip(grads, trainable_vars), global_step=global_step)
2. 使用tf.stop_gradient()函數
在建立Graph過程中使用該函數,非常簡潔地避免了使用scope獲取參數
3. 一個矩陣中部分行或列參數更新
如果一個矩陣,只有部分行或列需要更新參數,其它保持不變,該場景很常見,例如word embedding中,一些預定義的領域相關詞保持不變(使用領域相關word embedding初始化),而另一些通用詞變化。
import tensorflow as tf import numpy as np def entry_stop_gradients(target, mask): mask_h = tf.abs(mask-1) return tf.stop_gradient(mask_h * target) + mask * target mask = np.array([1., 0, 1, 1, 0, 0, 1, 1, 0, 1]) mask_h = np.abs(mask-1) emb = tf.constant(np.ones([10, 5])) matrix = entry_stop_gradients(emb, tf.expand_dims(mask,1)) parm = np.random.randn(5, 1) t_parm = tf.constant(parm) loss = tf.reduce_sum(tf.matmul(matrix, t_parm)) grad1 = tf.gradients(loss, emb) grad2 = tf.gradients(loss, matrix) print matrix with tf.Session() as sess: print sess.run(loss) print sess.run([grad1, grad2])
以上這篇Tensorflow實現部分參數梯度更新操作就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。