@[email protected] 一般来说我们会用grid search 去找最佳的hyperparameters (batch/epoch sizes),就不会有这种loss反复的情况,但是会很费期间(数据库大的话十来个小时打底吧……)。如果在training set训练太久,loss反复基本不变反而上升,很可能会overfitting (但你这里也没有……应该不是overfitting的问题)。制止overfitting会用early stopping,在training/validation sets记录error rate(或者其他measurements),如果在validation set的表现不再变好,训练就到此为止。至于你说的learning rate,如果用的是SGD,用大家都公认的就行了(0.01/0.001/0.0001)……SGD会让算法避免卡在local minima,实际不太会影响找到最低点。可以用做feature transformation (PCA之类的)改进模型的表现, 用tensorflow的话,除了几个超级变量,训练本身反而没什么可以改进的……

关注

@[email protected] 原理就是说原始数据features和parameters太多了,做一下feature transformation减少变量,也能减少overfitting。应该有专门一课讲这个的,还蛮重要的

登录以加入对话
雾海

雾海是一个开放且不限制讨论主题的非营利性中文社区,名字来源于德国浪漫主义画家 Friedrich 的画作《雾海上的旅人》。生活总是在雾海中吞吐不定,不管怎么艰辛,他还是站在了这里!希望大家在这里玩的开心~