隐藏层节点数对迭代次数分布规律的影响
作者:互联网
(mnist 0 ,2)-81*n*2-(1,0)(0,1)
让n分别等于3,5,10,20,30,40,50,60,70,80,90,100,100,110,120,130,
让δ=1e-6, ret=0.1,weix=1000.
对应每个收敛标准收敛1999次。观察迭代次数对同一收敛标准的分布规律。
实验得到数据如下
隐藏层节点数 |
迭代次数的均值 |
平均分类准确率 |
δ |
耗时ms/次 |
最大峰值占比% |
不同峰值数量 |
3 |
178616.4877 |
0.986592451 |
1.00E-06 |
796.08804 |
7 |
683 |
5 |
117136.8594 |
0.98855914 |
1.00E-06 |
621.7969 |
3 |
674 |
10 |
80329.23862 |
0.988490518 |
1.00E-06 |
583.22361 |
18 |
162 |
20 |
56105.15958 |
0.987261772 |
1.00E-06 |
732.94347 |
46 |
40 |
30 |
34663.66183 |
0.985049185 |
1.00E-06 |
606.98649 |
37 |
23 |
40 |
18375.36068 |
0.983432571 |
1.00E-06 |
453.7964 |
38 |
13 |
50 |
12000.17909 |
0.982436049 |
1.00E-06 |
382.18659 |
34 |
13 |
60 |
8716.448224 |
0.982761759 |
1.00E-06 |
335.53677 |
62 |
8 |
70 |
7765.041521 |
0.981953203 |
1.00E-06 |
357.97199 |
82 |
6 |
80 |
7575.328664 |
0.981890548 |
1.00E-06 |
389.42671 |
80 |
7 |
90 |
6987.775888 |
0.982819939 |
1.00E-06 |
417.70035 |
47 |
7 |
100 |
5530.548274 |
0.98257404 |
1.00E-06 |
423.09355 |
55 |
9 |
110 |
4701.468734 |
0.981943755 |
1.00E-06 |
384.8024 |
55 |
9 |
120 |
4529.92096 |
0.981862701 |
1.00E-06 |
392.42271 |
92 |
5 |
130 |
4516.147074 |
0.981792089 |
1.00E-06 |
511.30415 |
100 |
2 |
比如第一组数据对应的迭代次数分布图片
迭代次数的峰值为160393,在1999次迭代中占到大约7%,不同的峰值共有683个。
统计分类准确率和峰值占比的数据有很强的相关性
当n=5时取得最大pave=0.988559140405195
同样当n=5时最大峰值为120409,这个峰值占比只有约3%,是所有15组数据最大峰值占比最小的。而不同峰值数量也仅次于n=3的683峰,有674峰。
这个实验表明最大峰值占比与网络的分类准确率有很强的关联性。
从实验结果上看随着n的增加迭代次数在减小,同时迭代次数的散度也在减小,当n=130时只有4516和4614两个峰值,其中4614只出现了3次,占比不过千分之1.5.
从耗时上来考虑,效率最优值是n=8,当n>8以后随着节点数的增加单次计算量增大,耗时也增加。当n<8随着n的增加大体上网络收敛效率是增加的。
但分类效率最优值和分类性能最优值并不重合。
其余14组图片
标签:1.00,06,迭代,数对,峰值,次数,100,节点 来源: https://blog.csdn.net/georgesale/article/details/104754868