memory of nn-01

猜测: 线性关系 \[C \propto n\] 可能有理论依据——线性层有 $n \times V$ 个参数,容量与参数量成正比,而与 V 关系较弱(博客固定 V=40),斜率的具体值可能依赖于学习率和训练epoch数。