《求道之人》这个系列历时多年,也引来很多关注。
做理论,特别是做多层神经网络的理论分析,勇气可嘉,但之前也一直被人质疑:“这些理论分析有什么用?”
对于学生-教师这个理论框架,主要麻烦的地方在于,在有监督学习里面,在理论分析上你得要假设“存在一个教师网络,在训练集和测试集上拟合得很好”,然后用学生网络去拟合数据集,就相当于拟合教师网络在采样集上的输出,这样整个故事就说得通。
然而,神经网络虽说可以拟合任意输入输出函数,但条件是网络非常宽(指数级的宽度),对于平时使用的宽度而言,这个假设就有点招人诟病了。要是找不到这样的教师网络,那目前的这些分析就是空中楼阁了。
但这次转到自监督学习的框架里面,发现自监督学习采用的双塔结构,和理论分析是完全一致的,这就让学生-教师这类理论分析有了更广阔的前景。
与传统的有监督学习相比,自监督学习居然更容易深入神经网络的内部结构进行分析,这确实是始料未及的。当然,这从侧面也说明“数据标定”这个不可控的外部过程,或许比“深度学习原理”本身更难建模——如果在理论分析中抛弃数据标签,回到第一性原理,反而会有更有意思更本质的结果。
希望这个方向能给大家开拓一些新的思路。