求道之人,不问寒暑(六,外一篇)

《求道之人》这个系列历时多年,也引来很多关注。

做理论,特别是做多层神经网络的理论分析,勇气可嘉,但之前也一直被人质疑:“这些理论分析有什么用?”

对于学生-教师这个理论框架,主要麻烦的地方在于,在有监督学习里面,在理论分析上你得要假设“存在一个教师网络,在训练集和测试集上拟合得很好”,然后用学生网络去拟合数据集,就相当于拟合教师网络在采样集上的输出,这样整个故事就说得通。

然而,神经网络虽说可以拟合任意输入输出函数,但条件是网络非常宽(指数级的宽度),对于平时使用的宽度而言,这个假设就有点招人诟病了。要是找不到这样的教师网络,那目前的这些分析就是空中楼阁了。

但这次转到自监督学习的框架里面,发现自监督学习采用的双塔结构,和理论分析是完全一致的,这就让学生-教师这类理论分析有了更广阔的前景。

与传统的有监督学习相比,自监督学习居然更容易深入神经网络的内部结构进行分析,这确实是始料未及的。当然,这从侧面也说明“数据标定”这个不可控的外部过程,或许比“深度学习原理”本身更难建模——如果在理论分析中抛弃数据标签,回到第一性原理,反而会有更有意思更本质的结果。

希望这个方向能给大家开拓一些新的思路。



Article Comments


Text Annotations

Select text in the article above to add an annotation, or view existing threads below.