求道之人，不问寒暑（六，外一篇）

《求道之人》这个系列历时多年，也引来很多关注。

做理论，特别是做多层神经网络的理论分析，勇气可嘉，但之前也一直被人质疑：“这些理论分析有什么用？”

对于学生-教师这个理论框架，主要麻烦的地方在于，在有监督学习里面，在理论分析上你得要假设“存在一个教师网络，在训练集和测试集上拟合得很好”，然后用学生网络去拟合数据集，就相当于拟合教师网络在采样集上的输出，这样整个故事就说得通。

然而，神经网络虽说可以拟合任意输入输出函数，但条件是网络非常宽（指数级的宽度），对于平时使用的宽度而言，这个假设就有点招人诟病了。要是找不到这样的教师网络，那目前的这些分析就是空中楼阁了。

但这次转到自监督学习的框架里面，发现自监督学习采用的双塔结构，和理论分析是完全一致的，这就让学生-教师这类理论分析有了更广阔的前景。

与传统的有监督学习相比，自监督学习居然更容易深入神经网络的内部结构进行分析，这确实是始料未及的。当然，这从侧面也说明“数据标定”这个不可控的外部过程，或许比“深度学习原理”本身更难建模——如果在理论分析中抛弃数据标签，回到第一性原理，反而会有更有意思更本质的结果。

希望这个方向能给大家开拓一些新的思路。