为什么pure transformer缺少strong inductive bias?

在深度学习中,”inductive bias”是指模型在学习过程中对数据的某种假设。这种假设可以帮助模型更好地从训练数据中学习,并能更好地泛化到未见过的数据。例如,卷积神经网络(CNN)的inductive bias是假设数据具有空间局部性,即一个像素与它邻近的像素更相关,与它远离的像素更不相关。由于这种假设,CNN能有效地处理图像数据,因为图像中的像素通常与其邻近的像素有着强烈的相关性zhuanlan.zhihu.com

当我们说纯粹的Transformer模型缺乏强烈的inductive bias时,我们是指它并没有像CNN那样对数据的结构和性质做出强烈的假设。例如,Transformer模型并没有假设数据具有空间局部性,即使在处理图像数据时。这就是为什么有些研究者会将Transformer模型与CNN相结合,以获得CNN的强烈inductive bias,从而更好地处理图像数据zhuanlan.zhihu.com

然而,由于Transformer模型缺乏强烈的inductive bias,使得它需要大量的训练数据才能学习到良好的模型。这是因为缺乏强烈的inductive bias意味着模型必须从数据中学习所有的东西,包括那些在具有强烈inductive bias的模型中是预先假设的东西。这就需要大量的数据,以便模型有足够的信息来学习zhuanlan.zhihu.com。例如,虽然Transformer模型在NLP任务上表现出色,但在CV任务上,由于缺乏对图像数据的特定假设,其性能往往无法与CNN相媲美zhuanlan.zhihu.com。这就是为什么一些研究者在处理图像数据时,会将Transformer模型与CNN相结合,以利用CNN的强烈inductive biaszhihu.com

但是,值得注意的是,缺乏强烈的inductive bias并不一定是一件坏事。实际上,随着数据量的增加和计算能力的提高,深度学习模型的设计越来越倾向于减少inductive bias,让模型直接从原始数据中学习。这种趋势在Transformer模型中尤为明显,因为它并没有对数据做出强烈的假设,而是尽可能地从数据中学习zhuanlan.zhihu.com。这种去inductive bias的趋势也引发了对MLP的重新考虑,有些研究者只使用MLP构建神经网络,有些将MLP与旧的神经网络结构结合,有些研究者揭示MLP与已有技术的关联zhuanlan.zhihu.com

发表回复