XLNet团队:公平对比,BERT才会知道差距!

e世博平台

  19:21:01雷锋网

  雷锋Web Press:XLNet发布后,它在GLUE基准测试和多个NLP任务中都超过了BERT。但几天前,Facebook研究人员表示,如果BERT拥有更多数据,它将重返榜首。有些人对这种超越不满意的原因是BERT在预训练中仅使用13GB的文本,而XLNet使用126GB。

那么如果结果是使用相同的数据集预先训练的呢?为了回应这个问题,XLNet团队以更公平的方式(相同的配置,相同的数据)比较了XLNet和BERT。如下

几周前,我们发布了新型号XLNet,它在各种基准测试中优于BERT。与BERT相比,我们最大的模型在训练中使用的数据大约是BERT的10倍。为了公平比较,我们使用基本模型架构和相同的训练数据进行比较。

但是我们在学术界和工业界的朋友们在相同的训练数据下对XLNet-Large和BERT进行比较更感兴趣。

当然,我们自己对使用额外数据时会发生什么感到好奇。我们所需要做的就是将我们拥有的所有数据都放在初始版本的培训中。

我们相信XLNet和BERT之间使用大型模型架构和相同数据进行公平的比较研究具有很大的科学价值。

首先,相同的配置

在本研究中,我们确保BERT和XLNet培训中几乎所有可能的超参数都是相同的。这些超参数由BERT作者发布。换句话说,选择这些超级参数的目的是优化BERT,而不是XLNet。具体来说,我们仔细控制了以下超级参数:

用于BERT并由BERT作者发布。换句话说,它们被选择并且可以针对BERT而不是XLNet进行优化。具体来说,我们会仔细控制以下超参数:

相同批次大小:256

相同数量的培训步骤:1M

相同的优化器:Adam,学习率1e-4,预热10K,线性衰减

相同的培训语料库:Wikipedia + BooksCorpus。我们使用相同的工具来处理维基百科,如BERTrepo中所述。但出于某种未知的原因。我们的维基百科语料库只有2B字,而BERT使用2.5B字。因此,XLNet收到的数据培训略少。

同一型号的架构参数:24层,1024个隐藏尺寸,16个头

相同的微调超参数搜索空间

此外,我们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较。

在我们之前的实现中,未屏蔽的令牌在预训练中没有看到CLS和SEP。在我们当前的实现中,未屏蔽的令牌确实可以看到CLS和SEP,这与BERT一致。

在微调期间,在BERT之后,我们使用“BERT格式”[CLS,A,SEP,B,SEP]代替[A,SEP,B,SEP,CLS]。

此外,我们考虑BERT的三种变体,并报告每个单独任务的最佳微调结果。三种变体如下:

模型I:作者发表的原始BERT

Model-II:BERT具有全字掩蔽,也由作者发表

模型-III:由于我们发现下一个句子预测(NSP)可能会影响性能,我们使用已发布的BERT代码预先训练新模型而不会导致NSP损失

请注意,此设置可能对BERT有一些优势,因为使用不同的变体可以实现单个任务的最佳性能。

二,比较结果

GLUE和SQuAD上的开发设置结果以及RACE上的测试集结果如下(无数据扩展,收集或多任务学习):

不同型号的比较。 XLNet-Large已经接受了更多批次的数据和培训。对于BERT,我们报告了每个数据集的三个变体的最佳微调结果。

三,分析

表中有一些有趣的结果:

使用相同的训练公式并训练相同的数据,XLNet超越了BERT,在所有数据集中具有相当大的优势。

11个基准中的8个,数据超过10倍(与XLNet-Large-wikibooks和XLNet-Large相比),比从BERT切换到XLNet的培训收益更少。

在一些基准测试中,例如CoLA和MRPC,训练模型对更多数据的性能甚至低于训练模型对较少数据的性能。

我们相信,我们从上述结果中获得了宝贵的经验。

XLNet优于BERT。

XLNet-Large可以更好地进行优化。观察#2和#3似乎表明我们之前发布的XLNet-Large(更多数据培训)没有充分利用数据大小。因此,我们将继续研究如何正确扩展XLNet的语言预训练。根据我们目前(有限)的观察结果,我们推测以下培训细节可能会发挥重要作用:

数据关联:数据大小,数据源,数据清理,数据编码,数据格式化

优化相关:学习率(和时间表),批量大小,培训步骤数,优化程序

重要的是,这些超参数可能彼此具有高阶交互。

FacebookAI最近进入GLUE排名似乎也意味着培训细节的重要性。雷锋网络

总之,本研究更清楚地将算法/模型的影响与其他因素分开,例如训练细节,大型计算和大数据。根据结果,我们认为算法和模型至少与其他因素一样重要。它们可能是实现自然语言理解的最终目标所必需的。我们将很快用上述新结果更新XLNet的论文。

原始链接:

雷锋网络报道

雷锋网:在XLNet发布后,它在GLUE基准测试和多个NLP任务中都超过了BERT。但几天前,Facebook研究人员表示,如果BERT拥有更多数据,它将重返榜首。有些人对这种超越不满意的原因是BERT在预训练中仅使用13GB的文本,而XLNet使用126GB。

那么如果结果是使用相同的数据集预先训练的呢?为了回应这个问题,XLNet团队以更公平的方式(相同的配置,相同的数据)比较了XLNet和BERT。如下

几周前,我们发布了新型号XLNet,它在各种基准测试中优于BERT。与BERT相比,我们最大的模型在训练中使用的数据大约是BERT的10倍。为了公平比较,我们使用基本模型架构和相同的训练数据进行比较。

但是我们在学术界和工业界的朋友们在相同的训练数据下对XLNet-Large和BERT进行比较更感兴趣。

当然,我们自己对使用额外数据时会发生什么感到好奇。我们所需要做的就是将我们拥有的所有数据都放在初始版本的培训中。

我们相信XLNet和BERT之间使用大型模型架构和相同数据进行公平的比较研究具有很大的科学价值。

首先,相同的配置

在本研究中,我们确保BERT和XLNet培训中几乎所有可能的超参数都是相同的。这些超参数由BERT作者发布。换句话说,选择这些超级参数的目的是优化BERT,而不是XLNet。具体来说,我们仔细控制了以下超级参数:

用于BERT并由BERT作者发布。换句话说,它们被选择并且可以针对BERT而不是XLNet进行优化。具体来说,我们会仔细控制以下超参数:

相同批次大小:256

相同数量的培训步骤:1M

相同的优化器:Adam,学习率1e-4,预热10K,线性衰减

相同的培训语料库:Wikipedia + BooksCorpus。我们使用相同的工具来处理维基百科,如BERTrepo中所述。但出于某种未知的原因。我们的维基百科语料库只有2B字,而BERT使用2.5B字。因此,XLNet收到的数据培训略少。

同一型号的架构参数:24层,1024个隐藏尺寸,16个头

相同的微调超参数搜索空间

此外,我们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较。

在我们之前的实现中,未屏蔽的令牌在预训练中没有看到CLS和SEP。在我们当前的实现中,未屏蔽的令牌确实可以看到CLS和SEP,这与BERT一致。

在微调期间,在BERT之后,我们使用“BERT格式”[CLS,A,SEP,B,SEP]代替[A,SEP,B,SEP,CLS]。

此外,我们考虑BERT的三种变体,并报告每个单独任务的最佳微调结果。三种变体如下:

模型I:作者发表的原始BERT

Model-II:BERT具有全字掩蔽,也由作者发表

模型-III:由于我们发现下一个句子预测(NSP)可能会影响性能,我们使用已发布的BERT代码预先训练新模型而不会导致NSP损失

请注意,此设置可能对BERT有一些优势,因为使用不同的变体可以实现单个任务的最佳性能。

二,比较结果

GLUE和SQuAD上的开发设置结果以及RACE上的测试集结果如下(无数据扩展,收集或多任务学习):

不同型号的比较。 XLNet-Large已经接受了更多批次的数据和培训。对于BERT,我们报告了每个数据集的三个变体的最佳微调结果。

三,分析

表中有一些有趣的结果:

使用相同的训练公式并训练相同的数据,XLNet超越了BERT,在所有数据集中具有相当大的优势。

11个基准中的8个,数据超过10倍(与XLNet-Large-wikibooks和XLNet-Large相比),比从BERT切换到XLNet的培训收益更少。

在一些基准测试中,例如CoLA和MRPC,训练模型对更多数据的性能甚至低于训练模型对较少数据的性能。

我们相信,我们从上述结果中获得了宝贵的经验。

XLNet优于BERT。

XLNet-Large可以更好地进行优化。观察#2和#3似乎表明我们之前发布的XLNet-Large(更多数据培训)没有充分利用数据大小。因此,我们将继续研究如何正确扩展XLNet的语言预训练。根据我们目前(有限)的观察结果,我们推测以下培训细节可能会发挥重要作用:

数据关联:数据大小,数据源,数据清理,数据编码,数据格式化

优化相关:学习率(和时间表),批量大小,培训步骤数,优化程序

重要的是,这些超参数可能彼此具有高阶交互。

FacebookAI最近进入GLUE排名似乎也意味着培训细节的重要性。雷锋网络

总之,本研究更清楚地将算法/模型的影响与其他因素分开,例如训练细节,大型计算和大数据。根据结果,我们认为算法和模型至少与其他因素一样重要。它们可能是实现自然语言理解的最终目标所必需的。我们将很快用上述新结果更新XLNet的论文。

原始链接:

雷锋网络报道