• 最新论文
  • “定点暗杀”之后 美国将面临一个怎样的中东? “抗疫”催热互联网医疗:2020将成爆发元年? “抗疫”催热互联网医疗:2020将成爆发元年? 海外疫情扩散 沪美铜价比值开始抬升 海外疫情扩散 沪美铜价比值开始抬升 “定点暗杀”之后 美国将面临一个怎样的中东? 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片 “抗疫”催热互联网医疗:2020将成爆发元年? 官方解读,谷歌“T5”模型,如何突破迁移学习局限,实现多基准测试SOTA 中国传媒大学65周年 春妮等校友返校为母校庆生 如果支付宝绑定了银行卡,最好关掉这个开关,不然容易被“盗刷” 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片
  • 推荐论文
  • “定点暗杀”之后 美国将面临一个怎样的中东? “抗疫”催热互联网医疗:2020将成爆发元年? “抗疫”催热互联网医疗:2020将成爆发元年? 海外疫情扩散 沪美铜价比值开始抬升 海外疫情扩散 沪美铜价比值开始抬升 “定点暗杀”之后 美国将面临一个怎样的中东? 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片 “抗疫”催热互联网医疗:2020将成爆发元年? 官方解读,谷歌“T5”模型,如何突破迁移学习局限,实现多基准测试SOTA 中国传媒大学65周年 春妮等校友返校为母校庆生 如果支付宝绑定了银行卡,最好关掉这个开关,不然容易被“盗刷” 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片 拿手菜:酱炒蘑菇牛肉,辣蒸金针菇,双椒炒猪心,水煮肉片
  • 热门标签
  • 日期归档
  • 官方解读,谷歌“T5”模型,如何突破迁移学习局限,实现多基准测试SOTA

    来源:www.addieskate.com 发布时间:2020-03-06

    在过去的几年里,迁移学习给自然语言处理领域带来了丰硕的成果,并掀起了新的发展浪潮。迁移学习之所以如此有效,是因为它使用自我监控任务(如语言建模或填充缺失单词)在大量可用的未标记文本数据上预训练模型。然后,在较小的注释数据集上对模型进行微调,从而使模型获得比仅在注释数据上训练更好的性能。

    迁移学习在2018年首次出现在GPT、乌尔姆菲特、埃尔莫和伯特的成果上,然后在2019年展示了它的才华,推动了该领域各种新方法的发展,包括XLNet、罗伯塔、阿尔伯特、改革家和DNN移动等。随着自然语言处理领域的迅速发展,很难评估哪些开发成果最有意义,以及这些成果将如何有效结合。

    (雷锋网)地址:

    谷歌研究人员在《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》号论文中提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并将这些迁移学习技术应用于大规模创建新模型。作者称这种新模型为文本到文本转换转换器(T5)。

    与此同时,他们还引入了一个新的开源预训练数据集庞大的干净爬行语料库(C4)。作者在C4数据集上对T5模型进行了预训练,使该模型在许多自然语言处理基准上取得了最好的结果。同时,该模型还具有足够的灵活性,经过微调后可以应用于许多重要的下游任务。

    1。共享文本到文本框架

    在创建T5模型后,作者将所有的自然语言处理任务重新构建为统一的文本到文本格式。输入和输出总是文本字符串,这与只能输出类标签或输入范围的BERT模型完全不同。文本到文本框架允许他们在任何自然语言处理任务中使用相同的模型、损失函数和超级参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)等。T5模型甚至可以通过训练T5模型来预测数字的字符串表示而不是数字本身来应用于回归任务。

    (雷锋网)

    文本到文本框架图。对于每个任务,作者考虑使用文本作为模型的输入,并训练模型生成一些目标文本。这使他们能够在多个任务中使用相同的模型、损失函数和超级参数,包括翻译(绿色方框)、语言可接受性(红色方框)、句子相似性(黄色方框)和文档摘要(蓝色方框)。它还为经验评估中包含的方法提供了一个标准测试平台。

    2。大型预训练数据集(C4)

    迁移学习的一个重要部分是用于模型预训练的未标记数据集。为了准确评估扩大培训前规模的效果,我们需要一个不仅质量高、多样化而且规模大的数据集。

    现有的预训练数据集不能满足上述三个要求。例如,维基百科的文本质量高,格式统一,但规模相对较小;而普通爬行网站的文本规模相对较大,且形式多样,但质量较低。

    为了满足这三个要求,作者开发了一个庞大的干净爬行语料库数据集(C4),这是一个比维基百科大两个数量级的普通爬行?的全新版本。他们的清理过程包括删除重复数据、不完整的句子和令人不快或嘈杂的内容。

    这种过滤可以使模型在下游任务中表现得更好,同时,超大数据集如果在预训练期间不适合,也可以增加模型的大小。

    C4数据集地址:

    3。迁移学习方法的系统研究

    作者使用T5文本到文本框架和新的预训练数据集C4来评估过去几年中为NLP迁移学习引入的大量思想和方法。

    详细的评估细节可以在论文中找到,包括以下实验:在模型架构的实验中,他们发现编解码模型通常比“只解码”的语言模型要好。在预训练目标的实验中,他们证实了填空去噪目标(即恢复输入中缺失单词的训练模型)具有更好的效果,而最重要的因素是计算成本。

    在未标记数据集的实验中,他们表明领域数据集上的训练模型是有益的,而较小数据集上的预训练模型将导致不利的过度拟合。在训练策略的实验中,他们发现多任务学习可以与“先训练后微调”的方法相比较,但这需要更仔细地选择每项任务的训练频率。在

    model scale实验中,他们比较了不同大小、训练时间和集成模型数量的模型,以确定如何最佳利用固定计算能力。

    4。迁移方法数据规模=最佳性能

    为了探索NLP当前迁移学习的局限性,作者进行了最后一组实验,结合系统研究中的所有最佳方法,并使用谷歌云TPU加速器进行了优化。最大的模型有110亿个参数,SOTA可以在胶水,强力胶,团队和美国有线电视新闻网/每日邮报基准测试中实现。此外,他在超级胶水自然语言理解基准测试中获得了接近人类水平的分数。

    5。延伸到其他任务,性能同样令人满意。

    T5非常灵活,易于修改。除了作者文章中的一些任务,它在其他任务中也取得了巨大的成功。例如,在接下来的两个新任务中,模型表现良好。

    1。封闭数据问答

    文本到文本框架通常用于阅读理解问题。向模型提供上下文信息和一个问题,并训练它在上下文信息中找到问题的答案。例如,可以在维基百科的文章中为模型提供关于康妮飓风的文本,并询问“康妮飓风是什么时候发生的?”然后训练模型找出文章中的日期。

    事实上,作者用这种方法在斯坦福问答数据集中获得了最先进的结果。在作者的Colab演示和随后的论文中,他训练T5在没有任何外部知识的更困难和封闭的环境中回答琐碎的问题。换句话说,在回答问题时,T只能使用在无监督预训练期间训练的参数和知识。

    (雷锋网)

    在预培训期间,T5学会了如何填补C4文档中缺失的一段文字。该模型经过微调,适用于封闭的问题和答案,无需输入任何信息或背景。T5非常擅长这项任务。它的110亿个参数模型分别准确地生成了50.1%、37.4%和34.5%的特里维亚卡问题、网络问题和自然问题的答案。为了客观地看待这些问题,T5团队在酒吧琐事挑战赛中与训练有素的模特并肩作战,但不幸的是他们被击败了。完形填空的第二个任务是完形填空。像GPT-2这样的大型语言模型非常擅长文本制作。经过训练,该模型可以根据输入预测下一个单词,从而集成该模型将产生非常创新的应用,如基于文本的游戏《地下城》。

    T5使用的预训练目标非常类似于填空任务。在填空任务中,模型预测文本中的缺失单词,但是这个目标是对“继续任务”的总结,因为填空任务中的空白可能出现在文本的末尾。为了完成这个目标,我们创建了一个名为“填空”的新任务,并要求模型用指定数量的单词替换空格。例如,对模型的输入:我喜欢花生酱和三明治。我可能会训练模型用4个单词填空。模型经过C4微调,效果很好,尤其是模型对缺失文本的预测非常出色!例如,对于以下输入:“我喜欢花生酱和三明治”,输出结果如下:

    预训练模型:

    代码:

    via?

    友情链接: