当前位置: 首页> 游戏> 游戏 > 江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

时间:2025/7/11 2:51:32来源:https://blog.csdn.net/burstone/article/details/144302158 浏览次数:1次
江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型(《Improving Language Understanding by Generative Pre-Training》),它采用了无监督预训练和有监督微调相结合的方法,以增强模型的通用任务求解能力。在此之前,NLP领域的深度模型主要采用监督学习,从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用,训练超大模型的成本过高且耗时。另外,与之前的RNN注意力增强不同,GPT模型使用的Transformer架构比RNN实现的结构化记忆更强。下面介绍一些GPT-1的基础知识:

模型架构

GPT-1模型使用Transformer的Decoder结构,专注于预测下一个词,它进行了一些优化:普通的Decoder包含两个Multi-Head Attention结构,但GPT-1只保留了Mask Multi-Head Attention。GPT-1的核心结构由12个Transformer Decoder的block堆叠而成,GPT-1拥有约1.17亿个参数。
GPT-1的模型以及微调后用于下游任务的训练

GPT-1的模型以及微调后用于下游任务的训练

预训练&微调

GPT-1的核心思想是通过二段式的训练来提高语言理解能力,第一步是利用大量未标注数据进行无监督预训练,使用语言建模目标来设置初始参数,当时使用的预训练来源是BookCorpus,它包含大量的长篇连续文本(号称几千本小说),因而有助于模型学习处理长距离信息,语料库的数据量约为5GB。第二步微调:监督的判别式“微调”阶段,主要根据目标任务进行调整参数,解决下游任务。

效果

GPT-1使用了半监督学习,GPT-1可以很好地完成若干下游任务(文本分类、问答等)。在多个下游任务中,微调后的GPT-1系列模型型在分类任务、问答等的性能均超过了当时针对特定任务训练的SOTA模型(下图)。然而,GPT-1在生成文本的连贯性和多样性有限,并且在学术界没有引起足够的关注。
问答上的效果对比

问答上的效果对比

在这里插入图片描述

分类、语义相似性上的效果对比

小结

GPT-1作为GPT系列的起点,并且开启了预训练语言模型在NLP领域应用的大门。同时,为后续更强大的GPT模型,如GPT-3和GPT-4等都提供了很好的经验和技术积累,在自然语言处理(NLP)领域具有重要意义。

关键字:江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: