江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

时间:2025/7/11 2:51:32来源：https://blog.csdn.net/burstone/article/details/144302158 浏览次数:1次

GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型（《Improving Language Understanding by Generative Pre-Training》），它采用了无监督预训练和有监督微调相结合的方法，以增强模型的通用任务求解能力。在此之前，NLP领域的深度模型主要采用监督学习，从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用，训练超大模型的成本过高且耗时。另外，与之前的RNN注意力增强不同，GPT模型使用的Transformer架构比RNN实现的结构化记忆更强。下面介绍一些GPT-1的基础知识：

模型架构

GPT-1模型使用Transformer的Decoder结构，专注于预测下一个词，它进行了一些优化：普通的Decoder包含两个Multi-Head Attention结构，但GPT-1只保留了Mask Multi-Head Attention。GPT-1的核心结构由12个Transformer Decoder的block堆叠而成，GPT-1拥有约1.17亿个参数。
GPT-1的模型以及微调后用于下游任务的训练

GPT-1的模型以及微调后用于下游任务的训练

预训练&微调

GPT-1的核心思想是通过二段式的训练来提高语言理解能力，第一步是利用大量未标注数据进行无监督预训练，使用语言建模目标来设置初始参数，当时使用的预训练来源是BookCorpus，它包含大量的长篇连续文本（号称几千本小说），因而有助于模型学习处理长距离信息，语料库的数据量约为5GB。第二步微调：监督的判别式“微调”阶段，主要根据目标任务进行调整参数，解决下游任务。

效果

GPT-1使用了半监督学习，GPT-1可以很好地完成若干下游任务（文本分类、问答等）。在多个下游任务中，微调后的GPT-1系列模型型在分类任务、问答等的性能均超过了当时针对特定任务训练的SOTA模型（下图）。然而，GPT-1在生成文本的连贯性和多样性有限，并且在学术界没有引起足够的关注。
问答上的效果对比

问答上的效果对比

在这里插入图片描述

分类、语义相似性上的效果对比

小结

GPT-1作为GPT系列的起点，并且开启了预训练语言模型在NLP领域应用的大门。同时，为后续更强大的GPT模型，如GPT-3和GPT-4等都提供了很好的经验和技术积累，在自然语言处理（NLP）领域具有重要意义。

关键字：江苏烟草电商网站怎么做_搜索引擎营销的特征_石家庄百度关键词搜索_怎样做百度推广网页

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：