艺术 |文化 |酒店 |旅游 |美景 |影视 |明星 |八卦 |攻略 |评测 |单机 |网游 |手游 |游戏

当前位置：首页> 文旅> 美景 > 公众号开发哪家好_微博广告_职业培训学校_如何申请网站域名流程

公众号开发哪家好_微博广告_职业培训学校_如何申请网站域名流程

时间:2025/7/10 8:15:31来源：https://blog.csdn.net/jayhgq/article/details/145764936 浏览次数:0次

公众号开发哪家好_微博广告_职业培训学校_如何申请网站域名流程

上一节我们对爬虫程序的默认回调函数parse做了改写，提取的数据可以在Scrapy的日志中打印出来了，光打印肯定是不行的，还需要把数据存储，数据可以存到文件，也可以存到数据库，我们一一来看。

存储数据到文件

首先我们看看如何将数据存储到文件，在讲[[【Scrapy】Scrapy教程5——第一个Scrapy项目]]时，我们改写了prase函数，将首页存储到了一个shouye.html文件中，这便是我们的简单的数据存储，但这个存储方式是我们纯手写的代码，存的是整个页面，并非我们想要的数据。
这节主要讲存储数据，我们看下通过Scrapy命令直接存储数据，在这之前我们将parse函数修改下。

def parse(self, response):# 从获取的所有文章中提取链接和标题for article in response.css(".card")[1:]:yield {"title": article.xpath("./a").css("span::text").get(),"link": self.start_urls[0] + article.xpath("./a/@href").get(),}

然后，我们在到命令行中，运行以下命令。

scrapy crawl shouye -o titles.json

上面这条命令会将我们提取的数据存储到titles.json文件中，存储后的效果如下图所示。
在这里插入图片描述

我们会发现，存储的数据没有错，但是被整体存到了一个大的字典中，这不是我想要的结果，我只要数据一行一行的存储下来就好了，我们可以用以下命令。

scrapy crawl shouye -o titles.jsonl

没错，我们换个存储格式，就可以了。
在这里插入图片描述

存储数据到数据库

上面这种方法存储简单的数据可以，对于复杂结构的数据存储，就要引入Items和pipelines了。

Items

我们爬取页面的目标就是将非结构化数据提取为结构化数据，而Item就是Scrapy提供的一个类，用于定义通用输出数据格式的。Scrapy可以将提取的数据，作为Item返回，类似python的键值对。

Item Types

Scrapy通过itemadapter支持字典、Item对象、数据类对象、attrs对象几种Item类型。

字典：类似Python的键值对字典
Item对象：Item提供的一个类似dict的API，可以支持更高级的特性
dataclass对象：允许定义具有字段名称的项目类，可以指定字段的类型和元数据
attrs对象：允许定义具有字段名称的项目类，可以指定字段的类型和元数据

关键字：公众号开发哪家好_微博广告_职业培训学校_如何申请网站域名流程

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

设计师服务平台网_石家庄网络公司行业_百度搜索风云榜小说排行榜_百度推广怎么使用教程

设计师服务平台网_石家庄网络公司行业_百度搜索风云榜小说排行榜_百度推广怎么使用教程

美食静态网站设计论文_潍坊外贸建站_百度搜索数据统计_百度知道合伙人官网登录入口

美食静态网站设计论文_潍坊外贸建站_百度搜索数据统计_百度知道合伙人官网登录入口

新手如何学剪辑视频_诸暨做幕墙连接件的公司_苏州关键词优化软件_网站的优化

新手如何学剪辑视频_诸暨做幕墙连接件的公司_苏州关键词优化软件_网站的优化

网页设计制作方法_设立深圳公司_济南网站推广优化_怎么申请域名建网站

网页设计制作方法_设立深圳公司_济南网站推广优化_怎么申请域名建网站

龙岗seo网络推广_通过一个站点的建设方案_长春网站开发公司_昆明做网站的公司

龙岗seo网络推广_通过一个站点的建设方案_长春网站开发公司_昆明做网站的公司

杭州建站模板系统_平面设计找工作_什么是精准营销_中央下令全国各地核酸检测

杭州建站模板系统_平面设计找工作_什么是精准营销_中央下令全国各地核酸检测

有限责任公司注册资金_私人搭建服务器_清远网站seo_智能识别图片

有限责任公司注册资金_私人搭建服务器_清远网站seo_智能识别图片

国际新闻最新消息今天简讯_app是什么意思的缩写_sem是指什么_恶意点击软件哪几种

国际新闻最新消息今天简讯_app是什么意思的缩写_sem是指什么_恶意点击软件哪几种

>> 热门搜索

评论排行

图片新闻

公众号开发哪家好_微博广告_职业培训学校_如何申请网站域名流程

石家庄网络公司排名_bim装配式工程师证书兼职_软文公司代写_免费的行情软件网站下载

莱芜58同城招聘网最新招聘_阳江市房产信息网官网_石家庄热搜_百度开户需要什么资质

网站制作模板代码html免费_根据描述生成图片的网站_网站页面关键词优化_安徽搜索引擎优化

点击排行