Python爬虫初试

时间:2025/9/15 2:38:08来源：https://blog.csdn.net/xixixixixixixi21/article/details/139809018 浏览次数:0次

在Python中，我们可以使用一些强大的库来编写一个功能强大的爬虫，
Python

首先安装必要的库（如果尚未安装）

pip install requests beautifulsoup4

import requests
from bs4 import BeautifulSoup
import osdef download_images(url, save_dir='images'):# 发送GET请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code != 200:print(f"请求失败: {response.status_code}")return# 使用BeautifulSoup解析HTMLsoup = BeautifulSoup(response.text, 'html.parser')# 查找所有的img标签，通常包含图片的URLimg_tags = soup.find_all('img')# 保存图片到指定目录if not os.path.exists(save_dir):os.makedirs(save_dir)for img_tag in img_tags:img_url = img_tag['src']  # 获取图片链接img_name = os.path.join(save_dir, img_url.split('/')[-1])  # 构建文件名# 下载图片with open(img_name, 'wb') as f:img_response = requests.get(img_url, stream=True)for chunk in img_response.iter_content(1024):f.write(chunk)print(f"已下载{len(img_tags)}张图片到'{save_dir}'目录")

使用爬虫

target_url = “http://example.com” # 替换为你想要抓取图片的网站
download_images(target_url)
定义了一个函数download_images，它接受一个URL作为参数，然后找到页面上的所有图片，并将它们下载到指定的目录。为了增强爬虫功能，你可以考虑添加异常处理、代理支持、反爬虫机制、数据提取（如文本、表格等）、以及使用更复杂的库如Scrapy进行更深度的数据抓取。

关键字：Python爬虫初试

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：