app开发和维护费用_北京工程建设有限公司_有没有免费的写文案的软件_海外网站建站

时间:2025/7/11 19:26:12来源：https://blog.csdn.net/kalle2021/article/details/145615315 浏览次数:1次

Jsoup 教程：从基础到爬虫实战

一、Jsoup 简介

Jsoup 是一个强大的 Java 库，专门用于解析和处理 HTML 数据。它能够轻松解析 URL 或 HTML 字符串，提供便捷的 API 让你通过 DOM、CSS 选择器以及类似 jQuery 的操作方法提取和操作数据。Jsoup 的设计目标是让 Java 开发者能够快速地进行网页抓取和数据处理，是开发爬虫的常用工具。

二、环境搭建

引入依赖

如果你使用 Maven，在 pom.xml 中添加如下依赖：

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version>
</dependency>

如果使用 Gradle，在 build.gradle 中添加：

implementation 'org.jsoup:jsoup:1.15.4'

配置 Java 环境

Jsoup 是纯 Java 编写的，因此只需确保你的 Java 环境已正确配置，且 Java 版本不低于 8。

三、Jsoup 基础用法

1. 解析 URL

通过 Jsoup 连接到一个 URL，获取网页并解析其内容非常简单。以下代码展示了如何从一个网页获取标题：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;public class JsoupExample {public static void main(String[] args) {try {// 连接到目标网页，并解析为 Document 对象Document doc = Jsoup.connect("https://www.example.com").get();// 获取并打印网页标题System.out.println(doc.title());} catch (IOException e) {e.printStackTrace();}}
}

2. 解析 HTML 字符串

除了通过 URL 解析网页内容，你还可以通过 Jsoup 解析 HTML 字符串。例如：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsoupStringExample {public static void main(String[] args) {String html = "<html><body><h1>这是一个标题</h1></body></html>";Document doc = Jsoup.parse(html);System.out.println(doc.select("h1").text());  // 输出：这是一个标题}
}

四、基础爬虫手段

1. 获取网页元素

获取网页中的各类元素是爬虫的核心任务。Jsoup 提供了强大的 CSS 选择器支持，可以方便地抓取网页中的链接、图片、段落等元素。以下示例获取网页中所有的链接：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;public class JsoupCrawlerExample {public static void main(String[] args) {try {Document doc = Jsoup.connect("https://www.example.com").get();Elements links = doc.select("a");  // 获取所有链接for (Element link : links) {System.out.println("链接文本: " + link.text());System.out.println("链接地址: " + link.attr("href"));}} catch (IOException e) {e.printStackTrace();}}
}

2. 模拟表单提交

如果你需要模拟登录等操作，Jsoup 也可以帮助你提交表单数据。以下是一个模拟登录的例子：

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;public class JsoupFormExample {public static void main(String[] args) {try {Connection conn = Jsoup.connect("https://www.example.com/login");Map<String, String> data = new HashMap<>();data.put("username", "your_username");data.put("password", "your_password");Document doc = conn.data(data).post();  // 提交表单System.out.println(doc.title());  // 输出响应页面的标题} catch (IOException e) {e.printStackTrace();}}
}