Jsoup 读取文件获取HTML

以下示例将展示使用文件从磁盘获取 HTML,然后查找其数据。

Jsoup 读取文件获取HTML 语法

String url = "http://www.yiidian.com";
Document document = Jsoup.connect(url).get();
  • document : 文档对象代表 HTML DOM。

  • Jsoup : 连接 url 并获取 HTML 字符串的主类。

  • url : 要加载的 html 页面的 url。

Jsoup 读取文件获取HTML 说明

connect(url) 方法建立到 url 的连接,get() 方法返回所请求 url 的 html。

Jsoup 读取文件获取HTML 示例

在D盘根目录下建立test.html文件,内容如下:

<html>
<head>
    <title>一点教程网:Sample Title</title>
</head>
<body>
<p>Sample Content</p>
</body>
</html>

解析代码如下: 

package com.yiidian;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;

public class JsoupTester {
   public static void main(String[] args) throws IOException, URISyntaxException {
      File input = new File("d:/test.html");
      Document document = Jsoup.parse(input, "UTF-8");
      System.out.println(document.title());
   }
}

输出结果为:

热门文章

优秀文章