赵走x博客 - 开发者的网上家园

Python3网络爬虫实战：3、解析库的安装:LXML、BeautifulSoup、PyQuery、Tesserocr

资源编号:75747 Python3网络爬虫实战爬虫热度：90

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用正则来提取，但是写起来会相对比较繁琐。在这里还有许多强大的解析库，如 LXML、BeautifulSoup、PyQuery 等等，提供了非常强大的解析方法，如 XPath 解析、CSS 选择器解析等等，利用它们我们可以高效便捷地从从网页中提取出有效信息。

本节我们就来介绍一下这些库的安装过程。

# 1.2.1 LXML的安装

LXML 是 Python 的一个解析库，支持 HTML 和 XML 的解析，支持 XPath 解析方式，而且解析效率非常高。
#### 1. 相关链接

*    官方网站：http://lxml.de
*    GitHub：https://github.com/lxml/lxml
*    PyPi：https://pypi.python.org/pypi/lxml

#### 2. Mac下的安装

```
pip3 install lxml
```
如果产生错误，可以执行如下命令将必要的类库安装：
```
xcode-select --install
```
之后再重新运行 Pip 安装就没有问题了。

LXML 是一个非常重要的库，后面的 BeautifulSoup、Scrapy 框架都需要用到此库，所以请一定安装成功。
#### 3. 验证安装

安装完成之后，可以在 Python 命令行下测试。
```
$ python3
>>> import lxml
```
如果没有错误报出，则证明库已经安装好了。

# 1.2.2 BeautifulSoup的安装

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库，我们可以用它来方便地从网页中提取数据，它拥有强大的 API 和多样的解析方式，本节我们了解下它的安装方式。
#### 1. 相关链接

*    官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc
*    中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
*    PyPi：https://pypi.python.org/pypi/beautifulsoup4

#### 2. 准备工作

BeautifulSoup 的 HTML 和 XML 解析器是依赖于 LXML 库的，所以在此之前请确保已经成功安装好了 LXML 库，具体的安装方式参见上节。
#### 3. Pip 安装

目前 BeautifulSoup 的最新版本是 4.x 版本，之前的版本已经停止开发了，推荐使用 Pip 来安装，安装命令如下：
```
pip3 install beautifulsoup4
```
命令执行完毕之后即可完成安装。

#### 4. 验证安装

安装完成之后可以运行下方的代码验证一下。
```
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)
```
运行结果：
```
Hello
```
如果运行结果一致则证明安装成功。

注意在这里我们虽然安装的是 beautifulsoup4 这个包，但是在引入的时候是引入的 bs4，这是因为这个包源代码本身的库文件夹名称就是 bs4，所以安装完成之后，这个库文件夹就被移入到我们本机 Python3 的 lib 库里，所以识别到的库文件名称就叫做 bs4，所以我们引入的时候就引入 bs4 这个包。

因此，包本身的名称和我们使用时导入的包的名称并不一定是一致的。

# 1.2.3 PyQuery的安装

PyQuery 同样是一个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析 HTML 文档，支持 CSS 选择器，使用非常方便，本节我们了解下它的安装方式。
#### 1. 相关链接

*    GitHub：https://github.com/gawel/pyquery
*    PyPi：https://pypi.python.org/pypi/pyquery
*    官方文档：http://pyquery.readthedocs.io

#### 2. Pip安装

```

pip3 install pyquery
```

#### 3. 验证安装

安装完成之后，可以在 Python 命令行下测试。
```
$ python3
>>> import pyquery
```
如果没有错误报出，则证明库已经安装好了。

# 1.2.4 Tesserocr的安装
爬虫过程中难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用 OCR 来识别。
#### 1. OCR
OCR，即 Optical Character Recognition，光学字符识别。是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。那么对于图形验证码来说，它都是一些不规则的字符，但是这些字符确实是由字符稍加扭曲变换得到的内容。
例如这样的验证码，如图 1-22 和 1-23 所示：
![image.png](https://img.hacpai.com/file/2019/08/image-5915c7a7.png)

图 1-22 验证码
![image.png](https://img.hacpai.com/file/2019/08/image-e0132f40.png)

图 1-23 验证码
对于这种验证码，我们便可以使用 OCR 技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。
Tesserocr 是 Python 的一个 OCR 识别库，但其实是对 Tesseract 做的一层 Python API 封装，所以它的核心是 Tesseract，所以在安装 Tesserocr 之前我们需要先安装 Tesseract，本节我们来了解下它们的安装方式。
#### 2. 相关链接
* Tesserocr GitHub：https://github.com/sirfz/tesserocr
* Tesserocr PyPi：https://pypi.python.org/pypi/tesserocr
* Tesseract下载地址：http://digi.bib.uni-mannheim.de/tesseract
* Tesseract GitHub：https://github.com/tesseract-ocr/tesseract
* Tesseract 语言包：https://github.com/tesseract-ocr/tessdata
* Tesseract 文档：https://github.com/tesseract-ocr/tesseract/wiki/Documentation
#### 3. Mac下的安装
Mac 下首先使用 Homebrew 安装 Imagemagick 和 Tesseract 库：
```
brew install imagemagick 
brew install tesseract 
```
接下来再安装 Tesserocr 即可：
```
pip3 install tesserocr pillow
```
这样我们便完成了 Tesserocr 的安装。
#### 4. 验证安装
接下来我们可以使用 Tesseract 和 Tesserocr 来分别进行测试。
下面我们以如下的图片为样例进行测试，如图 1-26 所示：
![null](https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png)
图 1-26 测试样例
图片链接为：https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png ，可以直接保存或下载。
我们首先用命令行进行测试，将图片下载保存为 image.png，然后用 Tesseract 命令行测试，命令如下：
```
tesseract image.png result -l eng && cat result.txt
```
运行结果：
```
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider
```
我们调用了 tesseract 命令，第一个参数为图片名称，第二个参数 result 为结果保存的目标文件名称，-l 指定使用的语言包，在此使用 eng 英文，然后再用 cat 命令将结果输出。
第二行的运行结果便是图片的识别结果，Python3WebSpider。
我们可以看到这时已经成功将图片文字转为电子文本了。
然后我们还可以利用 Python 代码来测试，这里就需要借助于 Tesserocr 库了，测试代码如下：
```
import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))
```
>如果在运行期间python3闪退，出现下面错误：
>```
>!strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209
>```
>就需要这样运行了：
>```
>import locale
>locale.setlocale(locale.LC_ALL,'C')
>
>import tesserocr
>from PIL import Image
>image = Image.open('image.png')
>print(tesserocr.image_to_text(image))
>```

在这里我们首先利用 Image 读取了图片文件，然后调用了 tesserocr 的 image_to_text() 方法，再将将其识别结果输出。
运行结果：
```
Python3WebSpider
```
另外我们还可以直接调用 file_to_text() 方法，也可以达到同样的效果：
```
import tesserocr
print(tesserocr.file_to_text('image.png'))
```
运行结果：
```
Python3WebSpider
```
如果成功输出结果，则证明 Tesseract 和 Tesserocr 都已经安装成功。