beautifulsoup:可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据疯狂代码！

　　使用基本

Python 模块

可以编写脚本来和 Web 站点交互

但是如果没有必要

话

那么您就不希望这样做

Python 2.x 中

模块 urllib 和 urllib2

以及 Python 3.0 中

统

urllib.* 子包

可以在 URL

末尾获取资源

然而

当您希望和 Web 页面中找到

内容进行某种比较复杂

交互时

您需要使用 mechanize 库

　　在自动化 Web scrap 或用户和 Web 站点

交互模拟中

最大

困难的

就是服务器使用 cookies 跟踪会话进度

显然

cookies 是 HTTP 头部

部分

在 urllib 打开资源时会自然显示出来

而且

标准模块 Cookie(Python 3 中

http.cookie)和 cookielib(Python 3 中

http.cookiejar)有助于在比原始

文本处理更高

层次上处理这些头部

即使如此

在这个层次上执行处理也非常

繁琐

mechanize 库将这种处理提升到

个更高程度

抽象并使您

脚本 — 或交互性 Python shell — 表现出非常类似实际 Web 浏览器

行为

　　Python

mechanize 受到 Perl

WWW:Mechanize

启发

后者具有类似

组功能

当然

作为长期

Python 支持者

我认为 mechanize 更健壮

它看上去似乎继承了两种语言

通用模式

　　mechanize

个亲密伙伴是同样出色

Beaut

ul Soup 库

这是

个非常神奇

“粗糙

解析器”

用于解析实际 Web 页面中包含

有效 HTML

您不需要将 Beaut

ul Soup 用于 mechanize

反的亦然

但是多半情况下

当您和 “实际存在

Web” 交互时

您将希望同时使用这两种工具

个实际举例

　　我曾在多个编程项目中使用过 mechanize

最近

个项目是从

个流行

Web 站点中收集匹配某种条件

名称

列表

该站点提供了

些搜索工具

但是没有提供任何正式

API 来执行此类搜索

虽然访问者可能能够更明确地猜出我过去在做什么

但我将修改给出

代码

细节

以避免暴露有关被 scrap

站点或我

客户机

过多信息

般情况下

我给出

代码对于类似任务是通用

　　入门工具

　　在实际开发 Web scrap/分析代码

过程中

我发现以交互式方式查看、处理和分析 Web 页面

内容以了解相关 Web 页面实际发生

操作是非常重要

功能

通常

站点中

些页面是由查询动态生成(但是具有

致

模式)

或是根据非常严格

模板预先生成

　　完成这种交互式体验

种重要思路方法就是在 Python shell 内使用 mechanize 本身

特别是在

个增强

shell 内

比如 IPython

通过这种方式

您可以在编写执行希望用于生产中

交互

最终脚本的前

请求各种已链接

资源、提交表单、维护或操作站点 cookies

等等

　　然而

我发现我和 Web 站点

许多实验性质

交互在实际

现代 Web 浏览器中得到了更好

执行

方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生

事情

问题在于

呈现页面仅仅完成了事情

半

可能还不到

半

获得 “页面源代码” 会让您更进

步

要真正理解给定 Web 页面或和 Web 服务器

系列交互

背后

原理

需要了解更多

　　要了解这些内容

我常常使用 Firebug或面向 Firefox

Web Developer 插件(或最新 Safari 版本中

内置

可选 Develop 菜单

但是所针对

目标人群区别)

所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面

DOM、查看或运行 Javascript、观察 Ajax 通信等操作

比较这些工具

优劣需要另外撰写

篇文章

但是如果您要进行面向 Web

编程

话

那么必须熟悉这些工具

　　不管使用哪

种工具来对准备实现自动化交互

Web 站点做实验

您都需要花比编写简洁

mechanize 代码(用于执行您

任务)更多

时间来了解站点实际发生

行为

　　搜索结果 scraper

　　考虑到上面提到

项目

意图

我将把包含 100 行代码

脚本分为两个功能:

　　检索所有感兴趣

结果

　　从被检索

页面中拉取我感兴趣

信息

　　使用这种方式组织脚本是为了便于开发；当我开始任务时

我需要知道如何完成这两个功能

我觉得我需要

信息位于

个普通

页面集合中

但是我还没有检查这些页面

具体布局

　　首先我将检索

组页面并将它们保存到磁盘

然后执行第 2个任务

从这些已保存

文件中拉取所需

信息

当然

如果任务涉及使用检索到

信息构成同

会话内

新交互

那么您将需要使用顺序稍微区别

开发步骤

　　因此

首先让我们查看我

fetch

:

清单 1. 获取页面内容

import　sys,　time,　os　
from　mechanize　import　Browser　
　
LOGIN_URL　=　'http://www.example.com/login'　
USERNAME　=　'DavidMertz'　
PASSWORD　=　'TheSpanishInquisition'　
SEARCH_URL　=　'http://www.example.com/search?'　
FIXED_QUERY　=　'food=spam&'　'utensil=spork&'　'date=the_future&'　
VARIABLE_QUERY　=　['actor=%s'　%　actor　for　actor　in　
　　　　('Graham　Chapman',　
　　　　　'John　Cleese',　
　　　　　'Terry　Gilliam',　
　　　　　'Eric　Idle',　
　　　　　'Terry　Jones',　
　　　　　'Michael　Palin')]　
　
def　fetch:　
　　result_no　=　0　　　　　　　　　#　Number　the　output　files　
　　br　=　Browser　　　　　　　　#　Create　a　browser　
　　br.open(LOGIN_URL)　　　　　　#　Open　the　login　page　
　　br.select_form(name="login")　#　Find　the　login　form　
　　br['username']　=　USERNAME　　　#　Set　the　form　values　
　　br['password']　=　PASSWORD　
　　resp　=　br.submit　　　　　　#　Submit　the　form　
　
　　#　Automatic　redirect　sometimes　fails,　follow　manually　when　needed　
　　　'Redirecting'　in　br.title:　
　　　　resp　=　br.follow_link(text_regex='click　here')　
　
　　#　Loop　through　the　searches,　keeping　fixed　query　parameters　
　　for　actor　in　in　VARIABLE_QUERY:　
　　　　#　I　like　to　watch　what's　happening　in　the　console　
　　　　pr　>>　sys.stderr,　'***',　actor　
　　　　#　Lets　do　the　actual　query　now　
　　　　br.open(SEARCH_URL　+　FIXED_QUERY　+　actor)　
　　　　#　The　query　actually　gives　us　links　to　the　content　pages　we　like,　
　　　　#　but　there　are　some　other　links　on　the　page　that　we　ignore　
　　　　nice_links　=　[l　for　l　in　br.links　
　　　　　　　　　　　　　'good_path'　in　l.url　
　　　　　　　　　　　　and　'credential'　in　l.url]　
　　　　　not　nice_links:　　　　#　Maybe　the　relevant　results　are　empty　
　　　　　　　
　　　　for　link　in　nice_links:　
　　　　　　try:　
　　　　　　　　response　=　br.follow_link(link)　
　　　　　　　　#　More　console　reporting　on　title　of　followed　link　page　
　　　　　　　　pr　>>　sys.stderr,　br.title　
　　　　　　　　#　Increment　output　filenames,　open　and　write　the　file　
　　　　　　　　result_no　　1　
　　　　　　　　out　=　open(result_%04d'　%　result_no,　'w')　
　　　　　　　　pr　>>　out,　response.read　
　　　　　　　　out.close　
　　　　　　#　Nothing　ever　goes　perfectly,　ignore　　we　do　not　get　page　
　　　　　　except　mechanize._response.httperror_seek_wrapper:　
　　　　　　　　pr　>>　sys.stderr,　"Response　error　(probably　404)"　
　　　　　　#　Let's　not　hammer　the　site　too　much　between　fetches　
　　　　　　time.sleep(1)

　　对感兴趣

站点进行交互式研究后

我发现我希望执行

查询含有

些固定

元素和

些变化

元素

我仅仅是将这些元素连接成

个大

GET 请求并查看 “results” 页面

而结果列表包含了我实际需要

资源

链接

因此

我访问这些链接(当此过程出现某些

时

会抛出 try/except 块)并保存在这些内容页面上找到

任何内容

　　很简单

是不是？Mechanize 可以做

不止这些

但是这个简单

例子向您展示了 Mechanize

大致功能

　　处理结果

　　现在

我们已经完成了对 mechanize

操作；剩下

工作是理解在 fetch

循环期间保存

大量 HTML 文件

批量处理特性让我能够在

个区别

中将这些文件整齐、明显地分离开来

fetch

和 process

可能交互得更密切

Beaut

ul Soup 使得后期处理比初次获取更加简单

　　对于这个批处理任务

我们希望从获取

各种 Web 页面

零散内容中生成表式

以逗号分隔

值(CSV)数据

清单 2. 使用 Beaut

ul Soup 从无序

内容中生成整齐

数据

from　glob　import　glob　
from　BeautulSoup　import　BeautulSoup　
　
def　process:　
　　pr　"!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE"　
　　for　fname　in　glob('result_*'):　
　　　　#　Put　that　sloppy　HTML　o　the　soup　
　　　　soup　=　BeautulSoup(open(fname))　
　
　　　　#　Try　to　find　the　fields　we　want,　but　default　to　unknown　values　
　　　　try:　
　　　　　　movie　=　soup.findAll('span',　{'':'movie_title'})[1].contents[0]　
　　　　except　IndexError:　
　　　　　　fname　=　"UNKNOWN"　
　
　　　　try:　
　　　　　　director　=　soup.findAll('div',　{'':'director'})[1].contents[0]　
　　　　except　IndexError:　
　　　　　　lname　=　"UNKNOWN"　
　
　　　　try:　
　　　　　　#　Maybe　multiple　grips　listed,　key　one　should　be　in　there　
　　　　　　grips　=　soup.findAll('p',　{'id':'grip'})[0]　
　　　　　　grips　=　"　".join(grips.split)　　#　Normalize　extra　spaces　
　　　　except　IndexError:　
　　　　　　title　=　"UNKNOWN"　
　
　　　　try:　
　　　　　　#　Hide　some　stuff　in　the　HTML　<meta>　tags　
　　　　　　moose　=　soup.findAll('meta',　{'name':'shibboleth'})[0]['content']　
　　　　except　IndexError:　
　　　　　　moose　=　"UNKNOWN"　
　
　　　　pr　'"%s","%s","%s","%s"'　%　(movie,　director,　grips,　moose)

　　第

次查看 Beaut

ul Soup

process

中

代码令人印象深刻

读者应当阅读有关文档来获得有关这个模块

更多细节

但是这个代码片段很好地体现了它

整体风格

大多数 soup 代码包含

些对只含有格式良好

HTML

页面

.findAll

这里是

些类似 DOM

.parent、nextSibling 和 previousSibling 属性

它们类似于 Web 浏览器

“quirks” 模式

我们在 soup 中找到

内容并不完全是

个解析树

　　结束语

　　诸如我的类

守旧者

甚至于

些更年轻

读者

都会记住使用 TCL Expect(或使用用 Python 和其他许多语言编写

类似内容)编写脚本带来

愉悦

自动化和 shell

交互

包括 telnet、ftp、ssh 等等远程 shell

变得非常

直观

会话中

所有内容都被显示出来

Web 交互变得更加细致

信息被分为头部和内容体

并且各种相关

资源常常通过 href 链接、框架、Ajax 等被绑定在

起

然而

总

来说

您可以使用 wget 的类

工具来检索 Web 服务器提供

所有字节

然后像使用其他连接协议

样运行和 Expect 风格完全相同

脚本

　　在实战中

几乎没有编程人员过分执着于过去

老思路方法

比如我建议

wget + Expect 思路方法

Mechanize 保留了许多和出色

Expect 脚本相同

东西

令人感觉熟悉和亲切

并且和 Expect

样易于编写(如果不是更简单

话)

Browser

对象命令

比如 .select_form

、.submit

和 .follow_link

真

是实现 “查找并发送” 操作

最简单、最明显

思路方法

同时绑定了我们希望在 Web 自动化框架中具备

复杂状态和会话处理

所有优点

beautifulsoup:可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注