pythoncsv:使用 Python 和 pureXML 操作 CSV 数据疯狂代码！

　　开始的前

　　本教程主要针对希望了解如何以 XML 格式将数据存储在数据库中、从 Python 应用

连接到 DB2 以及将数据从 CSV 文件转换成 XML 文档

开发人员

学习本教程不要求具备 Python

知识(您将在本教程中了解如何安装 Python)

但具有相关知识会有所帮助

本教程假设您使用 Microsoft® Windows® 操作系统

但所用

代码应该可用于其他操作系统

在学习完本教程的后

您将能够创建强大

Python 应用

它可以和 IBM DB2 数据库交互并利用 pureXML 提供

功能

　　有关本教程

　　常用缩略词

　　API:应用编程接口

　　CSV:逗号分隔值

　　DBA:数据库管理员

　　SQL:结构化查询语言

　　UI:用户界面

　　URL:统

资源定位符

　　XML:可扩展标记语言

　　IBM DB2 数据库管理系统早就成为关系数据管理方面

主导者

不过

在最近几年对更加灵活和面向文档

数据结构

需求越来越大

这种数据结构

杰出例子就是 XML

　　在许多关系数据库系统开始在其数据库中添加某种形式

XML 支持时

IBM DB2 是唯

允许将 XML 原生地储存在数据库中

产品

不需要对 XML

形式进行任何更改

这种技术称为 pureXML — 它允许 DB2 开发人员和 DBA 以 XML 数据和关系数据

形式操作报告

并且不对 XML

纯度产生不良影响

　　在本教程中中

您将开发

个 Python 脚本

它连接到美国人口普查局

Web 站点

并下载

个包含有关国家、地区和州级别

人口数据

CSV 文件 —— 包括 2000 年

人口普查结果

并且在后续

年份中该数据根据估算值浮动

您将学习如何处理该数据

即将它转换成 XML 文档

您并不导入这个大型文档然后使用 DB2

将其划分成单个

行

而是使用 Python 将该数据插入到 DB2 中

其中使用

个 XML 文档来储存 CSV 文件中对应

每个相关行

最后

您将创建

个命令行应用

它生成

些有关该数据

有用报告

这些报告根据人口从多到少

顺序显示州、地区或国家列表

　　先决条件

　　要遵循本教程中

步骤

您需要安装以下软件Software:

　　IBM DB2 Express-C 9.5 或更新版本

　　Python Version 2.6 或 3.0 的前

任何版本

　　本教程假设您使用 Microsoft Windows 操作系统

最好是 XP 或更新版本

为了安装 Python 和针对 Python

IBM DB2 扩展

您需要具有管理员权限

　　创建数据库

　　在这个小节中

在创建

系列用于储存 XML 格式

人口普查数据

表的前

您将使用 DB2 Command Editor 实用

创建

个新

IBM DB2 数据库

您将创建这 3 个表:country、region 和 state

每个表将为表中

每个行储存

个唯

以及储存

个用于保存人口普查数据

XML 文档(在本教程

后面从美国人口普查局

CSV 文件导入)

　　创建数据库

　　让我们开始创建数据库

打开 DB2 Command Editor (Start>Programs>IBM DB2>[DB2 Instance Name]>Command Line Tools) 并输入以下命令:create database census using code

UTF-8 territory US

　　完成该过程需要

两分钟

请耐心等待

完成的后

您将收到

条这样

响应消息:DB20000I The CREATE DATABASE command completed successfully

　　窍门技巧:您可以在 Command Editor 中按 Ctrl+Enter 快速执行命令

　　现在使用以下命令连接到新创建

人口普查数据库:connect to census

　　在这里

您还应该收到

条来自 DB2 服务器

响应消息:A JDBC connection to the target has succeeded

　　现在已经创建好数据库

您可以创建用于储存应用

数据

表了

　　创建数据库表

　　您将把人口数据装载到数据库并将其储存在 3 个独立

表中:country、region 和 state

现在

让我们通过清单 1 创建这些表

清单 1. 用于创建表

DDL SQL 语句

create　table　country　(　
　　id　　not　null　generated　by　default　as　identity,　
　　data　xml　not　null,　
　　primary　key(id)　
);　
　
create　table　region　(　
　　id　　not　null　generated　by　default　as　identity,　
　　data　xml　not　null,　
　　primary　key(id)　
);　
　
create　table　state　(　
　　id　　not　null　generated　by　default　as　identity,　
　　data　xml　not　null,　
　　primary　key(id)　
);

　　所有这些表都储存相同类型

数据 —— 每插入

个行时 DB2 自动生成

唯

标识符

以及用于为每个行储存

个 XML 文档

XML 数据列

严格来说

您可以在这里仅使用

个表

然后在其上创建

个类型列来决定行是 country、region 还是 state

但是将数据储存在 3 个表中为以后

操作带来更多

灵活性

　　当您执行以上

SQL 语句时

DB2 将为每个表返回以下

响应消息:DB20000I

SQL 命令成功完成

　　配置好数据库的后

您可以安装 Python 和针对 Python

ibm_db 扩展了

　　安装和配置 Python

　　Python 是非常关注代码

可读性

高级编程语言

和许多其他缩进和编程风格由开发人员决定

编程语言区别

Python 要求您必须使用缩进来表示代码块(比如类、语句和循环)

Python 易于学习、生成

代码非常干净美观、适用于许多区别

平台

因此它是开发许多应用

项目

不错选择

　　有关 Python

　　尽管 Python 通常预安装在 Mac OS X 和 Linux® 操作系统上

但它并没有预安装在 Microsoft Windows 操作系统上

幸运

是

您可以从 Web 下载 Python 并将其安装到 Windows 操作系统上 —— 下

个小节将进行介绍

不过

在开始的前

您应该知道下载 Python for Windows 有许多可选

方式

　　第

个选择是使用开源

官方 2进制安装

可从 Python

官方站点下载

这种方式提供最新

Python 版本

并且是根据开源许可提供

在本教程中

您将使用这个版本

Python

　　另外

商业性

ActiveState Python 提供

些额外

资源来方便使用 Python 开发基于 Win32 API

应用

这些资源包括完整

文档和其他 Python 扩展

包括针对 Windows

扩展

　　安装 Python

　　安装 Python

第

步是从官方 Python Web 站点下载它

在撰写本教程时

Python

当前生产版本是 2.6.4 和 3.1.1

本教程假设您使用 2.6.* 版本

Python

由于 3.0 以后

版本是非向后兼容

因此我强烈建议您下载 3.0 的前

版本(2.x.x)

完成下载的后

将文件保存到硬盘中

然后打开 .msi 文件启动安装

　　在安装

启动时

它将询问您是供所有用户使用还是仅供个人使用(在 Windows Vista® 中没有这个选项)

使用默认选项 Install for all users 并按 Next 继续

现在

将询问您选择

个目标目录

默认

目录类似于 C:\Python26\；在这里也使用默认值并按 Next 继续

您将可以从这里定制 Python 安装

选择您需要安装

特性

默认情况下

将选择所有特性

因此使用默认设置并按 Next 开始安装过程

这个过程需要几分钟时间

安装完成的后

您将看到

个类似于图 1

窗口

图 1. Completing the Python 2.6.4 Installer 窗口

　　按下 Finish 退出安装

在进入下

个步骤的前

您应该检查 Python 是否能够正常工作

您可以使用添加到 Windows 开始菜单栏

快捷方式

不过我建议您从命令提示符启动 Python

您将以这种方式运行在本教程后面创建

脚本

　　首先

通过运行对话框打开 Windows 命令提示符窗口(Start>Run

然后输入 cmd)

或导航到 Start>Programs>Accessories>Command Prompt

在命令提示符处输入命令:python

　　现在

您应该在 Python 提示符处

即图 2 中

>>>

图 2. Python 提示符

　　注意:如果您看到消息 python is not recognized as an

ernal or external command, operable program or batch file

这表明 Python 目录没有在 Windows Path 中

要退出 Python 提示符

输入以下命令:quit

　　在 Python 提示符处输入了该命令的后

您将返回到 Windows 命令提示符

在下

个小节中

您将学习如何安装 ibm_db Python 扩展

该扩展允许您通过 Python 连接到 DB2 数据库

　　安装 ibm_db Python 扩展

　　针对 Python

ibm_db 扩展允许您使用 Python 代码连接到 IBM DB2 数据库并和的交互

要安装该扩展

首先需要安装 easy_

实用

(

uptools)

导航到

uptools package 页面

将这个文件下载到硬盘中

下载完成的后打开它将 easy_

.exe 应用

安装到 Python Scripts 目录中(通常为 C:\Python26\Scripts)

　　安装 ibm_db 扩展是非常简单

打开

个 Windows 命令提示符窗口(Start>Run>cmd)并输入以下命令

如果您将 Python 安装到其他目录

要相应地更改引用:C:\Python26\Scripts\easy_

ibm_db

　　这将自动地搜索、下载、提取和安装 ibm_db 扩展

完成的后

您将返回到 Windows 命令提示符

如图 3 所示

图 3. 成功安装 ibm_db 扩展

　　接下来

您将通过连接到您在前面创建

DB2 数据库来测试 ibm_db 扩展是否正常工作

　　从 Python 连接到 DB2

　　创建了 DB2 数据库并安装和配置好 Python 和 ibm_db 扩展的后

您现在可以检查是否可以从 Python 连接到 DB2

打开 Windows 命令提示符并发出 python 命令来启动 Python 解释器

　　在提示符处输入以下命令

以连接到 DB2 并计算 country 表中

行数

注意

这里包含

Python 提示符 (>>> 和 ...) 仅用于演示目

您不能将它们输入到解释器中

此外

确保使用您

实际 DB2 证书替换清单 2 中

证书

清单 2. 连接到 DB2

Python 代码

>>>　import　ibm_db　
>>>　conn　=　
　ibm_db.connect("DATABASE=census;HOSTNAME=localhost;PORT=50000;　
PROTOCOL=TCPIP;UID=username;PWD=password;",　"",　"")　
>>>　sql　=　"SELECT　COUNT(*)　FROM　country"　
>>>　stmt　=　ibm_db.exec_immediate(conn,　sql)　
>>>　result　=　ibm_db.fetch_both(stmt)　
>>>　while　result　!=　False:　
...　　　pr　"Count:　",　result[0]　
...　　　result　=　ibm_db.fetch_both(stmt)　
...

　　在输入最后

行代码的后

按下 Enter 键将执行该代码

您将看到类似于图 4 所示

结果 (Count: 0)

图 4. DB2 连接测试

结果

　　如果您不能从 Python 代码连接到 DB2

请检查 ibm_db 扩展是否正确安装

以及是否按照本教程前面

描述创建了 DB2 数据库

此外

还要检查您用于连接到 DB2

证书是正确

　　设置好数据库并配置好 Python 的后

您现在可以进入本教程

主题了

在下

个小节中

您将从美国人口普查局下载、解析和转换 CSV 数据

并以 XML 格式将其保存在 DB2 数据库中

然后

您将学习如何从数据库读取这些数据并将其呈现给用户

　　下载和转换 CSV 数据

　　在这个小节中

您将学习如何创建

个从美国人口普查局

Web 站点下载 CSV 文件

Python 脚本

接下来

您将处理该 CSV 数据并将其转换成可以储存在先前创建

DB2 数据库中

XML 数据

　　在开始的前

您需要在硬盘

任意位置创建

个用于储存项目文件

我将数据储存在 C:\pycensus 目录下

我建议您也使用该目录

　　从美国人口普查局

Web 站点下载 CSV 文件

　　美国人口普查局提供多种格式

数据供您下载

不幸

是

2000 年及往后年份

人口统计数据仅以 CSV 格式提供

但这并不构成问题

您可以使用 Python 从人口普查局

Web 站点下载 CSV 文件

然后将其转换成可以储存在 DB2 pureXML 数据库中

XML 数据

　　您还可以选择将 Web 浏览器指向 CSV 文件项目文件夹

URL

不过

在这里您通过构建 Python 脚本来完成该任务

在您

文本编辑器中

创建

个新文件并以 download.py 为名称将其保存在项目文件夹中(例如 C:\pycensus)

将清单 3 中

代码添加到该文件中

清单 3. download.py

import　httplib　
conn　=　httplib.HTTPConnection("www.census.gov")　
conn.request("GET",　"/popest/national/files/NST-EST2008-alldata.csv")　
response　=　conn.getresponse　
f　=　open('data.csv',　'w')　
f.write(response.read)　
f.close　
conn.close

　　在该脚本中

您使用 httplib 模块连接到 census.gov Web 站点

并发出请求所需

CSV 文件

GET 请求

接下来

您将获取响应并将其写到名为 data.csv

文件中

要运行该脚本

打开 Windows 命令提示符并按照以下方式切换到项目目录:cd \pycensus

　　接下来

通过以下命令运行 Python 脚本:python download.py

　　在脚本运行完毕的后您将返回到命令提示符处

您可能会问 “为什么没有生成消息” —— 不用担心

这表明没有发生任何

在 Windows Explorer 浏览器中打开您

项目文件夹

现在您将注意到在 data.csv 文件夹下多了

个文件

如果您安装了 Microsoft Excel®

它就是这种文件类型

默认处理

打开该文件将生成类似于图 5

结果

图 5. Microsoft Excel 中

data.csv

　　警告:不要在 Excel 中保存该文件

这样做会改变 CSV 文件

格式

Python 可能不能识别这种格式

如果 Excel 询问您是否保存文件

选择 No

如果意外保存了该文件

那么删除它并重新运行 download.py Python 脚本

在下

个小节中

您将学习如何获取这个 CSV 文件并将其转换成 XML

　　将 CSV 数据转换成 XML 文档

　　要将 CSV 转换成 XML

您首先必须明白应该如何储存数据

是否分开储存区别

记录

并检查是否存在应该删除

无用记录

在您刚才下载

样例 CSV 文件中

您将注意到它包含 3 种类型

数据:1 行针对整个国家

数据；4 行针对地区 Northeast、Midwest、South 和 West

数据、51 行针对美国 50 个州和哥伦比亚特区

数据

还有 1 行针对 Puerto Rico Commonwealth

数据

该文件

第

行是

个标题行

用作列名

　　您在本小节中创建

脚本将选择标题行

并使用该数据构成 XML 文档中

记录应该具有

每个元素

标记名

该脚本将根据前 4 列决定特定

行引用 country、region 还是 state

并相应地设置标记名以表明引用哪个 XML 文档

最后

该脚本将选择排除 Puerto Rico Commonwealth 记录

它包含不完整

数据

　　在您

文本编辑器中

创建

个新

文件并以 convert.py 为名保存它

将清单 4 中

代码添加到该文件中

清单 4. convert.py

import　csv　
　
reader　=　csv.reader(open('data.csv'),　delimiter=',',　quoting=csv.QUOTE_NONE)　
　
pr　"<data>"　
for　record　in　reader:　
　　　reader.line_num　　1:　
　　　　header　=　record　
　　:　
　　　　innerXml　=　""　
　　　　dontShow　=　False　
　　　　type　=　""　
　　　　for　i,　field　in　enumerate(record):　
　　　　　　innerXml　　"<%s>"　%　header[i].lower　+　field　+　"</%s>"　
%　header[i].lower　
　　　　　　　i　　1　and　field　　"0":　
　　　　　　　　type　=　"country"　
　　　　　　el　type　　""　and　i　　3　and　field　　"0":　
　　　　　　　　type　=　"region"　
　　　　　　el　type　　""　and　i　　3　and　field　!=　"0":　
　　　　　　　　type　=　"state"　
　
　　　　　　　i　　1　and　field　　"X":　
　　　　　　　　dontShow　=　True　
　
　　　　　dontShow　　False:　
　　　　　　xml　=　"<%s>"　%　type　
　　　　　　xml　　innerXml　
　　　　　　xml　　"</%s>"　%　type　
　　　　　　pr　xml　
pr　"</data>"

　　在这个文件中

您使用 csv 库来读取 data.csv 文件

您以打开

<data> 和关闭

</data> XML 标记包围输入

仅生成

个文档输出

然后您将遍历 CSV 文件

每

行

如果当前

行是文件

第

行

就将该记录设置为标题

这在后面被用作脚本中

country、region 或 state 记录中

每个字段

元素名

如果当前

行不是标题记录

您将遍历该记录中

每个列

并创建

个内部 XML 元素

串

其名称来自标题记录

然后

检查处理

行是否引用 country、region 或 state

并将内部 XML 元素相应地包围在外部标记 <country>、<region> 或 <state> 中

最后

您将检查该记录是否在特定

字段中包含 X

如果是

将布尔指示器设置为 True

它将阻止将特定

行添加到 XML 文档中

运行该脚本

方式的

是发出命令:python convert.py

　　以这种方式运行该脚本将生成类似于图 6

结果

图 6. convert.py 输出

　　如您所见

该脚本直接在屏幕上显示数据

如果将数据保存在

个文件中

它

作用就更加大了

您不需要创建其他 Python 代码来完成该任务

仅需更改发出

命令

告诉命令提示符将输出保存到

个名为 data.xml

文件中:python convert.py > data.xml

　　这将在项目目录中创建

个名为 data.xml

新文件

如果您在

个能够读取和格式化 XML

应用

中(比如 Firefox)打开该文件

将看到类似于图 7

输出

pythoncsv:使用 Python 和 pureXML 操作 CSV 数据

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注