Rss订阅

首页 »编程综合 » 正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例 »正文

正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例

来源: 发布时间:星期一, 2009年9月7日浏览:26次评论:0

　　介绍

　　最近

次 TDWI 调查向数据管理专业人员询问

“您认为

在以后 3年您

数据仓库中哪种数据和源系统会大量增加？” 结果表明

他们预计非结构化数据会大量增加

这种数据包括电子邮件、呼叫中心谈话记录、来自内容管理系统

文档以及来自论坛或博客

公开内容

(见参考资料中这次调查

链接)

　　本系列讨论文本分析技术如何把非结构化文本数据转换为可以在业务智能化应用

中使用

有意义

信息

非结构化数据可以改进现有

BI 分析

质量

在某些情况下还有助于实现新

信息探查类型

　　举例业务场景

　　下面两个业务场景举例介绍说明文本分析技术

价值:

　　通过尽早发现不满意

客户

减少客户流失:电信行业

公司已经为防止客户流失建立了详细

预测分析模型

但是

这些模型主要使用结构化数据

添加来自非结构化数据

信息可以显著增强这些预测模型

例如

公司可以在服务呼叫记录中发现客户提到了竞争对手

从而发现可能会流失

客户

通过在客户流失模型中包含这种信息

公司可以在出现客户不满

最初迹象时及时采取措施

　　改进早期警报系统

质量:内部问题报告、客户电子邮件或呼叫中心谈话记录可以提供有关产品问题

重要信息

目前

许多公司使用问题分类法中

组固定

类别捕捉这些信息

这些分类法通常难以发现细粒度

问题

如果分类法只包含高级类别

公司就无法捕捉到问题

实际原因

但是

如果分类法试图捕捉所有可能出现

问题

它们就会太笨拙

不适合呼叫中心职员等

线人员使用

产品缺陷

实际原因往往淹没在技术评论或呼叫中心日志中

例如

公司可能能够发现某

产品有问题

但是发现不了导致此问题

部件

因此

公司失去了采取适当措施

机会

比如招回产品或检查使用问题部件

其他产品

通过使用 InfoSphere Warehouse 中

常见词分析

公司可以从客户对某

产品型号

意见中提取出相关

词

并在报告中列出它们

这有助于直接找到可能有问题

部件

　　在这两个场景中

非结构化数据

主要类型是文本

公司还可能需要分析半结构化文本(比如 XML 内容)或其他数据类型(比如音频和视频)

但是

本系列

作者发现

和当今

应用

相关

主要内容是形式自由

文本

比如技术笔记、通过 CRM 应用

或电子邮件提交

客户评论或来自新闻服务

文本片段

因此

我们把本系列

重点放在形式自由

文本上

　　信息提取任务

　　文本分析背后

基本任务是信息提取(Information Extraction

IE)

信息提取是自然语言处理

领域的

它通过检查非结构化文本提取出概念(称为实体)和这些概念的间

关系

　　相关

信息提取任务包括:

　　指定实体识别(Named Entity Recognition

NER):识别和提取指定

实体

例如

人名、地点名、货币表达式和问题标志

　　关系检测(Relationship Detection):检测指定实体的间

关系

例如

部件 X 导致问题 Y

　　相互引用解析(Coreference resolution):在整个文档中识别出引用相同实体

表达式

例如

以下文本中

饭店名 “Best Hotel”:I liked my stay at the Best Hotel. It has very bright rooms. The hotel also features…

　　基于列表和基于规则

指定实体识别

　　指定实体识别

种思路方法是基于列表提取实体

这包括提取职员姓名(例如来自公司

LDAP 服务器)或产品名及其属性

些领域已经有正式

领域词汇表

例如

用于医疗保健行业

atized Nomenclature of Medicine-Clinical Terms (SnoMed CT)

　　基于列表

提取

优点是

词汇列表常常来自可信

源

这意味着它

创建和维护可以实现

定程度

自动化

例如

每当添加新产品名时

可以让它触发批量更新

另外

提取结果立即提供给最终用户

列表中

词汇常常有各种变体和缩写

必须由领域专家在列表中添加它们

　　某些类型

实体无法

列出

比如电话号码或货币表达式

对于这些实体

基于规则

提取是更合适

思路方法

基于规则

提取

优点是

般化 —

条规则可以覆盖很大范围内

实体

另

个优点是规则可以考虑文档上下文

这对于某些任务很重要

比如在情感检测中

个否定词(比如 “not”)会反转整个句子

意义

　　规则

关键难点是复杂性 — 用户需要得到帮助才能创建和维护规则

具有适当领域知识

人常常是非技术人员

因此

配置工具需要对这些用户隐藏语言学和规则语言

复杂性

　　本文和本系列概述

　　本文

其余部分简要介绍 InfoSphere Warehouse 及其文本分析特性

基本体系结构

然后

通过

个简单

举例演示如何在 InfoSphere Warehouse 中使用正则表达式提取概念

　　本系列

后续文章将介绍 InfoSphere Warehouse 中

其他文本分析特性

介绍说明如何在 IBM Cognos 8 BI 等报告软件Software产品中使用这些结果

　　IBM InfoSphere Warehouse 体系结构

　　InfoSphere Warehouse 是 IBM 在 IBM DB2® 上构建

数据存储仓库解决方案

本文主要关注 InfoSphere Warehouse

文本分析功能

但是这个产品还包含用于仓库管理和分析任务

许多其他工具

比如在线分析处理 (OLAP)、性能管理和工作负载管理

　　图 1. InfoSphere Warehouse 体系结构

　　图片看不清楚？请点击这里查看原图(大图)

　　如上面

体系结构图所示

InfoSphere Warehouse

主要组件包括:

　　DB2 数据库服务器

其中存储结构化和非结构化(常常是文本)仓库数据

　　Design Studio

这是

个工具平台

业务分析师和仓库管理员使用它为数据挖掘和文本分析设计工作负载规则、数据转换流和分析流

例如

业务分析师可以通过创建

个分析流

从客户电子邮件或呼叫中心报告中提取出结构化信息

然后可以把这些流部署到 InfoSphere Warehouse Administration Console 中

另外

Design Studio 提供

工具有助于更好地了解数据和创建资源

比如分析流中使用

词典或正则表达式规则等等

　　Administration Console

它用于管理和监视仓库

部署在 Design Studio 中设计

流的后

可以运行、调度和监视它们

例如

可以每周对新

呼叫中心报告进行分析

从而识别可能不满意

客户

或者搜索最近

技术人员记录

寻找潜在

产品问题

　　InfoSphere Warehouse 中

非结构化分析

　　InfoSphere Warehouse 使用 Unstructured Information Management Architecture (UIMA) 分析非结构化数据

UIMA 是

个开放、可伸缩、可扩展

平台

用于创建、集成和部署文本分析解决方案

UIMA 是免费软件Software

为企业和学术界提供通用

基础

用来提取实体(比如名称、情感或关系)

基于 UIMA

组件称为 UIMA Annotators 或 Analysis Engines

　　InfoSphere Warehouse 为基于词典和基于正则表达式

指定实体识别提供了操作器和工具

对于其他文本分析任务

可以使用

个通用

文本分析操作器

可以使用它在分析流中运行和 Apache UIMA 兼容

注解器:

　　数据理解对于从文本数据中成功地提取信息非常重要

所以 InfoSphere Warehouse 提供了 Data Exploration 特性

它可以寻找包含相关文本信息

列(Text Statistics 视图)和浏览文本(Sample Contents 视图)

对于更深入

分析

可以使用 Frequent Terms Extraction 特性提取文本列中最常出现

词汇

并结合使用云视图等高级显示功能

Frequent Terms Extraction 是

个重要

特性

有助于高效地创建在基于词典

分析中使用

词典

　　基于词典

分析从文本中提取出关键词

可以提取

实体包括姓名、公司和产品等等

还可以提取

个列表中包含

所有实体

InfoSphere Warehouse 通过 Dictionary Lookup 操作器支持对文本列进行基于词典

分析

Dictionary Lookup 操作器基于 IBM LanguageWare 提供

技术

它支持自然语言处理

比如多种语言中

词根缩减和标记化

可以使用 InfoSphere Warehouse 中

Dictionary Editor 创建和维护词典

InfoSphere Warehouse 还包含

个 Taxonomy Editor

它可以把词典条目分类为分类法树

可以供数据挖掘和 OLAP 使用

本系列中

另

篇文章将详细讨论基于词典

分析

　　基于规则

分析通过正则表达式规则从文本中提取出信息

正则表达式很适合提取电话号码、信用卡号码、地址、日期等概念

InfoSphere Warehouse 通过 Regular Expression Lookup 操作器支持基于规则

分析

这个操作器使用包含正则表达式规则

规则文件从文本列中提取出概念

可以用 Regular Expressions 编辑器创建和修改这些规则文件

本文后面会提供

个详细

举例

　　除了上面

常用文本分析思路方法的外

InfoSphere Warehouse 还允许使用和 Apache UIMA 兼容

注解器

可以把这些注解器导入 InfoSphere Warehouse Data Warehousing 项目

在 Text Analyzer 操作器中使用它们

例如

为了提取关系或情感等高级概念

可以使用 IBM 定制解决方案、IBM Research、其他公司和大学提供

Advanced UIMA 注解器

还可以使用 UIMA SDK 从头创建注解器

(有关 UIMA

更多信息参见参考资料中

链接)

　　使用 InfoSphere Warehouse Design Studio 进行文本分析

　　图 2 给出 InfoSphere Warehouse Design Studio

　　图 2. InfoSphere Warehouse Design Studio

　　图片看不清楚？请点击这里查看原图(大图)

　　Design Studio 是 InfoSphere Warehouse

综合工具平台

它是基于 Eclipse 技术构建

Design Studio 允许您把工作保存在项目中

可以在 Design Studio 界面左边显示

Project Explorer 中看到您

所有项目

所有数据仓库工作

默认项目是 Data Warehousing 项目

这个项目包含

个 Text Analysis 文件夹

其中包含词典、规则文件、分类法等文本分析资源

　　信息提取由数据转换流(数据流和挖掘流)中

Text 操作器执行

通过这些强大

流

可以对表进行取样、联结和修改

然后

Text 操作器可以从文本列中提取结构化信息

把它们作为新列(其中包含找到

姓名、技能、日期等概念)添加到输出中

　　在图 3 所示

场景中

先给形式自由

文本中

概念加注解

然后把它们和现有

结构化信息

起写到

个数据库表中

　　图 3. 非结构化数据到结构化数据

　　图片看不清楚？请点击这里查看原图(大图)

　

　　使用模式从文本中提取信息:举例

　　这个举例使用 United States Central Intelligence Agency 提供

World Factbook 文档集合作为源数据

这些文档包含世界上所有国家

相关信息

在举例内容表中选择适当

行

　　在对

个国家

文本描述中向下滚动

找到它

地理位置和面积

例如

选择 Germany(见图 4)

就会看到以下信息:

Geographic　coordinates:　51　00　N,　9　00　E　
　　　　
Map　references:　Europe　
　
Area:　total:　357,021　sq　km　water:　7,798　sq　km　land:　349,223　sq　km

　　查看举例内容表

可以看到国家

地理坐标和面积总是采用相同

格式

可以使用正则表达式规则轻松地提取采用这种格式

概念

　　创建规则文件和匹配位置和面积

正则表达式

　　可以通过规则文件定义电话号码或统

资源定位符等概念

这些概念称为类型

为了在文本中寻找这些概念

可以通过指定规则定义匹配这些概念

模式

　　概念类型可以有特性

例如

由于电话号码由国家编码、地区编码和扩展号码组成

可以创建类型 phone number 并指定特性 country code、area code 和 extension number

　　在 RegEx 规则编辑器中

定义概念类型及其特性

然后把包含正则表达式模式

规则分配给这些类型

当

个模式和文本

部分匹配时

为相关类型创建

个注解

通过把正则表达式规则

子模式(匹配组)分配给特性

可以设置注解

特性值

　　在挖掘流或数据流中

Regular Expression Lookup 操作器中使用规则文件时

可以把特性映射到关系表中表示提取

概念

列

　　创建 Data Warehouse 项目:

　　在 Project Explorer 中右键单击并从上下文菜单中选择 New -> Data Warehouse Project

　　在向导中

输入项目名

例如 Text Analytics

　　单击 Finish

　　创建新

规则文件:

　　在 Text Analysis 文件夹中

右键单击 Rules 文件夹并从上下文菜单中选择 New -> Rules

这显示 New Rules 对话框

　　选择前面创建

Data Warehousing 项目

　　指定 Factbook_Concepts 作为规则文件名并单击 Finish

这会显示 RegEx 编辑器

　　创建名为 Coordinates

类型:

　　在 Types 部分

最初显示 Factbook_Concepts 类型

删除这个类型并创建

个新类型

把新类型命名为 Coordinates

这会自动地创建

个同名

规则

　　展开 Coordinates 类型

Features 文件夹是空

Rules 文件夹包含名为 Coordinates

规则

但是还没有定义正则表达式模式

　　创建

第

个规则应该从 CIA.FACTBOOK 提取概念类型 Coordinates

包括特性 longitude 和 latitude

例如:

Geographic　coordinates:　51　00　N,　9　00　E

　　在 RegEx 编辑器中

对于 Coordinates 类型

选择 Features 文件夹并单击 New Feature

　　在 New Feature 对话框中

在 entry 框中输入 longitude

接受默认数据类型 String

单击 OK

　　重复以上步骤

添加另

个名为 latitude

特性

数据类型为 String

　　如图 5 所示

Types 部分现在显示 Coordinates 类型

定义

这个类型包含名为 longitude 和 latitude

两个特性

　　图 5. Coordinates 类型以及 longitude 和 latitude 特性

　　为这个规则指定正则表达式模式:

　　展开树中

Rules 文件夹并单击选择 Coordinates 规则

　　使用 RegEx 编辑器

Test Rule 部分(见图 6)在

组举例文本片段上测试规则

在 Input text 框中

输入希望找到

文本举例

Matched 框就会显示规则中和 Input text 框中

文本匹配

部分

标签：正则表达式数字 js正则表达式 java正则表达式正则表达式

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例 »正文

正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式:InfoSphere Warehouse 中的文本分析 第 1 部分: 体系结构概述和用正则表达式提取信息的举例 »正文

正则表达式:InfoSphere Warehouse 中的文本分析 第 1 部分: 体系结构概述和用正则表达式提取信息的举例

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

首页 »编程综合 » 正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例 »正文

正则表达式:InfoSphere Warehouse 中的文本分析第 1 部分: 体系结构概述和用正则表达式提取信息的举例