Rss订阅

首页 »p2p技术 » p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测 »正文

p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测

来源: 发布时间:星期四, 2008年12月18日浏览:325次评论:0

　　随着P2P应用

不断增多

P2P流量所占网络总流量

比重越来越大

准确地识别出网络中P2P应用

流量对网络规划设计、QoS保证等都有十分重要

作用

介绍了当前P2P流量识别

研究现状

综述了 4种典型

P2P流量识别技术:端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别

分析了各个技术

优缺点

并对P2P流量识别

发展趋势进行了

些探讨

　　关键词 P2P;流量识别;测量;加密;流量管理

　　引言

　　P2P (Peer to Peer)是近年来出现

种新

网络应用

它

出现开启了网络边缘未使用

资源

当前随着硬件价格

不断下降

作为客户端

PC机已经具有相当大

处理能力和存储空间

然而这些资源在大部分时间都是处于闲置状态

比如在当前Internet中流行

C/S配置模式中

用户

PC机仅仅是被作为

个显示网页

工具

而P2P体系结构则可以使用这些PC机分担网络中心

任务

上百万个Internet用户组合得到

处理能力将远远高于任何

个中心服务器

处理能力

除此以外

P2P体系结构还具有开放性、可扩展性强等特点

所有这些使得P2P应用在短短几年时间有了飞速

发展

其体系结构也经历了由集中式服务器(Napster)到纯分散式文件共享系统(Gnutella)

再到部分分散式结构(KazaA);由使用固定端口到使用动态端口进行数据传输;由使用独特端口到和其他应用合用端口(如使用Web应用

80端口等);由明文传输到进行数据加密传输等变化过程

　　研究表明

尽管受版权等问题

困扰

当前P2P应用仍呈现快速增长

趋势

并且变得越来越隐蔽[3]

P2P

飞速发展

方面丰富了网络中

应用形式

但另

方面也带来了许多负面

问题

如:P2P文件共享过程中

版权问题;P2P应用大量占用网络带宽

问题;以及P2P

流量模式对传统网络设计带来

挑战等

其中后者尤为网络设计、管理人员所关注

我们知道

在Web应用流量占网络流量主体时

由于Web流量

高度非对称性(用户链路

下行流量要远远高于其上行流量)

大部分用户接入方式如ADSL、Cable modem等都设计为下行带宽远高于上行带宽

而在P2P应用中

由于所有性能具有很大

影响

例如对于

些ISP而言

文件共享流量约占其总流量

60%

另外企业网络中大量出现

P2P流也会极大地影响网络性能

因此无论从ISP

角度还是从企业网络管理人员

角度

都希望能够将P2P流量有效

识别出来

从而便于网络

规划和管理

对于

个企业而言

可以限定P2P流量不超过某个阈值

从而能够为其他重要

应用提供

定程度上

QoS保证;或者为了网络管理

需要

直接在内部将P2P流量过滤掉

而对于ISP而言

可以在此基础上对服务进行控制以及对用户进行管理等

但是当前识别P2P

个主要挑战就是以

种可扩展

方式识别出P2P流量

同时不要求对所有

分组进行深层分组检查(DPI, deep packet inspection)

　　文章后面部分按照下述方式组织:第

部分概述了P2P流量识别技术;第 2部分详细综述了当前几种常用

P2P流量识别技术;第 3部分对P2P流量识别技术

发展进行了展望;最后对全文进行了整理总结

　　1 P2P流量识别技术概述

　　为了控制网络P2P应用对带宽

大量占用

必须首先对P2P流量进行有效地监控

它涉及到下面几个方面

问题:流量采集、流量识别以及流量控制

在其中

流量

采集和其他网络监测方式采用

技术完全

致

流量控制则取决区别

网络管理策略

由网络管理人员进行相应

设置

例如进行P2P流量限制或者完全过滤P2P流量等

因此

这里

关键部分是流量

识别操作

根据实现思想区别

可以将它分为多种类型

如基于分组分析、基于流分析等

其实现方式直接关系到整个监控系统

实现效率以及系统

可用性

　　P2P应用从最初

采用固定端口发展到使用可变端口甚至使用其他应用

端口进行数据传输

在传输

具体内容方面也从使用明文传输发展到对传输数据进行加密处理

因此对P2P流量进行识别

技术也随的经历了相应

变化过程

本文中我们主要针对 4种典型

识别思路方法进行讨论

包括端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别法

对于这几种技术

我们将在第 2节中进行详细

讨论

　　2 典型P2P流量识别技术

　　2.1 端口识别法

　　在P2P应用兴起

早期

大多数应用使用

都是固定端口

例如

Gnutella使用6346-6347端口

BitTorrent使用6881-6889端口等

在这种情况下

对其流量

识别方式和识别普通应用分组

方式完全相同:在需要监测

网络中被动收集分组

然后检查分组

运输层首部信息

如果端口号和某些特定

端口号匹配

则介绍说明该分组即为P2P流量分组

可以按照预设

动作对其进行处理

这种识别思路方法最大

优点就是简单易行

它不需要进行复杂

分组处理即可得出结论

在P2P应用出现

初期它显得十分简单有效

但是随着P2P技术

发展

该思路方法逐渐变得不再适用

因此后来又出现了

些新

技术方案

　　2.2 应用层特征识别法

　　和第

代使用固定端口进行数据传输

P2P应用区别

当前许多P2P应用都能够通过使用随机端口来掩盖其存在

有些甚至可以使用HTTP, SMTP等

些协议使用

熟知端口

这增加了识别P2P流量

难度:简单

通过分析分组首部

端口信息已经无法识别出这类应用

存在

　　但是

每种应用

分组中都携带有特定

报文信息

例如

HTTP协议报文中会出现GET, PUT, POST等报文字样

和的相类似

在各种P2P应用协议中也具有类似

信息

因此

人们提出了通过检查分组内部携带

负载信息进行分组识别

思路方法

文献[2]提出了

种利用应用层特征

方式对P2P流量进行识别

在[2]中

作者首先对5种常见

P2P协议(KaZaA, Gnutella, eDonkey, DirectConnect以及BitTorrent)

特征进行了分析

提取出其特征信息

然后根据特征信息对收集到

分组进行模式匹配操作

从而判断出该分组是否属于某

类P2P应用分组

例如

Gnutella

连接建立报文具有下述格式

　　GNUTELLA CONNECT/\n\n

　　而应答报文格式如下

　　GNUTELLA OK\n\n

　　根据这些以及其他类似特征

即可判定相应报文是否为P2P应用报文

并由此确定某个流是否为P2P流

　　[2]中

实际测量结果表明

在大多数情况下

该思路方法能够以低于5%

概率对分组进行识别

　　和第

种思路方法相比

上述思路方法能够识别出使用可变端口

P2P流量(这正是当前P2P应用发展

个趋势)

提高了其结果

准确性

例如在同样情况下

用户数据特征识别法识别出

P2P流量是仅仅采用端口进行识别

思路方法得到结果

3倍[2]

但是分析不难发现

这

思路方法存在下述

些问题:

　　只能针对已知数据格式

P2P应用进行识别

这使得每出现

种新

P2P应用

就需要修改上述实现

因而造成其扩展性不好;

　　对用户数据

检查不符合Internet

基本原则

并且由于诸如法律、个人隐私等原因

检查用户数据在许多情况下几乎是不可能

;

　　由于需要对分组内部数据进行全面

检查分析

使得其实现效率不是很高;

　　随着技术

发展

些P2P应用开始以密文方式进行数据传输

面对这种情况用户数据识别方式则完全是无能为力

　　上述种种原因导致用户数据识别思路方法

通用性十分有限

而且

随着P2P技术

发展

这种识别思路方法也会和通过固定端口进行识别

思路方法相类似

逐渐不适应实际

需要

因此有必要找到其他思路方法对P2P流进行较为精确

识别

　　分析端口识别法和应用层特征识别法可以发现

尽管两者

实现机理完全区别

但是其基本思想均是基于P2P应用

些外在特征

并且这些外在特征是可以隐藏

旦出现上述情况

这些识别思路方法就不再适用

而且

上述两种思路方法只能识别已知P2P协议

流量

旦出现

种新

P2P应用

必须修改上述识别思路方法才能对其进行识别

这限制了它们

应用范围

因此

为了能从根本上解决这些问题

必须分析P2P应用和其他

些诸如Web等应用

根本区别

然后利用这些本质特征对其进行识别

下述两种思路方法就分别从P2P应用

流量特征以及P2P网络

连接模式特征着手对其进行了分析

　　2.3 流量模式识别法

　　这是在Caspian路由器中实现

种功能

该路由器记录经过它

每条流

信息

因此可以实现基于流

流量识别和控制功能

以

种新

方式对P2P流量进行识别和控制

并且

如前所述

这

解决方案是基于P2P流

内在特征

避免了前面两种识别思路方法中

些问题

　　表1 几种比较常见IP服务

流量特征

　　服务持续时间平均速率传输字节数

　　HTTP 短高中-高

　　VPN 长低高

　　Games 长低高

　　Streaming 长中高

　　Telnet 长低中

　　Fileshare / P2P 长中-高高

　　上表1描述了几种区别

应用对应

流量特征[4]

由此可以看出

P2P应用

特点是持续时间长、平均速率较高以及总

传输字节数高

这和文件传输如FTP等应用有些类似

但是该类应用可以很方便

通过端口号识别出来

而且由于这些应用和用户

交互性不如Web、视频等应用高

因此出现

定

误判导致对它们

流量限制不会造成大

问题

　　另外

根据流所包含

字节数

可以很容易将普通Web流量同P2P文件共享流量区分开

　　可见

通过分析区别应用

流量模式

可以实现识别P2P流量

目

而且这

思路方法不需要对分组内部用户数据进行检查

因此不受数据是否加密

限制

扩大了其适用范围

但是

由于需要记录每条流

信息

这种思路方法对内存空间以及处理速度都提出了比较大

要求

这方面国内较为知名

网管软件Software:聚生网管系统就是采用这种思路方法

从而使得封堵P2P软件Software较其他网管软件Software有明显

优势

　　2.4 连接模式识别法

　　[1]中提出了

种在传输层识别P2P流量

思路方法

它仅仅统计用户分组

首部信息

而不涉及具体数据

因此

方面克服了前述思路方法对加密数据无法识别

问题

同时又不涉及用户

具体数据

符合Internet体系结构中

端到端原则

其基本思想是:基于观察源和目

IP地址

连接模式

些模式是P2P所独有

因此可以由此直接将P2P流量识别出来;另外

些模式由P2P和其它少数应用所共有

这时可以根据对应IP地址

流历史以及其它特征来减少误判概率

　　在这种思想

具体实现中

Thomas Karagiannis等给出了两种启发式思路方法:(1) 识别出那些同时使用TCP和UDP进行数据传输

源-目

IP地址对

研究表明

大约2/3

P2P协议同时使用TCP和UDP协议

而其他应用中同时使用两种协议

仅仅包括NetBIOS、游戏、视频等少数应用[1]

因此

如果

个源-目

IP地址对同时使用TCP和UDP作为传输协议

那么可以认为在这

地址对的间

流除

些已知

应用外(对于这些应用可以根据它们

特征将其排除)

很有可能就是P2P流

可以将它们加入到候选P2P流

队列中;(2) 基于监测{IP, 端口}对

连接模式

这

思路方法

基本依据为:当

个新

主机A加入P2P系统后

它将通过super peer广播其IP地址以及接受连接

端口号port

其他主机收到后利用这

信息和主机A建立连接

这样

对端口port而言

和其建立连接

IP地址数目就等于和其建立连接

区别端口数目(

区别主机选择同

端口和主机A建立连接

可能性是很低

完全可以忽略不计)

而其他

些应用如Web

个主机通常使用多个端口并行接收对象

这样建立连接

IP地址数目将远小于端口数目

但是另外

些应用

如mail、DNS等

也具有类似

属性

因此使用这种思路方法在实际识别过程中需要将它们区分出来

　　3 难点问题和研究路线

　　由上文

分析我们可以发现

流量

识别过程本质上就是根据流量或其中分组

基本特性

进行模式识别

过程

考虑区别

特性可以设计出区别

识别思路方法

其实现

性能以及算法

通用性也会有很大区别

　　当前P2P流量识别

难点主要来自两个方面:(1) Internet链路带宽

不断增长;(2) 数据加密、隐藏等技术在P2P中

应用

前者导致网络中单位时间内数据以及流数目

增大

给数据

采集增加了困难

而后者又使得传统

端口、应用层特征等识别思路方法不再适用

　　流量模式分析和连接模式分析两种思路方法尽管在

定程度上避开了难点(2)带来

问题

但是它们

分析思路方法又略显粗糙

而且在这两种思路方法中

各种特征及其在识别过程中对最终结果

影响因子是由管理人员主观确定

无法由

根据识别过程中学习

信息自动进行调整

因此如何提取并有效利用P2P应用

流量及连接特征仍是

个有待研究

问题

在下

步

研究中可以将模式识别和人工智能中

些技术引入识别过程中

综合运用小波变换、人工神经网络等技术对P2P流量特征进行发掘

　　4 结束语

　　当前

网络中P2P应用

数目不断增加

流量也呈现逐渐增长

趋势

而且

分布式、加密、匿名P2P应用越来越成为主流[3]

在这种情况下

为了满足服务质量、网络规划、计费和审计等基本要求

必须对P2P流量进行有效

识别和监测

本文所描述

几种典型

P2P流量识别思路方法

分别针对P2P流量区别方面

特征对其进行了分析和识别

但是

随着P2P技术

不断发展

上述识别思路方法仍需要相应

改进

包括挖掘P2P流量

深度特征

在识别系统中引入智能学习功能等

另外

在未来网络

发展过程中

应当考虑在网络体系结构设计引入这种流量识别监测机制

以便对网络中相关P2P流量进行实时、高效

监控

同时能够根据网络

运行状况以及用户设定

处理规则对其进行智能控制

从而为网络管理人员提供

个便利

管理平台

专注于互联网--专注于架构

首页 »p2p技术 » p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测 »正文

p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

专注于互联网--专注于架构

首页 »p2p技术 » p2p流量识别与控制:网络应用 介绍并分析P2P流量识别和监测 »正文

p2p流量识别与控制:网络应用 介绍并分析P2P流量识别和监测

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

首页 »p2p技术 » p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测 »正文

p2p流量识别与控制:网络应用介绍并分析P2P流量识别和监测