hadoop,Hadoop初体验——搭建hadoop简单实现文本数据全局排序

之前在实现一些机器学习算法时,跑数据量、feature很多的数据集往往要耗费很多时间,尤其是处理大量文本数据时候,单机跑算法的时间让我无法容忍,理论上如果合理的将大数据量分布式并行计算框架(例如hadoop)应用到这些算法上能有效提高算法执行速度(当然,要求算法本身可以全部或部分进行并行化处理),下一步想要学习Mahout(http://mahout.apache.org/),它的目标... [阅读全文]

hadoop,大象的崛起!Hadoop七年发展风雨录

在互联网这个领域一直有这样的说法:“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候,招聘了Doug(Hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。 从初创到现在,Hadoop经过了至少7年... [阅读全文]

hadoop,Hadoop简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一个应用程序,而... [阅读全文]

hadoop,传雅虎将于本周内宣布分拆Hadoop平台业务

北京时间6月28日消息,据美国科技博客网站Gigaom报道,知情人士周一透露,雅虎将于本周二(美国当地时间)或周三宣布分拆其Hadoop平台业务,分拆后的独立公司将专注于Apache Hadoop平台项目的开发和商业化等事务。 雅虎此前开发了名为“Hadoop”的开源软件框架,主要用以处理互联网上的海量数据。雅虎今年早些时候表示,将不再继续自家Hadoop平台的开发,而会... [阅读全文]

hadoop,hadoop如何重跑task

IsolationRunner keep.failed.task.files选项设置为true如何重跑: 当fail的task环境具备以后,就可以对单独的task进行重跑了。重跑的方式为:上到task出错的tasktracker机器 上在该tasktracker上找到fail的task运行时的目录环境在 tasktracker中,对于每一个task都会有一个单独的执行环境,其中包括其work目录... [阅读全文]

hadoop,Hadoop是最完美的数据仓库体系结构吗?

从Yahoo的Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每... [阅读全文]

hadoop介绍,经典Hadoop书籍介绍

1.Hadoop: The Definitive Guide(Hadoop权威指南) 这本书很全,Hadoop中的圣经级教材,不过看起来挺累。 内容简介 Discover how Apache Hadoop can unleash the power of your data. This comprehensive resource shows you how to build and maint... [阅读全文]

hadoop,Hadoop Streaming 实战: 传递环境变量

环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下: HADOOP_HOME ... [阅读全文]

hadoop,Hadoop Streaming cacheFile 和cacheArchive选项

Hadoop Streaming中的大文件和档案 任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。 这个是使用-cacheFile选项的例子: -cacheFile h... [阅读全文]

hadoop,深入Hadoop HDFS

1. hdfs架构简介 1.1 hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4 数据复制 1.5 元数据持久化 1.6 信息交换协议 2. hdfs数据可访问性 2.1 web interface 2.2 shell command . hdfs架构简介 1.1 hdfs架构挑战hdfs和大多数现有的分布式文件系统存在很多类似特... [阅读全文]

hadoop入门,Hadoop入门简介

1. Hadoop简介 2. Hadoop环境建立3. 参考资料 . Hadoop简介 hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。 1. hadoop common:为其他项目提供基础基础设施 2. HDFS:分布式的文件系统 3. MapReduce:A software fra... [阅读全文]

hadoop,Hadoop排序实例

排序实例 排序实例仅仅用 map/reduce框架来把输入目录排序放到输出目录。输入和输出必须是顺序文件,键和值是BytesWritable. mapper是预先定义的IdentityMapper,reducer 是预先定义的 IdentityReducer, 两个都是把输入直接的输出。 要运行这个例 子:bin/hadoop jar hadoop-*-examples.jar sort [-m ... [阅读全文]

hadoop,hadoop hive sql语法解释

DDL Operations 创建表 hive CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive SHOW TABLES; 按正条件(正则表达式)显示表, hive ... [阅读全文]

hadoop,Apache Hadoop获 MediaGuardian 年度创新大奖

Apache Hadoop,是由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Apache Hadoop,得以让Facebook、Twitter等公司能够相对轻松的处理海量数据。 Apache Hadoop的创始... [阅读全文]

分布式计算框架,分布式计算框架Hadoop

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。 HDFS HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。 HDF... [阅读全文]

hadoop,Hadoop的本地库(Native Libraries)介绍

Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库... [阅读全文]

hadoop,Hadoop资源

官方中文资料:http://hadoop.apache.org/common/docs/r0.20.2/cn/ Hadoop技术论坛:http://www.hadoopor.com/ 中国科学院计算技术研究所:http://www.hadoopchina.org/ 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hado... [阅读全文]

cloudera,Cloudera’s Distribution for Apache Hadoop

记得从0.1版本就使用过,当时还是用的是Apache Hadoop,现在都已经有自己的增强版本了,真的不错。 HDFS – Self healing distributed file system MapReduce – Powerful, parallel data processing framework Hadoop Common – a set of ... [阅读全文]

hadoop,Running Hadoop MapReduce on Amazon EC2 and Amazon S3

AWS and Hadoop developer Tom White shows how to use Hadoop and Amazon Web Services together to process a large collection of web access logs. Details Submitted By: Craig@AWS AWS Products Used: Amazon ... [阅读全文]

hadoop,How to Run Hadoop in the Cloud

In this excerpt from the O'Reilly publication Hadoop: The Definitive Guide, Second Edition, we look at running Hadoop _disibledevent=http://incubator.apache.org/whirr) provides a set of scripts that m... [阅读全文]

hadoop,Hadoop in Action 翻译 第二章续2(介绍分布式部署)

之前持续关注分布式存储和分布式计算,现在是建立完整集群的时候了.在这一节,我们将使用下面的服务器名: 1. master--- 主节点,主要用来运行NameNode和JobTracker服务. 2. backup --- 用来运行Secondary NameNode服务. 3. hadoop1,hadoop2,hadoop3---运行DataNode和TaskTracker的从节点. 修改之前伪分... [阅读全文]

hadoop,Hadoop in Action 翻译 第二章续(介绍伪分布式)

Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml fs.default.name hdfs://loc... [阅读全文]

hadoop,Hadoop in Action 翻译 第一章

Hadoop介绍 内容简介: 1. 编写可扩展的,分布式的,海量数据处理的程序的基础 2. 介绍hadoop与MapREduce 3. 编写一个简单的MapReduce程序 今天,我们被数据所围绕,人们上传视频,手机拍照,给朋友发信息,更新facebook状态,论坛回帖,点击广告,等等.另外,机器本身也在不停的产生大量数据.甚至也许各位看官就在电脑旁读着电子书,当然,你的购买记录已经记录在书店的系... [阅读全文]

hadoop,hadoop 搭建

1,设置好主结点要改$HOME/hadoop/conf/hadoop-env.sh里的JAVA_HOME将本结点的hdfs进行format。ssh-keygen生成公钥2,设置从结点将主结点的公钥拷贝到从结点中,用scp命令,拷贝的目标位置是$HOME/.ssh/authorized_keys所有的从结点都要获得这个公钥。这样主结点去访问从结点时就不需要每次输入密码。修改从结点中的$HOME/ha... [阅读全文]

hadoop,Twitter将开源MySQL/Hadoop转移工具

根据国外媒体报道,社区 [http://www.oschina.net]本文标题:Twitter将开源MySQL/Hadoop转移工具本文地址:http://www.oschina.net/news/10164/Twitter-to-open-source-MySQL-to-Hadoop-tool... [阅读全文]

hadoop,Apache Hadoop最佳实践和反模式

Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等互联网公司就大量使用了Hadoop,并在核心业务系统中扮演中关键角色,因此正确部署Hadoop集群是确保获得最佳投资回报的关键。  本文介绍了在Apache Hadoop上运行应用程序的最佳实践,实际上,我们引入了... [阅读全文]

hadoop,Hbase入门笔记( 二 )-- Hadoop单机环境配置

关于Hbase的介绍,可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详,要么ungeliable.于是记录一下自己的安装配置过程,做个STEP BY STEP的图文并茂的教程,谨防自己以后忘记 ... [阅读全文]

hadoop,从Hadoop看普通算法在一个系统中的应用

之前看了一些简单的算法题目,感觉很有意思,而在自己做的工程项目开发过程中,却又感觉很少用到,大约是所做的工程太过于简单的缘故吧。最近在读《Hadoop权威指南》那本书,从中看到了不少算法的应用,举两个简单的例子来说。 1.寻找最近的备份数据。 在Hadoop中,用户可以指定要数据的备份数目,比如默认default的备份数目是3。那么在读取数据时,如果发现某个结点的数据已... [阅读全文]

hadoop使用:在Hadoop中使用MRUnit进行单元测试

本文地址:博客园 逖靖寒 http://gpcuster.cnblogs.com 前提 了解JUnit4.x的使用。了解Mock的概念在单元测试中的应用。了解Hadoop中MapReduce的编程模型。 如果您对Junit和Mock不了解,可以先阅读[翻译]Unit testing with JUnit 4.x and EasyMock in Eclipse - Tu... [阅读全文]

hadoop:深入剖析Hadoop程序日志

前提 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用。 正文 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com *.log日志文件和*.out日志文件 进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动Hadoop集群时,由hadoop-daemo... [阅读全文]
1 共1条 分1页