hadoop

hadoop,Hadoop初体验——搭建hadoop简单实现文本数据全局排序

2011-9-20 | 0 Comment

之前在实现一些机器学习算法时，跑数据量、feature很多的数据集往往要耗费很多时间，尤其是处理大量文本数据时候，单机跑算法的时间让我无法容忍，理论上如果合理的将大数据量分布式并行计算框架（例如hadoop）应用到这些算法上能有效提高算法执行速度(当然，要求算法本身可以全部或部分进行并行化处理)，下一步想要学习Mahout（http://mahout.apache.org/），它的目标... [阅读全文]

标注：hadoop安装实战hadoop hadoop

hadoop,大象的崛起！Hadoop七年发展风雨录

2011-9-12 | 0 Comment

在互联网这个领域一直有这样的说法：“如果老二无法战胜老大，那么就把老大赖以生存的东西开源吧”。当年Yahoo!与Google还是处在强烈竞争关系时候，招聘了Doug(Hadoop创始人)，把Google老大赖以生存的DFS与Map-Reduce开源了，开始了Hadoop的童年时期。差不多在2008年的时候，Hadoop才算逐渐成熟。从初创到现在，Hadoop经过了至少7年... [阅读全文]

标注：实战hadoop hadoop

hadoop,Hadoop简要介绍

2011-6-29 | 0 Comment

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。言归正传，先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。首先，Lucene并不是一个应用程序，而... [阅读全文]

标注：hadoop

hadoop,传雅虎将于本周内宣布分拆Hadoop平台业务

2011-6-28 | 0 Comment

北京时间6月28日消息，据美国科技博客网站Gigaom报道，知情人士周一透露，雅虎将于本周二(美国当地时间)或周三宣布分拆其Hadoop平台业务，分拆后的独立公司将专注于Apache Hadoop平台项目的开发和商业化等事务。雅虎此前开发了名为“Hadoop”的开源软件框架，主要用以处理互联网上的海量数据。雅虎今年早些时候表示，将不再继续自家Hadoop平台的开发，而会... [阅读全文]

标注：hadoop

hadoop,hadoop如何重跑task

2011-6-16 | 0 Comment

IsolationRunner keep.failed.task.files选项设置为true如何重跑：当fail的task环境具备以后，就可以对单独的task进行重跑了。重跑的方式为:上到task出错的tasktracker机器上在该tasktracker上找到fail的task运行时的目录环境在 tasktracker中，对于每一个task都会有一个单独的执行环境，其中包括其work目录... [阅读全文]

标注：hadoop

hadoop,Hadoop是最完美的数据仓库体系结构吗？

2011-6-12 | 0 Comment

从Yahoo的Web搜索研究，到Facebook的数据分析，再到百度的搜索日志分析、淘宝的数据魔方服务，Hadoop的身影都已经到处闪现。简单来讲，社会化数据时代的企业需要像八爪鱼一样，能够发现并拿到他需要的数据，而Hadoop技术的好处就是，不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引，而且可以进行数据抓取。比如雅虎，通过应用这一技术，几乎可以实时分析每一个页面点击并优化内容的排名，每... [阅读全文]

标注：hadoop

hadoop介绍,经典Hadoop书籍介绍

2011-6-10 | 0 Comment

1.Hadoop: The Definitive Guide(Hadoop权威指南) 这本书很全，Hadoop中的圣经级教材，不过看起来挺累。内容简介 Discover how Apache Hadoop can unleash the power of your data. This comprehensive resource shows you how to build and maint... [阅读全文]

标注：hadoop hadoop介绍

hadoop,Hadoop Streaming 实战：传递环境变量

2011-5-16 | 0 Comment

环境变量可以理解程序运行的系统环境，用户可以对自己的运行环境进行定制，其方法就是修改相应的系统环境变量。用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息，而streaming程序不能使用JAVA编程接口，因此，streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下： HADOOP_HOME ... [阅读全文]

标注：hadoop论坛 hadoop

hadoop,Hadoop Streaming cacheFile 和cacheArchive选项

2011-4-26 | 0 Comment

Hadoop Streaming中的大文件和档案任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案，选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。这个是使用-cacheFile选项的例子： -cacheFile h... [阅读全文]

标注：hadoop论坛 hadoop

hadoop,深入Hadoop HDFS

2011-4-23 | 0 Comment

1. hdfs架构简介 1.1 hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4 数据复制 1.5 元数据持久化 1.6 信息交换协议 2. hdfs数据可访问性 2.1 web interface 2.2 shell command . hdfs架构简介 1.1 hdfs架构挑战hdfs和大多数现有的分布式文件系统存在很多类似特... [阅读全文]

标注：hadoop

hadoop入门,Hadoop入门简介

2011-4-22 | 0 Comment

1. Hadoop简介 2. Hadoop环境建立3. 参考资料 . Hadoop简介 hadoop是apache的开源项目，开发的主要目的是为了构建可靠，可拓展scalable，分布式的系统，hadoop是一系列的子工程的总和，其中包含。 1. hadoop common：为其他项目提供基础基础设施 2. HDFS：分布式的文件系统 3. MapReduce：A software fra... [阅读全文]

标注：hadoop hadoop入门

hadoop,Hadoop排序实例

2011-4-17 | 0 Comment

排序实例排序实例仅仅用 map/reduce框架来把输入目录排序放到输出目录。输入和输出必须是顺序文件，键和值是BytesWritable. mapper是预先定义的IdentityMapper，reducer 是预先定义的 IdentityReducer，两个都是把输入直接的输出。要运行这个例子：bin/hadoop jar hadoop-*-examples.jar sort [-m ... [阅读全文]

标注：hadoop

hadoop,hadoop hive sql语法解释

2011-4-6 | 0 Comment

DDL Operations 创建表 hive CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive SHOW TABLES; 按正条件（正则表达式）显示表， hive ... [阅读全文]

标注：hadoop

hadoop,Apache Hadoop获 MediaGuardian 年度创新大奖

2011-3-29 | 0 Comment

Apache Hadoop，是由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 Apache Hadoop，得以让Facebook、Twitter等公司能够相对轻松的处理海量数据。 Apache Hadoop的创始... [阅读全文]

标注：hadoop下载 hadoop

分布式计算框架,分布式计算框架Hadoop

2011-3-24 | 0 Comment

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。 HDFS HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大型主机处理性能。 HDF... [阅读全文]

标注：hadoop 分布式计算框架

hadoop,Hadoop的本地库（Native Libraries）介绍

2011-2-17 | 0 Comment

Hadoop是使用Java语言开发的，但是有一些需求和操作并不适合使用java，所以就引入了本地库（Native Libraries）的概念，通过本地库，Hadoop可以更加高效地执行某一些操作。目前在Hadoop中，本地库应用在文件的压缩上面： zlib gzip 在使用这两种压缩方式的时候，Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库... [阅读全文]

标注：hadoop教程 hadoop安装 hadoop论坛 hadoop

hadoop,Hadoop资源

2011-2-10 | 0 Comment

官方中文资料：http://hadoop.apache.org/common/docs/r0.20.2/cn/ Hadoop技术论坛：http://www.hadoopor.com/ 中国科学院计算技术研究所：http://www.hadoopchina.org/ 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hado... [阅读全文]

标注：hadoop论坛 hadoop

cloudera,Cloudera’s Distribution for Apache Hadoop

2011-2-10 | 0 Comment

记得从0.1版本就使用过，当时还是用的是Apache Hadoop，现在都已经有自己的增强版本了，真的不错。 HDFS – Self healing distributed file system MapReduce – Powerful, parallel data processing framework Hadoop Common – a set of ... [阅读全文]

标注：hadoop论坛 hadoop cloudera

hadoop,Running Hadoop MapReduce on Amazon EC2 and Amazon S3

2011-2-6 | 0 Comment

AWS and Hadoop developer Tom White shows how to use Hadoop and Amazon Web Services together to process a large collection of web access logs. Details Submitted By: Craig@AWS AWS Products Used: Amazon ... [阅读全文]

标注：hadoop

hadoop,How to Run Hadoop in the Cloud

2011-2-5 | 0 Comment

In this excerpt from the O'Reilly publication Hadoop: The Definitive Guide, Second Edition, we look at running Hadoop _disibledevent=http://incubator.apache.org/whirr) provides a set of scripts that m... [阅读全文]

标注：hadoop

hadoop,Hadoop in Action 翻译第二章续2(介绍分布式部署)

2011-1-27 | 0 Comment

之前持续关注分布式存储和分布式计算,现在是建立完整集群的时候了.在这一节,我们将使用下面的服务器名: 1. master--- 主节点,主要用来运行NameNode和JobTracker服务. 2. backup --- 用来运行Secondary NameNode服务. 3. hadoop1,hadoop2,hadoop3---运行DataNode和TaskTracker的从节点. 修改之前伪分... [阅读全文]

标注：hadoop

hadoop,Hadoop in Action 翻译第二章续(介绍伪分布式)

2011-1-26 | 0 Comment

Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml fs.default.name hdfs://loc... [阅读全文]

标注：安装hadoop hadoop

hadoop,Hadoop in Action 翻译第一章

2011-1-26 | 0 Comment

Hadoop介绍内容简介: 1. 编写可扩展的,分布式的,海量数据处理的程序的基础 2. 介绍hadoop与MapREduce 3. 编写一个简单的MapReduce程序今天,我们被数据所围绕,人们上传视频,手机拍照,给朋友发信息,更新facebook状态,论坛回帖,点击广告,等等.另外,机器本身也在不停的产生大量数据.甚至也许各位看官就在电脑旁读着电子书,当然,你的购买记录已经记录在书店的系... [阅读全文]

标注：安装hadoop hadoop

hadoop,hadoop 搭建

2010-12-13 | 0 Comment

1，设置好主结点要改$HOME/hadoop/conf/hadoop-env.sh里的JAVA_HOME将本结点的hdfs进行format。ssh-keygen生成公钥2，设置从结点将主结点的公钥拷贝到从结点中，用scp命令，拷贝的目标位置是$HOME/.ssh/authorized_keys所有的从结点都要获得这个公钥。这样主结点去访问从结点时就不需要每次输入密码。修改从结点中的$HOME/ha... [阅读全文]

标注：hadoop社区 hadoop

hadoop,Twitter将开源MySQL/Hadoop转移工具

2010-12-9 | 0 Comment

根据国外媒体报道，社区 [http://www.oschina.net]本文标题：Twitter将开源MySQL/Hadoop转移工具本文地址：http://www.oschina.net/news/10164/Twitter-to-open-source-MySQL-to-Hadoop-tool... [阅读全文]

标注：hadoop配置 hadoop论坛 hadoop

hadoop,Apache Hadoop最佳实践和反模式

2010-12-6 | 0 Comment

Apache Hadoop是一个用于构建大规模，共享存储和计算基础设施的软件框架，Hadoop集群经常用于各种研究和开发项目，如Yahoo！，eBay，Facebook，Twitter等互联网公司就大量使用了Hadoop，并在核心业务系统中扮演中关键角色，因此正确部署Hadoop集群是确保获得最佳投资回报的关键。　　本文介绍了在Apache Hadoop上运行应用程序的最佳实践，实际上，我们引入了... [阅读全文]

标注：hadoop

hadoop,Hbase入门笔记( 二 )-- Hadoop单机环境配置

2010-11-24 | 0 Comment

关于Hbase的介绍，可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详，要么ungeliable.于是记录一下自己的安装配置过程，做个STEP BY STEP的图文并茂的教程，谨防自己以后忘记 ... [阅读全文]

标注：hadoop

hadoop,从Hadoop看普通算法在一个系统中的应用

2010-11-24 | 0 Comment

之前看了一些简单的算法题目，感觉很有意思，而在自己做的工程项目开发过程中，却又感觉很少用到，大约是所做的工程太过于简单的缘故吧。最近在读《Hadoop权威指南》那本书，从中看到了不少算法的应用，举两个简单的例子来说。 1.寻找最近的备份数据。在Hadoop中，用户可以指定要数据的备份数目，比如默认default的备份数目是3。那么在读取数据时，如果发现某个结点的数据已... [阅读全文]

标注：hadoop搭建 hadoop

hadoop使用:在Hadoop中使用MRUnit进行单元测试

2009-10-4 | 0 Comment

本文地址：博客园逖靖寒 http://gpcuster.cnblogs.com 前提了解JUnit4.x的使用。了解Mock的概念在单元测试中的应用。了解Hadoop中MapReduce的编程模型。如果您对Junit和Mock不了解，可以先阅读[翻译]Unit testing with JUnit 4.x and EasyMock in Eclipse - Tu... [阅读全文]

标注：hadoopwindows netbeanshadoop hadoop hadoop使用

hadoop:深入剖析Hadoop程序日志

2009-9-25 | 0 Comment

前提本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用。正文本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com *.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录，我们可以看到如下文件：在启动Hadoop集群时，由hadoop-daemo... [阅读全文]

标注：hadoop是什么 hadoop配置 hadoop学习笔记 hadoop

hadoop,Hadoop初体验——搭建hadoop简单实现文本数据全局排序

hadoop,大象的崛起！Hadoop七年发展风雨录

hadoop,Hadoop简要介绍

hadoop,传雅虎将于本周内宣布分拆Hadoop平台业务

hadoop,hadoop如何重跑task

hadoop,Hadoop是最完美的数据仓库体系结构吗？

hadoop介绍,经典Hadoop书籍介绍

hadoop,Hadoop Streaming 实战：传递环境变量

hadoop,Hadoop Streaming cacheFile 和cacheArchive选项

hadoop,深入Hadoop HDFS

hadoop入门,Hadoop入门简介

hadoop,Hadoop排序实例

hadoop,hadoop hive sql语法解释

hadoop,Apache Hadoop获 MediaGuardian 年度创新大奖

分布式计算框架,分布式计算框架Hadoop

hadoop,Hadoop的本地库（Native Libraries）介绍

hadoop,Hadoop资源

cloudera,Cloudera’s Distribution for Apache Hadoop

hadoop,Running Hadoop MapReduce on Amazon EC2 and Amazon S3

hadoop,How to Run Hadoop in the Cloud

hadoop,Hadoop in Action 翻译第二章续2(介绍分布式部署)

hadoop,Hadoop in Action 翻译第二章续(介绍伪分布式)

hadoop,Hadoop in Action 翻译第一章

hadoop,hadoop 搭建

hadoop,Twitter将开源MySQL/Hadoop转移工具

hadoop,Apache Hadoop最佳实践和反模式

hadoop,Hbase入门笔记( 二 )-- Hadoop单机环境配置

hadoop,从Hadoop看普通算法在一个系统中的应用

hadoop使用:在Hadoop中使用MRUnit进行单元测试

hadoop:深入剖析Hadoop程序日志

赞助商广告

随机更新

热门标注

最近更新

最新标注