hadoop,Hadoop Streaming 实战: 传递环境变量

环境变量可以理解程序运行的系统环境,用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息,而streaming程序不能使用JAVA编程接口,因此,streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下: HADOOP_HOME ... [阅读全文]

hadoop,Hadoop Streaming cacheFile 和cacheArchive选项

Hadoop Streaming中的大文件和档案 任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。 这个是使用-cacheFile选项的例子: -cacheFile h... [阅读全文]

hadoop,Hadoop的本地库(Native Libraries)介绍

Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库... [阅读全文]

hadoop,Hadoop资源

官方中文资料:http://hadoop.apache.org/common/docs/r0.20.2/cn/ Hadoop技术论坛:http://www.hadoopor.com/ 中国科学院计算技术研究所:http://www.hadoopchina.org/ 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hado... [阅读全文]

cloudera,Cloudera’s Distribution for Apache Hadoop

记得从0.1版本就使用过,当时还是用的是Apache Hadoop,现在都已经有自己的增强版本了,真的不错。 HDFS – Self healing distributed file system MapReduce – Powerful, parallel data processing framework Hadoop Common – a set of ... [阅读全文]

hadoop,Twitter将开源MySQL/Hadoop转移工具

根据国外媒体报道,社区 [http://www.oschina.net]本文标题:Twitter将开源MySQL/Hadoop转移工具本文地址:http://www.oschina.net/news/10164/Twitter-to-open-source-MySQL-to-Hadoop-tool... [阅读全文]
1 共1条 分1页