Hadoop Streaming中的大文件和档案任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。这个是使用-cacheFile选项的例子:-cacheFile hdfs://host:fs_port/user/testfile.txt#testlink
在上面的例子里,url中#后面的部分是建立在任务当前工作目录下的符号链接的名字。这里的任务的当前工作目录下有一个“testlink”符号链接,它指向testfile.txt文件在本地的拷贝。如果有多个文件,选项可以写成:-cache
发布时间:
2015-03-23 |
类别:
技术文章 | 阅读:265607 | 评论:0 |
标签:
hadoop
Hadoop StreamingHadoop StreamingHadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar
-input myInputDirs
-output myOutputDir
-mapper /bin/cat
-reducer /bin/wc
Streaming工作原理在上面的例子里,mapper和reducer都是可执行文件,它们从标准输入读入数据(一
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件hadoop dfs –cat [file_path]eg:hadoop dfs -cat /user/wangkai.pt/data.txt3、将本地文件存储至hadoophadoop fs –put [本地地址] [hadoop目录]hadoop fs –put /home/t/file.txt /user/t (file
发布时间:
2014-11-18 |
类别:
技术文章 | 阅读:316851 | 评论:0 |
标签:
hadoop
前记最近,公司一位挺优秀的总务离职,欢送宴上,她对我说“你是一位挺优秀的程序员”,刚说完,立马道歉说“对不起,我说你是程序员是不是侮辱你了?”我挺诧异,程序员现在是很低端,很被人瞧不起的工作吗?或许现在连卖盗版光盘的,修电脑的都称自己为搞IT的,普通人可能已经分不清搞IT的到底是做什么的了。其实我想说,程序员也分很多种的,有些只能写if-then-else,有些只能依葫芦画瓢,但真正的程序员我想肯定是某个领域的专家,或许他是一位数学家,或许他是一位物理学家,再或许他是计算机某个细分领域的专家,他是理论与现实的结合,是凌驾于纯理论的存在!而笔者我正立志成为这样的能让人感到骄傲的程序员。切入正题吧,谈到云计算,不得不提大数据,处理大数据,肯定逃不离分布式计算。互联网行业,无论是商品推荐还是好友推荐,还是
前段时间,学习了一下Hadoop MapReduce,这里进行简单的总结,主要来自于《Hadoop In Action》。 后续将按照Hadoop处理的顺序整理一些笔记,主要包括: (1)Hadoop预定义数据类型; &n
发布时间:
2013-10-27 |
类别:
技术文章 | 阅读:559375 | 评论:0 |
标签:
hadoop
1. aggregate概述aggregate是Hadoop提供的一个软件包,其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application using Map/Reduce model, the developer needs to implement Map and Reduce functions (and possibly Combine function). However, for a lot of applications related to counting and statistics computing, these functions have very similarcharacteristics
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。[网络环境设置]vim /etc/hosts192.168.100.52 hadoop1192.168.99.34 hadoop2192.168.103.135 hadoop3分别到对应机器执行:hostname hadoop1hostname hadoop2hostname hadoop3[打通机器]hadoop1# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
通过从hadoop的 hadoop-metrics文件中就可以知道hadoop对 Ganglia 是有支持的,而且很多运维hadoop集群的都是使用的这个作为监控管理工具,不过也有其他解决方案,例如hadoop自家的 Chukwa ,以下收集了一些比较好的资料。 Chukwa在百度的应用实践http://hi.baidu.com/ops%5Fbd/blog/item/7dd0d6374675e08aa8018e31.html hadoop状态分析系统chukwahttp://hi.baidu.com/ops%5Fbd/blog/item/5f39abde48a10f3f10df9b12.html hadoop ganglia configuratio
发布时间:
2012-08-21 |
类别:
技术文章 | 阅读:321021 | 评论:152 |
标签:
hadoop
hadoop Shell命令FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认sc
版本0.21.0查看hdfs文件系统:bin/hadoop fs -ls /在hdfs内新建input文件夹:bin/hadoop fs -mkdir /input将本地的word文件夹拷贝到/input文件夹内:bin/hadoop fs -put word /input对数据进行字数统计:bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount /input /outputdada删除output文件夹: bin/hadoop fs -rmr /output*查看计算结果: bin/hadoop fs -cat /wcit/part-r-00000