`

hadoop、yarn常用命令

阅读更多
1、hadoop
官网:https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用,去官网看一遍吧

查看.gz 的文件内容:
引用

无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
  或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件:hadoop fs -text /myfolder/part-r-00024.gz | tail

参见:https://stackoverflow.com/questions/31968384/view-gzipped-file-content-in-hadoop

查看.bz2 的文件内容:
类似查看.gz的方法,只需将zcat换为bzcat, 或者将zmore换为bzmore即可

2、yarn
官网:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html
  • kill任务: yarn application -kill application_1491058351375_633399
  • 查看日志: yarn logs -applicationId application_1491058351375_633399 | less


3、spark启动命令
参见:https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数 : JVM本身的内存:spark.yarn.executor.memoryOverhead

4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided, 从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置,并设置JVM参数为:
-Dspark.master=local[2]   -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见:https://spark.apache.org/docs/latest/configuration.html#application-properties

3、需要保证本地安装的scala版本与spark所需版本一致
  对于spark1.6, 应安装scala2.10.x
  对于spark2.x,应安装scala2.11.x

5、spark本地调试-方法2
1、到https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz  (或其他Pre-build版本)
2、解压到任意文件夹, IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹 (已经包含的hadoop、spark等程序)
完成以上3步后即可运行
4、(可选)解决找不到winutils.exe的问题
根据错误提示,下载和hadoop版本一致的winutils.exe
我是在https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的,
下载后放到了spark_home/jars/bin/文件夹中, 并设置HADOOP_HOME环境变量指向spark_home/jars文件夹

6、文件查看


gz文件,文本文件:hadoop fs -text file_name_or_dir_name | head

parquet文件: hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载:https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0
  • 大小: 47.5 KB
分享到:
评论

相关推荐

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    -004.Ubuntu常用命令.mp4 -005.Ubuntu目录和权限.mp4 -006.Ubuntu软件包桌面程序以及增强工具.mp4 -007.Ubuntu本地软件源与ISO制作.mp4 -008.Ubuntu克隆与Mac生成-网络连接方式.mp4 -009.Hadoop在Ubuntu下安装JDK....

    HadoopHA集群配置文件

    Hadoop HA 集群搭建所需要的配置文件:core-site,hdfs-site,mapred-site,yarn-site四个xml文件和一个slaves文件

    Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

    常用 Shell 命令 Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 ...

    HDFS常用Shell命令

    本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用 bin/hadoop fs查看命令详情 使用HDFS基本语法: bin/hadoop fs OR bin/hdfs dfs 注:为帮助快速理解并使用本文中使用T表示target 基本命令 1.启动...

    大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南

    HDFS 常用 Shell 命令 HDFS Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 Hive Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 Hive CLI 和 Beeline 命令行的基本使用 Hive 常用 DDL 操作 Hive 分区...

    非常好的大数据入门目资源,分享出来.zip

    HDFS 常用 Shell 命令 HDFS Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 Hive CLI 和 Beeline 命令行的基本使用 Hive 常用 DDL 操作 Hive ...

    IT十八掌课程-徐培成-大数据-配套PPT

    '[IT18掌www.it18zhang.com]004.Ubuntu常用命令.pptx' '[IT18掌www.it18zhang.com]017.Hadoop 架构分析之启动脚本总结.pptx' '[IT18掌www.it18zhang.com]Spark Graph编程指南.pptx' '[IT18掌www.it18zhang.com]005....

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    集群资源管理器 —— YARN Hadoop单机伪集群环境搭建 Hadoop 云服务环境搭建 HDFS使用Shell命令 HDFS Java API的使用 基于Zookeeper搭建Hadoop高可用服务 二、蜂巢 Hive简介及核心概念 Linux环境下Hive的安装配置 ...

    Spark常用命令

    hdfs dfs -put SpeakerBigData-1.0-SNAPSHOT.jar /spark/hadoop/my_jars/ 2.提交依赖 3.执行任务 /data/software/spark-2.2.1/bin/spark-submit –class com.anker.eufy.device.DeviceRePurchase –master yarn –...

    Java大数据培训学校全套教程-50)Hadoop与MapReduce最入门

     通过学习Hadoop的安装与配置,hdfs常用命令,WordCount程序详解,Shuffle过程详解,WordCount程序结果分析,Hadoop,HDFS,MapReduce,NameNode和DataNode,yarn,ResourceManager,NodeManager的概念等让大家对Hadoop和...

    guofei9987.github.io:我的博客

    【Linux】常用命令 103 git语法速查表。 141 【Docker】入门 150 【SQL】SELECT专题。 153 【spark,Hive,Hadoop,yarn】汇总 154 【火花】DataFrame。 155 【spark】sql.functions详解 159 【火花】工程...

Global site tag (gtag.js) - Google Analytics