1、hadoop
官网:
https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用,去官网看一遍吧
查看.gz 的文件内容:
引用
无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件:hadoop fs -text /myfolder/part-r-00024.gz | tail
参见:
https://stackoverflow.com/questions/31968384/view-gzipped-file-content-in-hadoop
查看.bz2 的文件内容:
类似查看.gz的方法,只需将zcat换为bzcat, 或者将zmore换为bzmore即可
2、yarn
官网:
https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html
- kill任务: yarn application -kill application_1491058351375_633399
- 查看日志: yarn logs -applicationId application_1491058351375_633399 | less
3、spark启动命令
参见:
https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数 : JVM本身的内存:spark.yarn.executor.memoryOverhead
4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided, 从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置,并设置JVM参数为:
-Dspark.master=local[2] -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见:
https://spark.apache.org/docs/latest/configuration.html#application-properties
3、需要保证本地安装的scala版本与spark所需版本一致
对于spark1.6, 应安装scala2.10.x
对于spark2.x,应安装scala2.11.x
5、spark本地调试-方法2
1、到
https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz (或其他Pre-build版本)
2、解压到任意文件夹, IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹 (已经包含的hadoop、spark等程序)
完成以上3步后即可运行
4、(可选)解决找不到winutils.exe的问题
根据错误提示,下载和hadoop版本一致的winutils.exe
我是在
https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的,
下载后放到了spark_home/jars/bin/文件夹中, 并设置HADOOP_HOME环境变量指向spark_home/jars文件夹
6、文件查看
gz文件,文本文件:hadoop fs -text file_name_or_dir_name | head
parquet文件: hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载:https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0
- 大小: 47.5 KB
分享到:
相关推荐
-004.Ubuntu常用命令.mp4 -005.Ubuntu目录和权限.mp4 -006.Ubuntu软件包桌面程序以及增强工具.mp4 -007.Ubuntu本地软件源与ISO制作.mp4 -008.Ubuntu克隆与Mac生成-网络连接方式.mp4 -009.Hadoop在Ubuntu下安装JDK....
Hadoop HA 集群搭建所需要的配置文件:core-site,hdfs-site,mapred-site,yarn-site四个xml文件和一个slaves文件
常用 Shell 命令 Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 ...
本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用 bin/hadoop fs查看命令详情 使用HDFS基本语法: bin/hadoop fs OR bin/hdfs dfs 注:为帮助快速理解并使用本文中使用T表示target 基本命令 1.启动...
HDFS 常用 Shell 命令 HDFS Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 Hive Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 Hive CLI 和 Beeline 命令行的基本使用 Hive 常用 DDL 操作 Hive 分区...
HDFS 常用 Shell 命令 HDFS Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 Hive CLI 和 Beeline 命令行的基本使用 Hive 常用 DDL 操作 Hive ...
'[IT18掌www.it18zhang.com]004.Ubuntu常用命令.pptx' '[IT18掌www.it18zhang.com]017.Hadoop 架构分析之启动脚本总结.pptx' '[IT18掌www.it18zhang.com]Spark Graph编程指南.pptx' '[IT18掌www.it18zhang.com]005....
集群资源管理器 —— YARN Hadoop单机伪集群环境搭建 Hadoop 云服务环境搭建 HDFS使用Shell命令 HDFS Java API的使用 基于Zookeeper搭建Hadoop高可用服务 二、蜂巢 Hive简介及核心概念 Linux环境下Hive的安装配置 ...
hdfs dfs -put SpeakerBigData-1.0-SNAPSHOT.jar /spark/hadoop/my_jars/ 2.提交依赖 3.执行任务 /data/software/spark-2.2.1/bin/spark-submit –class com.anker.eufy.device.DeviceRePurchase –master yarn –...
通过学习Hadoop的安装与配置,hdfs常用命令,WordCount程序详解,Shuffle过程详解,WordCount程序结果分析,Hadoop,HDFS,MapReduce,NameNode和DataNode,yarn,ResourceManager,NodeManager的概念等让大家对Hadoop和...
【Linux】常用命令 103 git语法速查表。 141 【Docker】入门 150 【SQL】SELECT专题。 153 【spark,Hive,Hadoop,yarn】汇总 154 【火花】DataFrame。 155 【spark】sql.functions详解 159 【火花】工程...