Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为…
分类:HDFS
Centos7下Apache Hadoop 3.2.1伪分布式部署安装
分布式的话修改hdfs-site.xml中的dfs.replication workers中的节点等
大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等
常见端口汇总: Hadoop: 50070:HDFS WEB UI端口 9870:3.x HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的H…
解决对HDFS文件系统操作权限不够的问题
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无法操作的创建库、表的问题等 1、在Linux执行如下命令增加supergroup grou…
Hadoop High Availability 高可用
一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)…
Hadoop mapreduce自定义inputFormat输入
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat和OutputFor…
Hadoop mapreduce自定义outputFormat输出
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat和OutputFor…
Hadoop MapReduce 部分代码操作
map中获取文件名 //获取数据所属文件名 FileSplit fis = (FileSplit) context.getInputSplit(); String fileName = fis.getPath().get…