标签:Hadoop
Apache Parquet 干货分享
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。Parquet 作为…
Centos7下Apache Hadoop 3.2.1伪分布式部署安装
分布式的话修改hdfs-site.xml中的dfs.replication workers中的节点等
解决对HDFS文件系统操作权限不够的问题
HDFS文件系统的目录基本都属于supergroup用户组,所以就把用户添加到该用户组,即可解决很多权限问题,例如连接Hive却无法操作的创建库、表的问题等 1、在Linux执行如下命令增加supergroup grou…
Hadoop High Availability 高可用
一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)…
Apache Sqoop搭建
一、简介 Apache Sqoop是在Hadoop生基金会提供 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统…