10篇文章 · 9148字 · 0人关注
1.hive参数优化 1.1 map个数优化 map的个数是如何决定的: 一个文件在执行数据处理的时候,被分成文件的个数如下: 1.1.1 减少...
Flink的特点: 1.高吞吐,高性能,低延迟的流式数据处理 Flink不像Spark Streaming那样采取将多个微批处理任务串联起来来构...
1.HBase简介 HBase是Apache下的基于Hadoop的高可靠性,高性能,面向列和可伸缩的Key-Value型的分布式的列式存储集群。...
Flink的特点: 1.高吞吐,高性能,低延迟的流式数据处理 Flink不像Spark Streaming那样采取将多个微批处理任务串联起来来构...
大数据技术栈 大数据分析:ODPS(Open Data Processing System)是阿里巴巴云计算平台,收费项目。 数据可视化:D3,...
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数...
一.Hadoop概述 Hadoop处理的问题和关系型数据库的对比: 一个MapReduce作业包含了输入数据,MapReduce程序和配置信息,...
一、HDFS概述 HDFS的是一个Master/Slave分布式系统(NameNode是主节点,DataNode是从节点) 1.数据块(Bloc...
文集作者