转到正文

博客水木

一个学习总结与工作经验分享博客。

存档

2010 年 3 月 的存档

SparkSQL简介及入门 一、概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它 […]

...

1、系统及环境版本 系统:Win7 旗舰版 64位 sp1 JDK:1.8.0 Spark:2.3.2 Had […]

...

1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交 […]

...

首先要构建电商数据分析的基本指标体系,主要分为8个类指标,即: 1. 总体运营指标:从流量、订单、总体销售业绩 […]

...

Presto是什么 Presto分布式大数据查询引擎,最主要的是支持跨数据库类型查询。可以快速高效的完成海量数 […]

...

Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例,它们共 […]

...

简介 (翻译自官网) Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie […]

...

在云服务器 ECS Linux 系统中,通常我们在执行一些运行时间比较长的任务时,必须等待执行完毕才能断开 S […]

...

图论是计算机科学中最重要、最有趣的分支之一,对于存在拓扑关系的业务场景,理解和使用图可以对业务有很多帮助。本文 […]

...

Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoo […]

...
建站服务