1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN),底层是用scala语言实现的。 Spark的目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得...继续阅读
...1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN),底层是用scala语言实现的。 Spark的目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得...继续阅读
...首先要构建电商数据分析的基本指标体系,主要分为8个类指标,即: 1. 总体运营指标:从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。 2.网站流量指标:即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等...继续阅读
...Presto是什么 Presto分布式大数据查询引擎,最主要的是支持跨数据库类型查询。可以快速高效的完成海量数据的查询,作为Hive和Pig的代替者,Presto不仅能访问HDFS,也能访问多种关系型数据库(如mysql),它不是一个标准的数据库,不能用来处理在线事务 Presto支持的数据源类型 Mysql、Hive、Sql server、redis、kafka Pres...继续阅读
...Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例,它们共同作为一个有凝聚力的数据库管理系统(DBMS)。它基于PostgreSQL 8.2.15,在大多数情况下与PostgreSQL在SQL支持,功能,配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库进行交互,就像常规的PostgreSQL DBMS一样。...继续阅读
...简介 (翻译自官网) Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行)。 Oozie与Hadoop技术...继续阅读
...Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂,但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更...继续阅读
...为什么要使用Colab 使用过Jupyter(参看《「极客时间」带来的社区价值思考》章节:社区交流的基建设施)的朋友,一定会醉心于它干净简洁的设计,以及在“摆脱Python命令行运行”上提供的优质服务。某种意义上讲,Jupyter的简洁设计,非常适合于初学编程的朋友。因为从整体看,整个Jupyter所提供的界面像是学生时代老师提...继续阅读
...①下载压缩包 官网下载地址:http://mirror.bit.edu.cn/apache/hive/ 选择apache-hive-2.3.4-bin.tar.gz,在Windows里面下载。 ②将压缩包从Windows传输到Linux当前目录下¬¬ SecureCRT 【File】→【Connect SFTP Session】开启sftp操作 ③解压 解压安装到指定目录下/opt/module(/opt是系统自带目录,之下的/module是自...继续阅读
...一、概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具。 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS、 HIVE、 HBASE 等数据存储系统; 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,...继续阅读
...从github上下载了ZooKeeper源码后,按常规方式导入IDEA,最后发现少各种包。起初我也是这样弄的,以为ZooKeeper是用Maven来构建的,仔细去了解了下ZooKeeper的版本历史,其实是用的Ant。如今一般用的Maven或Gradle,很少见到Ant的项目了,这里不对Ant多做介绍。 1 Ant环境搭建 Ant官网地址:https://ant.apache.org/bind...继续阅读
...