1、系统及环境版本 系统:Win7 旗舰版 64位 sp1 JDK:1.8.0 Spark:2.3.2 Hadoop:2.7 Scala:2.11.8 文章最后,有所有版本的下载链接,不用再去折腾版本之间的问题。 2、环境下载 2.1 Spark 下载 http://spark.apache.org/downloads.html spark 2.2 hadooponwindos 下载 https://github.com/sardetushar/hadoop...继续阅读
...1、系统及环境版本 系统:Win7 旗舰版 64位 sp1 JDK:1.8.0 Spark:2.3.2 Hadoop:2.7 Scala:2.11.8 文章最后,有所有版本的下载链接,不用再去折腾版本之间的问题。 2、环境下载 2.1 Spark 下载 http://spark.apache.org/downloads.html spark 2.2 hadooponwindos 下载 https://github.com/sardetushar/hadoop...继续阅读
...1. Spark的简介 Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN),底层是用scala语言实现的。 Spark的目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得...继续阅读
...首先要构建电商数据分析的基本指标体系,主要分为8个类指标,即: 1. 总体运营指标:从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。 2.网站流量指标:即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等...继续阅读
...Presto是什么 Presto分布式大数据查询引擎,最主要的是支持跨数据库类型查询。可以快速高效的完成海量数据的查询,作为Hive和Pig的代替者,Presto不仅能访问HDFS,也能访问多种关系型数据库(如mysql),它不是一个标准的数据库,不能用来处理在线事务 Presto支持的数据源类型 Mysql、Hive、Sql server、redis、kafka Pres...继续阅读
...Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL数据库实例,它们共同作为一个有凝聚力的数据库管理系统(DBMS)。它基于PostgreSQL 8.2.15,在大多数情况下与PostgreSQL在SQL支持,功能,配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库进行交互,就像常规的PostgreSQL DBMS一样。...继续阅读
...简介 (翻译自官网) Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行)。 Oozie与Hadoop技术...继续阅读
...在云服务器 ECS Linux 系统中,通常我们在执行一些运行时间比较长的任务时,必须等待执行完毕才能断开 SSH 连接或关闭客户端软件,否则可能会导致执行中断。本文介绍几种保障程序在用户退出登录后持续运行的方法。 使用管理终端执行 通过 管理终端 会登录服务器的本地会话(console)口,在该终端执行的程序不会受到 S...继续阅读
...Hadoop 的普及和其生态系统的不断壮大并不令人感到意外。Hadoop 不断进步的一个特殊领域是 Hadoop 应用程序的编写。虽然编写 Map 和 Reduce 应用程序并不十分复杂,但这些编程确实需要一些软件开发经验。Apache Pig 改变了这种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更...继续阅读
...为什么要使用Colab 使用过Jupyter(参看《「极客时间」带来的社区价值思考》章节:社区交流的基建设施)的朋友,一定会醉心于它干净简洁的设计,以及在“摆脱Python命令行运行”上提供的优质服务。某种意义上讲,Jupyter的简洁设计,非常适合于初学编程的朋友。因为从整体看,整个Jupyter所提供的界面像是学生时代老师提...继续阅读
...