数据分析介绍开发环境构建jupyter notebook

阅读: 评论:0

数据分析介绍开发环境构建jupyter notebook

数据分析介绍开发环境构建jupyter notebook

点击返回博客主目录

点击返回Python大全目录

点击返回 数据分析、数据可视化 之 5.2.1 前奏

数据分析介绍&&开发环境构建&&jupyter notebook

  • 1.数据分析介绍
    • 1.1 什么是数据分析:
    • 1.2 数据分析步骤:
    • 1.3 数据分析的误区:
    • 1.4 数据分析的方法和工具:
    • 1.5 工具和代码该怎么选:
  • 2.开发环境搭建
    • 2.1 Python版本:
    • 2.2 Anaconda
      • 2.2.1 Anaconda prompt:
      • 2.2.2 Anaconda Navigator:
      • 2.2.3 Spyder:
      • 2.2.4 jupyter notebook:
  • 3.jupyter notebook
    • 3.1 使用jupyter notebook的姿势:
    • 3.2 Jupyter notebook常用快捷键:
      • 3.2.1 命令模式(按ESC键):
      • 3.2.2 编辑模式
    • 3.3 注意事项:

1.数据分析介绍

1.1 什么是数据分析:

  • 数据分析是指适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
  • 数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。
    • 现状分析简单来说就是告诉你过去发生了什么。
    • 原因分析简单来说就是告诉你某一现状为什么发生。
    • 预测分析简单来说就是预测未来会发生什么。

1.2 数据分析步骤:


数据分析主要有六个过程:

  • 1.需求明确:明确做数据分析的目标。为后面的分析过程做好铺垫。
  • 2.数据收集:通过爬虫、商务合作的方式,获取想要的数据。
  • 3.数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的。方便后面的分析。
  • 4.数据分析:根据自己的目的,以及现有的数据确定好分析的方法。
  • 5.数据展现:将数据按照确定好的分析方法进行展示出来,可以使用数据可视化的方法展示出来。
  • 6.撰写报告:将分析的结果通过图表和文字的方式形成报告文档。

1.3 数据分析的误区:

  • 1.分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等,千万不要为了分析而分析,这样就偏离主题了。
  • 2.缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来。如果脱离业务,即使数据分析方法再牛逼,图表再优美,也无济于事。
  • 3.追求高级分析方法:一些人喜欢用一些高级的分析方法,认为只有这样才能体现专业性。其实高级的数据分析方法不一定是最好的,能够简单有效的解决问题的方法才是最好的。

1.4 数据分析的方法和工具:


数据分析可以通过工具,也可以通过代码来实现。以下分别列出这些常用的:

  • 1.工具:Excel、Tableau、SPSS、百度图说等。
  • 2.编程:Python语言、R语言、数据库的SQL语言、Excel的VBA语言等。

1.5 工具和代码该怎么选:


两者没有好坏之分,只有合适之分。数据分析总体来讲有两个模块:

  • 一个是数据处理
  • 一个是可视化
    如果数据已经经过处理了,并且手头上的软件可以直接方便的做可视化处理,那么我们就用软件实现就可以。
    如果数据没有经过处理,那么最好通过python或者r对数据进行有一些处理,然后再通过软件可视化。或者软件的可视化无法满足我们的要求,那么可以通过代码来实现。

总而言之,工具功能无法100%的满足你的要求,但是效率高。代码做数据处理比较好,做数据可视化比较繁琐,但是DIY(do it yourself)属性强!


2.开发环境搭建

2.1 Python版本:


需要用到的Python版本都是3.x。要有一定的Python基础,知道列表、字符串、函数等的用法。

2.2 Anaconda


Anaconda(水蟒)是一个捆绑了Python、conda、其他相关依赖包的一个软件。包含了180多个可学计算包及其依赖。Anaconda3是集成了Python3的环境,Anaconda2是集成了Python2的环境。Anaconda默认集成的包,是属于内置的Python的包。并且支持绝大部分操作系统(比如:Windows、Mac、Linux等)。


下载地址如下:
官网:https//www.anaconda/distrubution/
清华大学开源软件站:/
如果官网下载太慢,可以在清华大学开源软件站中下载


根据自己的操作系统,下载相应的版本,因为Anaconda内置了许多包,所以安装的过程需要耗费相当长的时间,大家在安装的时候需要耐心等待。在安装完成后,会有以下几个模块:Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook,以下分别做一些介绍。

2.2.1 Anaconda prompt:


Anaconda prompt是专门用来操作anaconda的终端。如果你安装完Anaconda后没有在环境变量的PATH中添加相关的环境变量,那么以后你想在终端使用anaconda相关的命令,则必须要在Anaconda prompt中完成。

2.2.2 Anaconda Navigator:


这个相当于是一个导航面板,上面组织了Anaconda相关的软件。

2.2.3 Spyder:


一个专门开发Python的软件,熟悉MATLAB的同学会比较有亲切感,但在后期的学习过程中,我们将不会使用这个工具写代码,因为还有更好的可替代的工具。

2.2.4 jupyter notebook:


一个Python编辑环境,可以实时的查看代码的运行效果。
如下图所示:

3.jupyter notebook


  • window环境下按照2.2中所述去下载Anaconda
  • Linux环境下直接使用pip install jupyter进行安装

3.1 使用jupyter notebook的姿势:


1.先打开Anaconda Prompt,然后进入到项目所在的目录。
2.输入命令jupyter notebook打开jupyter notebook浏览器


ubuntu环境下,进入需要工作的目录,打开终端,输入jupyter notebook就可以进入使用了,如下图所示:


3.2 Jupyter notebook常用快捷键:

3.2.1 命令模式(按ESC键):

  • 1 Enter:转入编辑模式
  • 2 Shift-Enter:运行本单元,选中下个单元
  • 3 Ctrl-Enter:运行本单元
  • 4 Alt-Enter:运行本单元,在其下插入新单元
  • 5 Y:单元转入代码状态
  • 6 M:单元转入markdown状态
  • 7 R:单元转入raw状态
  • 8 1:设定1级标题
  • 9 2:设定2级标题
  • 10 3:设定3级标题
  • 11 4:设定4级标题
  • 12 5:设定5级标题
  • 13 6:设定6级标题
  • 14 Up:选中上方单元
  • 15 K:选中上方单元
  • 16 Down:选中下方单元
  • 17 J:选中下方单元
  • 18 Shift-K:扩大选中上方单元
  • 19 Shift-J:扩大选中下方单元
  • 20 A:在上方插入新单元
  • 21 B:在下方插入新单元
  • 22 X:剪切选中的单元
  • 23 C:复制选中的单元
  • 24 Shift-V:粘贴到上方单元
  • 25 V:粘贴到下方单元
  • 26 Z:恢复删除的最后一个单元
  • 27 D,D:删除选中的单元
  • 28 Shift-M:合并选中的单元
  • 29 Ctrl-S:文件存盘
  • 30 S:文件存盘
  • 31 L:转换行号
  • 32 O:转换输出
  • 33 Shift-O:转换输出滚动
  • 34 Esc:关闭页面
  • 35 Q:关闭页面
  • 36 H:显示快捷键帮助
  • 37 l,l:中断Notebook内核
  • 38 0,0:重启Notebook内核
  • 39 Shift:忽略
  • 40 Shift-Space:向上滚动
  • 41 Space:向下滚动

3.2.2 编辑模式

  • 1 Tab:代码补全或缩进
  • 2 Shift-Tab:提示
  • 3 Ctrl-]:缩进
  • 4 Ctrl-[:解除缩进
  • 5.Ctrl-A:全选
  • 6 Ctrl-Z:复原
  • 7 Ctrl-Shift-Z:再做
  • 8 Ctrl-Y:再做
  • 9 Ctrl-Home:跳到单元开头
  • 10 Ctrl-Up:跳到单元开头
  • 11 Ctrl-End:跳到单元末尾
  • 12 Ctrl-Down:跳到单元末尾
  • 13 Ctrl-Left:跳到左边一个字首
  • 14 Ctrl-Rigth:跳到右边一个字首
  • 15 Ctrl-Backspace:删除前面一个字
  • 16 Ctrl-Delete:删除后面一个字
  • 17 Esc:进入命令模式
  • 18 Ctrl-M:进入命令模式
  • 19 Shift-Enter:运行本单元,选中下一单元
  • 20 Ctrl-Enter:运行本单元
  • 21 Alt-Enter:运行本单元,在下面插入一单元
  • 22 Ctrl-Shift–:分割单元
  • 23 Ctrl-Shift-Subtract:分割单元
  • 24 Ctrl-S:文件存盘
  • 25 Shift:忽略
  • 26 Up:光标上移或转入上一单元
  • 27 Down:光标下移或转入下一单元

3.3 注意事项:


jupyter notebook每一个cell运行完后都会把这个cell中的变量保存到内存中,如果在一个cell中修改了之前的变量,再次运行这个cell的时候可能会导致一些问题产生。比如以下代码:

# 第一个cell中的代码
a = 10
b = 20
# 第二个cell中的代码
c = a/b
b = 0

因为第二个cell修改了b变量,此时在整个环境中b都是等于0的,所以以后再运行这个cell的时候,a/b这个就会出问题了。这时候可以用Kernel -> Rstart&Run All 来重新运行整个项目。

本文发布于:2024-01-31 16:10:52,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170668865429766.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:环境   数据   notebook   jupyter
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23