6.编码技巧
这不是“ R vs Python ”或“ R和Python ”或“R和Python与其他东西”。这是“我需要什么技能来履行我的职责?”作为一个来自计算机科学背景的人,这些论点(不幸的是)是不相上下的。n00bs就像:“Java比汇编更好。那么你打算做什么?你知道哪种语言?而火焰战争是愚蠢的(特别是这一个)。
R对纯数据分析非常有用。Python拥有丰富的科学生态系统,能够更好地发展软件解决方案和工业实力。但是,这并不能说明整个故事,还有很多交叉。在Python中的数据探索?当然。机器学习在R?为什么不?如果你了解你的工具,你知道什么时候使用它们。这真的很简单。也许你只需要一个,但也许不是。你也需要知道。
它不停止在“R还是Python?” 各种语言和库对数据科学都很有用。值得注意的是,Java和Scala在大数据处理方面占有一席之地,这要归功于它们在流行框架中生长的生态系统的流行。在C ++中进行了许多低级编码,特别是在算法开发方面,得益于更接近金属的速度和控制。工具就是这样; 它们并不意味着成为我们联想的教条的意识形态表达来形成我们的身份。但是你确实需要拥有一些工具。
7.机器学习/数据挖掘技巧
这是指理论和实践技能。您不希望有人不知道内核方法如何工作,或者支持向量机要实现更高的维度,并希望他们能够逻辑地解释结果。与此同时,能够解释这些概念的人的需求令人厌恶,但不能实现SVM分类器的需求可能相当低。然后,显然,基于特定环境的学习实现将是必需的。
作为一个特殊的例子,请参阅这篇关于掌握Python中机器学习的文章,从理论开始并走向实践。
8.大数据处理平台:Hadoop,Spark,Flink等
关于不把所有股票放在任何一种技术或平台上的讨论,请参阅技巧#6,而是把它们当作工具来对待。然后看到这篇文章的概述当代大数据处理框架。关键在于:数据在不断增长,作为数据科学家,您必须了解数据处理框架是数据科学领域的一部分; 了解这些框架是至关重要的。
9.结构化数据(SQL)
Burtch明智地指出,具有结构化和非结构化数据技能是有区别的,数据科学家应该(必须)熟悉这两者。结构化数据与关系数据是同义词,关系数据由一种查询语言来统治它们:SQL。这里有很多概念的混合,但是现在:
structured == relational == SQL
数据科学家至少可以编写和执行非平凡的SQL脚本来对付存储的数据。
10.非结构化数据(3-5个最重要的NoSQL DB)
非结构化数据存储和管理的组成部分之间的结构要少得多。因此,需要不同的工具来存储,检索,分析和处理这些数据。非结构化数据存储和交互的路径并不像结构化数据那样简单,关系数据库系统和SQL是城镇中唯一真正的游戏。NoSQL(我不喜欢这个术语,但它使我们需要快速到达的地方)数据库,根据互联网常驻的知识库维基百科,“提供了一种存储和检索数据的机制而不是关系数据库中使用的表格关系。“ 不是很具体,但点了一点。
数据科学家需要知道如何管理非结构化数据,而且这样做的选择很多。流行的NoSQL数据库体系结构包括键值存储,文档存储,元组存储和宽列存储; 每种类型都有不同的方法和哲学,可用的实现数量似乎是无穷的(MongoDB,CouchDB,Cassandra,Druid,MemcacheDB ...)。这里的底线是了解地形,研究体系结构,获得一两个强大的NoSQL数据库系统实现的传递知识。
其他资源
这里有一些更多的资源可以帮助你追求上述技能:
本文发布于:2024-01-31 00:30:20,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170663222323943.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |