昨天给大家介绍了如何亲手从0到1 建立一个学科体系,我们先做一个简单回顾.
现在开始着手构建数据分析的学科体系啦哎,等等,有没有这种感觉,哈哈.前一秒还在吃瓜,下一秒直接就要改变宇宙了?
为了让大家更好的理解数据科学的意义,我们需要回到当时数据科学产生的背景.
其中里程碑的事件是发现无理数,大家思考一下为什么?因为当时的生产活动完全不需要无理数 我们计算圆周率π,完全可以求一个3.14就可以用,根本不需要知道他其实还 相比我们,中国古代只有技术,没有科学,我们的技术发展一直牢牢的与生产结合,都是一些生产经验的积累.虽然不能说没用,但是和现代科学是八竿子打不着的.
笛卡尔在其著作<探探方法>中给出了给出了一套严格的思考思路 “第一条是,凡是我没有明确认识到的东西,我绝不把它当成真的接受。也就是说,要小心避免轻率的判断与先入之见,除了清楚分明地呈现在我的心里、使我无法怀疑的事情除外,不要多放一点东西到我的判断里。 第二条是,把我审查的每一个难题按照可能和必要的程度分成若干部分,以便一一妥为解决。 第三条是,按次序进行我的思考,从最简单、最容易认识的对象开始,一点点逐步上升,直到认识最复杂的对象;就连那些本来没有先后关系的东西,也给他们设定一个次序。 最后一条是,在任何情况下,都要尽量全面地考察,尽量普遍地复查,做到确信无疑"
过去,我们用统计学工具去分析问题,往往需要先收集数据,我们往往遇到俩个问题:
深度学习技术非常适合从大量数据中,发现规律,建立模型的工作.
现在我们对数据科学的定义有一个清晰的理解:我们用输入-处理-输出来描述数据分析的过程. 输入: 业务问题 处理: 综合 统计学/深度学习/互联网数据源/商业分析框架 底层处理工具: 科学方法论,贝叶斯过程(等会会介绍哦). 输出: 分析模型
终于铺垫完了,我们可以看一看数据科学这个学科的公理化基础是什么?主要有俩点:科学方法论和贝叶斯过程.
大样本:试验选取的样本数要尽可能多。因为统计学的“大数原则”告诉我们,样本越大,统计结果越能稀释掉那些特例(例如某些人免疫系统特别强或特别弱),也就越能逼近真实情况。 随机:样本选取遵循随机原则。这样可以有效避免病人由于病情轻重而导致的痊愈效果阶段性差异。 双盲:实验者和被实验者都不知道对照组是哪个。
A=业务现状 B=新的影响因素 B/A=新的影响因素加入之后,对业务的影响 当不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
2500年前,三个学生问西方哲学奠基者苏格拉底一个问题:“怎样才能找到理想的人生伴侣?”苏格拉底带着学生来到一片麦田前,说:“请你们走进麦田,一直往前不要回头,途中摘一支最大的麦穗,只能摘一支。”第一个学生走进麦田。他很快就看见一支又大又漂亮地麦穗,于是很高兴地摘下了这支麦穗。可是,他继续往前走,发现有很多麦穗比他摘的那支大得多。他很后悔下手早了,只好遗憾的走完了全程。第二个学生吸取了教训。每当他要摘时,总是提醒自己,后面还有更好的。不知不觉就走到了终点,却一支麦穗都没摘。他也很后悔,没有把握住机会,总觉得后面会有更好的选择,最后错过了全世界。第三个学生吸取了前两者的教训。他把麦田分为三段,走过第一段麦田时,只观察不下手,在心中把麦穗分为大、中、小三类;走过第二段时,还是只观察不下手,验证第一段的判断是否正确;走到第三段,也就是最后三分之一时,他摘下了遇到的第一支属于大类中的麦穗。这可能不是最大的一支,但他心满意足地走完了全程。这就是著名的“麦穗理论”。
后来经济学家,把这个理论更加精确化,把时间分为两段,第一段用37%的时间来确定“最基本的满意标准”,第二段用63%的时间来选择满足“最基本的满意标准”的第一个方案。
一个女孩打算在19~40岁之间,也就是用21年时间寻找理想的人生伴侣。如果她相信“37%理论”,就可以用这21年的37%,也就是7.77年来交往不同的男士。到26.77(19+7.77)岁,确定“最基本的满意标准”。然后,嫁给从那一天开始他遇到的第一个好于这个标准的男士,并不再寻找更优方案。
以上纯属扯淡,爱情还是靠缘分吧,哈哈.
欢迎关注我的个人公众号:小祁同学的成长故事。里面还有很多这样的文章哦。
转载于:.html
本文发布于:2024-01-27 17:22:19,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063473391624.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |