登陆注册
71628900000056

第56章 数据科学长什么样子?

我们通过了解数据科学的定义作为起步,这样就会发现数据科学工作流和数据科学是如何应用在生活中来解决一些问题的。同时你会了解到一些家规。

数据科学离不开对数据的认识,那么数据可以用来更好地描述现状,或者更好的呈现一种未来趋势。那么数据可以做什么呢?

1.可以表述一个组织或过程的现状。

2.检测不正常的事件。

3.诊断事件的组成因素和行为表现。

4.预测下一步可能会发生什么。

正如现在数据科学社区开展的 COVID-19 数据分析活动,期望能找到一种有效的治疗方法。那么在数据科学领域中的机器学习分支中,有一些人说可以预测未来,这种论调都是胡说八道。没错,以上四点是数据可以做到的,不是人可以做到的,这一点要搞清楚。

那么为什么数据科学会如此受欢迎?由于数据自身所具备的以上能力,所以脆弱的人类需要数据的支持,数据自己不会做工作,同时人类不具备数据的能力,那么数据科学技能就成为了人类可以学习的一项技术。而且现在不管是什么人都在收集大量的数据,对,只是在收集大量的数据。就这样的一种现状导致了数据中的信息都是未被探索的,就像一个靠捡破烂为生的人,不管是什么东西都想要先收集起来。然后再对其分类,找到哪些可以卖钱。

对于这种数据收集来说,不同组织的价值观会产生不同的行为,有的组织为获得 PII 不择手段,有的组织为保护 PII 不断地做出努力。至于这场数据战争受害的永远是百姓,所以就引起一股数据科学潮流。

接下来我们来看看数据科学工作流,工作流是处理数据的一种工作模式,通用技术采用了四个步骤:

1.数据收集和存储,

2.数据准备工作,

3.探索数据和可视化,

4.实验与预测。

对于数据科学来说,都会用在什么地方呢?目前来说主要在三个领域,一个是传统机器学习领域,第二个是IoT领域,第三个是Deep learning领域。那么每个领域的具体应用情景例如,防范金融诈骗。那么想要在机器学习领域中做好数据科学,首先要具备一种能够良好定义问题的能力,关键点在于是否具备诚实正直的人性。如果你做不到诚实正直,说话总爱怪外抹角、含糊其辞,那么你就无法胜任数据科学领域。尤其是在机器学习领域中对数据取样后进行集合处理时,是否对老旧与新数据增加了标签特性,作为数据的区分。因为新旧数据在通过一种算法时会产生不同的认知。

还有就是现在许多所谓的智能设备都属于IoT这个物联网领域,这些设备都会在人未知的状态下收集个人隐私数据,这种设备不属于标准的计算机设备。因为个人无法对数据的传输做到自主控制,那么到底都有哪些 PII 信息被收集,作为设备所有者来说是一种非透明的状态。同时目前在人民对数据科学还处于无知的状态下,设备生产方也不会提供设备的 API 访问给购买了设备的拥有者。为什么厂家不提供硬件的API访问给用户呢?因为好在你麻木的时候多多捞点你的 PII 信息,俗话说能多骗你一点个人数据就多骗一些。

所以对于全民数据科学来说,开源项目保证了透明度给最终用户,那么掌握数据科学后的用户就不再处于被骗的闷棍状态。

第三个深度学习领域才是大数据的实际战场,因为需要太多的神经元单元一同来处理数据,当然也就需要更多的训练数据来满足深度学习的需求。这比传统机器学习要多做一些工作,因为要用来解决一些多层化问题,例如分类识别、学习理解语言的能力。

最后我们来看一下数据科学领域中的家规和用到的一些工具有哪些。对于家规来说,可以从四种岗位配置来了解:

1.数据工程师,位于数据科学中的第一个阶段,上面说过的“数据收集和存储”步骤。

2.数据分析师,横跨数据准备工作和探索数据及可视化两个阶段,也就是上面说过的第二和第三步骤。

3.数据科学家,横跨前面讲过的 234 三个阶段,也就是数据准备、探索和可视化、实验与预测。

4.机器学习科学家,专注在实验与预测阶段,少量关注数据准备和探索与可视化阶段。

那么每个岗位的工作职责有哪些呢?我们逐个介绍一下。

数据工程师:

1.信息架构。

2.建立数据管路和存储数据的解决方案。

3.维护数据的访问权限。

数据工程师掌握的工具:

1. SQL 数据库语言,这是用来存储数据的语言。

2. Python 编程语言,是用来处理数据的语言。

3. Shell 语言,是用来书写自动化任务的命令行语言。

4.云计算。

数据分析师:

1.执行比较简单的分析后来描述数据要传达的意思。

2.建立报告和数据仪表板来总结数据所传达的意思。

3.数据清洗。

数据分析师掌握的工具:

1. SQL 数据库语言的获取数据与累计数据的操作。

2.使用电子表格执行简单的分析。

3. BI 分析工具实现仪表板和可视化。

4.如果会使用 Python 做清洗和分析数据有加分。

数据科学家:

1.熟悉统计方法。

2.针对获得数据见解能够运行实验和分析数据的能力。

3.熟悉传统机器学习的分类和预测实现。

数据科学家掌握的工具:

1. SQL 数据库语言的获取数据与累计数据的操作。

2.熟悉 Python 语言的数据科学库。

机器学习科学家:

1.预测和推理。

2.分类。

3.深度学习,图像处理和自然语言处理。

机器学习科学家掌握的工具:

1.熟悉 Python 深度机器学习库。

对于机器学习科学家和数据科学家看起来感觉好像很类似,但实际上所需掌握的工具是不同的,而且根据所要掌握的工具需要学习的领域知识也是不同的。这样就可以更好的专注在一个职业范围中。要更好的区分二者,可以理解成数据科学家是为了从数据中获得内部见解,而机器学习科学家是使用数据做预测。

根据四种职业的岗位工作内容和各自使用的工具,我们可以看到一幅完整的数据科学领域的家规总览。由于共同采用了 Python 这门语言,实际上要想学成并不是一件困难的事,只需要花费你的时间和专注度就会水到渠成了。

这里介绍完,你们可以根据自己的兴趣来选择其中一个职业作为养成计划,带着你的热情投入其中,不知不觉你就会成为数据科学领域的四大金刚之一了。

Happy Hacking!

同类推荐
  • 御归去

    御归去

    帝都庞家四公子性情胆小,软弱无能。为青楼花魁青玉一夜性格变得无比诡异,阴阳不定。(介绍无能,请看正文)
  • 废土两万里

    废土两万里

    一个人类在大灾变后充满怪异,辐射和死亡的废土世界中游历的故事。(本故事根据另一个宇宙中的真实事件改编)
  • 塔天图

    塔天图

    宇宙是所有生命和文明的终极边界。宇宙孕育的生命结构是多元的,宇宙孕育的文明形态是多元的,两者多元性来自于宇宙时空规则的多维结构。在古地球宇宙三维时空规则中,三维时空规则规制了地球智慧生命代表——人类的形态:物质、能量和意识的三体态。三体态人类,在漫长的进化中,走向了科技主导的地球文明,这种文明让人类远离了与地球自然规则紧密相辅的共生关系,让人类忽略了这种科技文明背后隐藏的残酷宇宙文明竞存法则,如同羊群般地走进科技文明囚笼,持续地将新生而脆弱的地球文明推向多元宇宙文明丛林。最终,人类追求科技力量的欲望超出了驾驭科技力量的智慧,引爆古地球人类世纪之战——破界之战。破界之战开启了生物机械文明、宇宙异维文明与古地球人类文明竞存的新始纪元,向宇宙打开了地球之门。宇宙文明的丛林般残酷竞存带给古地球人类痛苦、扭曲、疯狂、适应、无穷进化和无限黑暗的希望……
  • 搅乱世界的强二代

    搅乱世界的强二代

    得到前辈馈赠的曹乐踏上了穿越之路,他发现穿越的世界并不与他所想的一样,而且随着他的到来,所谓的世界偏得更厉害了
  • 进化的四十六亿重奏

    进化的四十六亿重奏

    从一颗星球的生命诞生之初起跑,将会见证无数文明的兴亡衰落,物种的诞生与灭亡,在数不尽的天灾地变之下,没有什么是永恒不变的,只有不停的改变自身,在逆境之中不停进化,才能成就完美的胜利。故事,将从一个小小的细胞开始……重奏普群:494981693 重奏VIP群:695413196,入群粉丝值10000
热门推荐
  • 逆龙之剑

    逆龙之剑

    君王好剑,斗剑之风盛行。这是一本以剑为题材的武侠短篇,没有太多废话,希望留给读者是一场畅淋漓的旅途。
  • 摄政大明

    摄政大明

    穿越了,变成了一个声名狼藉的大贪官。百姓的咒骂、太子的敌视、清流的诋毁、权臣的排挤……还有一心想要卸磨杀驴的皇帝。环境很恶劣,前景很暗淡。本书的故事,就从这里开始。
  • 梓殇短篇故事集

    梓殇短篇故事集

    各式各样的故事和结局,体会不一样的人生。在我的故事里,我就是主角.
  • 英少和笨丫头的生活

    英少和笨丫头的生活

    他是来自英氏集团的大少爷。无人敢接近,一个笨笨的丫头却莫名其妙的闯入了他的世界...............................
  • 迷局:不忍细读的历史真相

    迷局:不忍细读的历史真相

    本书撷取了中国历史中几十个历史故事,内容涉及帝王身世、战争悬案、宫廷政变、历史谜案等。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 毁灭武神

    毁灭武神

    毁灭一切,只为了你,爱在心头,而你又在哪了
  • 江亚的爱情物语

    江亚的爱情物语

    江亚的爱情,他到底爱过谁
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 三国之汉室再起

    三国之汉室再起

    建安十二年,重生成为刘表次子刘琮。荆州世家豪族专权,尾大不掉;刘备客军屯驻新野,雄心不减;兄长刘琦阋于墙,外难共御辱。此时距离刘表病逝还有十个月,曹操大军南下还有九个月,刘琮感觉压力很大,迎头便撞上了这历史的滚滚洪流……