我们通过了解数据科学的定义作为起步,这样就会发现数据科学工作流和数据科学是如何应用在生活中来解决一些问题的。同时你会了解到一些家规。
数据科学离不开对数据的认识,那么数据可以用来更好地描述现状,或者更好的呈现一种未来趋势。那么数据可以做什么呢?
1.可以表述一个组织或过程的现状。
2.检测不正常的事件。
3.诊断事件的组成因素和行为表现。
4.预测下一步可能会发生什么。
正如现在数据科学社区开展的 COVID-19 数据分析活动,期望能找到一种有效的治疗方法。那么在数据科学领域中的机器学习分支中,有一些人说可以预测未来,这种论调都是胡说八道。没错,以上四点是数据可以做到的,不是人可以做到的,这一点要搞清楚。
那么为什么数据科学会如此受欢迎?由于数据自身所具备的以上能力,所以脆弱的人类需要数据的支持,数据自己不会做工作,同时人类不具备数据的能力,那么数据科学技能就成为了人类可以学习的一项技术。而且现在不管是什么人都在收集大量的数据,对,只是在收集大量的数据。就这样的一种现状导致了数据中的信息都是未被探索的,就像一个靠捡破烂为生的人,不管是什么东西都想要先收集起来。然后再对其分类,找到哪些可以卖钱。
对于这种数据收集来说,不同组织的价值观会产生不同的行为,有的组织为获得 PII 不择手段,有的组织为保护 PII 不断地做出努力。至于这场数据战争受害的永远是百姓,所以就引起一股数据科学潮流。
接下来我们来看看数据科学工作流,工作流是处理数据的一种工作模式,通用技术采用了四个步骤:
1.数据收集和存储,
2.数据准备工作,
3.探索数据和可视化,
4.实验与预测。
对于数据科学来说,都会用在什么地方呢?目前来说主要在三个领域,一个是传统机器学习领域,第二个是IoT领域,第三个是Deep learning领域。那么每个领域的具体应用情景例如,防范金融诈骗。那么想要在机器学习领域中做好数据科学,首先要具备一种能够良好定义问题的能力,关键点在于是否具备诚实正直的人性。如果你做不到诚实正直,说话总爱怪外抹角、含糊其辞,那么你就无法胜任数据科学领域。尤其是在机器学习领域中对数据取样后进行集合处理时,是否对老旧与新数据增加了标签特性,作为数据的区分。因为新旧数据在通过一种算法时会产生不同的认知。
还有就是现在许多所谓的智能设备都属于IoT这个物联网领域,这些设备都会在人未知的状态下收集个人隐私数据,这种设备不属于标准的计算机设备。因为个人无法对数据的传输做到自主控制,那么到底都有哪些 PII 信息被收集,作为设备所有者来说是一种非透明的状态。同时目前在人民对数据科学还处于无知的状态下,设备生产方也不会提供设备的 API 访问给购买了设备的拥有者。为什么厂家不提供硬件的API访问给用户呢?因为好在你麻木的时候多多捞点你的 PII 信息,俗话说能多骗你一点个人数据就多骗一些。
所以对于全民数据科学来说,开源项目保证了透明度给最终用户,那么掌握数据科学后的用户就不再处于被骗的闷棍状态。
第三个深度学习领域才是大数据的实际战场,因为需要太多的神经元单元一同来处理数据,当然也就需要更多的训练数据来满足深度学习的需求。这比传统机器学习要多做一些工作,因为要用来解决一些多层化问题,例如分类识别、学习理解语言的能力。
最后我们来看一下数据科学领域中的家规和用到的一些工具有哪些。对于家规来说,可以从四种岗位配置来了解:
1.数据工程师,位于数据科学中的第一个阶段,上面说过的“数据收集和存储”步骤。
2.数据分析师,横跨数据准备工作和探索数据及可视化两个阶段,也就是上面说过的第二和第三步骤。
3.数据科学家,横跨前面讲过的 234 三个阶段,也就是数据准备、探索和可视化、实验与预测。
4.机器学习科学家,专注在实验与预测阶段,少量关注数据准备和探索与可视化阶段。
那么每个岗位的工作职责有哪些呢?我们逐个介绍一下。
数据工程师:
1.信息架构。
2.建立数据管路和存储数据的解决方案。
3.维护数据的访问权限。
数据工程师掌握的工具:
1. SQL 数据库语言,这是用来存储数据的语言。
2. Python 编程语言,是用来处理数据的语言。
3. Shell 语言,是用来书写自动化任务的命令行语言。
4.云计算。
数据分析师:
1.执行比较简单的分析后来描述数据要传达的意思。
2.建立报告和数据仪表板来总结数据所传达的意思。
3.数据清洗。
数据分析师掌握的工具:
1. SQL 数据库语言的获取数据与累计数据的操作。
2.使用电子表格执行简单的分析。
3. BI 分析工具实现仪表板和可视化。
4.如果会使用 Python 做清洗和分析数据有加分。
数据科学家:
1.熟悉统计方法。
2.针对获得数据见解能够运行实验和分析数据的能力。
3.熟悉传统机器学习的分类和预测实现。
数据科学家掌握的工具:
1. SQL 数据库语言的获取数据与累计数据的操作。
2.熟悉 Python 语言的数据科学库。
机器学习科学家:
1.预测和推理。
2.分类。
3.深度学习,图像处理和自然语言处理。
机器学习科学家掌握的工具:
1.熟悉 Python 深度机器学习库。
对于机器学习科学家和数据科学家看起来感觉好像很类似,但实际上所需掌握的工具是不同的,而且根据所要掌握的工具需要学习的领域知识也是不同的。这样就可以更好的专注在一个职业范围中。要更好的区分二者,可以理解成数据科学家是为了从数据中获得内部见解,而机器学习科学家是使用数据做预测。
根据四种职业的岗位工作内容和各自使用的工具,我们可以看到一幅完整的数据科学领域的家规总览。由于共同采用了 Python 这门语言,实际上要想学成并不是一件困难的事,只需要花费你的时间和专注度就会水到渠成了。
这里介绍完,你们可以根据自己的兴趣来选择其中一个职业作为养成计划,带着你的热情投入其中,不知不觉你就会成为数据科学领域的四大金刚之一了。
Happy Hacking!