过去的一年,我自学了数据科学,我从数百个网上资源开始学习,每天学习6-8个小时,同时我还兼着一份日间护理的工作赚拿着最低的工资。
我的目标是:开始我热爱的事业,尽管我是个穷逼。
因为这个艰难的选择,我在过去几个月里面完成了很多我之前没想到过的工作:我发布了自己的个人网站,在一份重要的在线数据科学杂志上刊发了我的文章,并且在拿到了一个竞争非常激烈的计算机科学研究生奖学金。
在这篇文章中,我会给出一些指导和建议,这样你就可以自己安排学习数据科学课程了。我希望对于大家能授之以渔,让大家可以开始在数据科学领域从事更有激情的工作。
一个简短的说明
当我说到“数据科学”时,我指的是将数据转化为现实行动的工具集合。这些技术包括机器学习、数据库技术、统计、编程和领域特定技术。
通过下面的资源开始你的旅程
互联网一片混乱。想从中找到学习资料,就感觉张开口从消防水龙头喝水。
我给你一些更简单的方法可以帮你解决这些问题。
Dataquest、DataCamp和Udacity等网站都提供数据科学技能课程。他们有收费的培训课程,引导你从一个科目到另一个科目。每一门课都不需要你做什么课程规划。
啥?有问题? 他们太贵了,而且他们不教你如何在工作环境中应用你学到的知识,并且他们阻止你探索自己的兴趣和激情。
当然还有一些免费的课程,比如 edX和coursera,它们提供某门课程,专门针对特定的主题。如果你能从视频或课堂环境中很好地学习,这些都是学习数据科学的好方法。
免费在线教育平台
你可以在上面网站上找到可用的数据科学课程列表。还有一些你可以使用的免费课程。看看David Venturi的文章,或者开源数据科学大师(编者:这是一个学习数据科学的开源课程)。
如果你喜欢阅读, 我推荐《从头开始数据科学》这本书 。这本教科书是一个完整的学习计划,还有在线资源。你可以在网上找到完整的pdf格式的书(免费),或者从亚马逊(Amazon)获得一本实体书(27美元)。
这些只是为数据科学提供详细学习路径的一些免费资源。还有其他很多就暂时不展开讲了。
为了更好地理解你在学习过程中需要获得的技能,在下一节中我将详细介绍一个更广泛的课程指南。这是一份更深入的介绍,而不仅仅是一份课程清单或书单。
学习课程的指导原则
数据科学课程指南
Python编程
编程是数据科学家的一项基本技能。你应该熟悉Python的语法,了解如何以多种方式运行python程序。(Jupyter笔记本 vs 命令行 vs IDE)
我花了大约一个月的时间来回顾Python文档、《Python最佳实践指南》以及完成CodeSignal上的编码挑战。
提示: 请留意程序员常用的解决问题的技巧。 (发音“算法”)
统计与线性代数
机器学习和数据分析的先决条件。如果你已经有了扎实的理解,你应该花上一两个星期来复习一下关键的概念。
特别关注描述性统计。能够理解数据集是一项很牛逼的技能。
Numpy,Pandas 和Matplotlib
学习如何加载、操作和可视化数据。
掌握这些库对您的个人项目很重要。
提示:不要觉得你必须记住练习带来的每个方法或函数名称。如果你忘记了就Google吧。
查看Pandas Docs,Numpy Docs和Matplotlib教程。应该也有更好的资源,但这些是我经常用的。
请记住,学习这些库的唯一方法就是使用它们!
机器学习
学习机器学习算法的理论和应用。然后将您学到的概念应用于您关心的真实数据。
大多数初学者从使用UCI ML Repository的示例数据集开始。你可以摆弄这些数据并浏览指导ML教程。
Scikit-learn文档提供了有关常用算法应用的优秀教程。我推荐一个播客(http://ocdevel.com/mlg),这个播客提供了很多免费的 ML 基础理论教育资源。您可以在上下班途中或在锻炼时收听。
生产系统
获得一份工作意味着能够将现实世界的数据转化为实际行动。
要做到这一点,您需要学习如何使用业务的计算资源来获取、转换和处理数据。
亚马逊网络服务,谷歌云,微软Azure
这是数据科学课程中最容易的部分。因为您使用的特定工具取决于您要进入的行业。
但是,数据库操作是必需的技能集。 您可以在ModeAnalytics或Codecademy上学习如何使用代码操作数据库。 您还可以在DigitalOcean上实现自己的数据库(便宜)。
另一个(通常)需要的技能是版本控制。 您可以通过创建GitHub帐户并使用命令行每天提交代码来轻松获得此技能。
在考虑学习其他技术时,重要的是要考虑自己的兴趣和激情。 例如,如果您对Web开发感兴趣,那么请查看该行业中的公司使用的工具。
执行课程的建议
1、概念来的比你学习的快。
实际上有成千上万的网页和论坛解释了普通数据科学工具的使用。正因为如此,在网上学习时很容易走弯路。因为当你学习机器学习中贝叶斯方程,指不定就会被深度学习中的某些内容吸引,然后搜索到神经网络的知识,天,一下午不知不觉就过去了,而你忘记了最开始要做啥。
当你开始研究一个话题时,你需要把你的目标牢记在心。如果你不这样做,你可能会陷入网络上任何吸引你眼球的吸引人的链接。
解决方案是,拿一个号的工具来保存有趣的web资源。这样你就可以为以后的工作节省一些材料,并且专注于与你当前相关的话题。
我目前的Chrome书签栏
好的方法是,你可以制定一个有序的学习路径,告诉你你应该关注什么。你也会学得更快,避免分心。
警告,当你探索感兴趣的新话题时,你的阅读清单会迅速增加到数百个。别担心,这就引出了我的第二条建议。
2.不要有压力。这是马拉松,不是短跑。
自我驱动的教育常常让人感觉像是在阅读无穷无尽的知识图书馆。
如果你想在数据科学领域取得成功,你需要把把数据科学学习看作一个终生的过程。
记住,学习的过程本身就是一种奖赏,书中自有颜如玉嘛。
在你的学习之旅中,你会探索你的兴趣,发现更多驱使你的东西。你对自己了解得越多,你从学习中得到的乐趣就越多。
3.学习->应用->重复
不要满足于只学习一个概念然后转移到下一件事。学习的过程不会停止,直到你把一个概念应用到现实世界。
并不是每个概念都需要在您的学习过程中有一个专门的项目。重要的是要脚踏实地,记住你正在学习,这样你才能在世界上产生影响。
4.建立个人的作品集,让别人看到你的能力并信任你。
归根结底,当你学习数据科学时,怀疑自己的能力是你将面临的最大的逆境之一。
这可能来自别人,也可能来自你自己。
你的作品集是你向世界展示你的能力和信心的方式。
正因为如此,在学习数据科学时,建立你的作品集是最重要的事情。一个好的作品集可以让你得到一份工作,让你成为一个更自信的数据科学家。
用你引以为傲的项目填充你的作品集。
你是否从头开始构建自己的web应用程序?你有自己的IMDB数据库吗?你写过一篇有趣的医疗数据分析吗?
把它放在你的作品集里。
只要确保写出来的代码是可读的,有很好的文档,并且作品集本身看起来也不错。
https://harrisonjansma.com/archive
这是我的作品集。发布作品集的一种更简单的方法是创建一个GitHub项目,其中包括一个很棒的ReadMe(摘要页面)以及相关的项目文件。
5.数据科学 ____ =充满激情的职业
来!填空。
数据科学是一套旨在改变世界的工具。一些数据科学家构建计算机视觉系统来诊断医学图像,另一些科学家则遍历数十亿条数据条目,以找到网站用户偏好的模式。
数据科学的应用是无穷无尽的,这就是为什么找到让你兴奋的应用很重要。
如果你找到了你感兴趣的话题,你就会更愿意投入到工作中去做一个伟大的项目。这就引出了我在本文中最喜欢的一条建议。
当你在学习的时候,睁大眼睛去关注那些让你兴奋的项目或想法。
斯蒂芬·斯坦鲍尔在Unsplash
一旦你花了时间学习,试着把这些点点滴滴串连起来,找到让你着迷的项目之间的相似之处,然后花些时间研究从事这类项目的行业。
一旦你找到了一个你感兴趣的行业,就把获得该行业所需的技能和技术专长作为你的目标。
如果你能做到这一点,你就已经准备好了把你的努力工作和对学习的奉献转化为充满激情和成功的事业。
最后
如果你喜欢探索世界。如果你对人工智能着迷。然后,不管你的情况如何,你都可以进入数据科学行业。
虽然、这并不容易。
要激励自己学习,你需要毅力和自律。但如果你是那种能督促自己进步的人,那么你完全有能力自己掌握这些技能。
毕竟,这就是数据科学家的工作。充满好奇心,自我激励,对寻找答案充满激情。
如果你想要更多高质量的数据科学文章,请继续关注我们AI研习社哟。?