当前位置: 首页 > 编程日记 > 正文

GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!

参加 2019 Python开发者日,请扫码咨询 ↑↑↑

大会议题以及更多详情请查看:https://pythondevdays2019.csdn.net/

作者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)

近日,一个在 GitHub 上开源即收获了 3700+ Star 的项目,引起了营长的注意。据介绍,该项目以 TensorFlow 和 Scikit-learn 的机器学习框架的基础库为例,详细介绍了如何成为一名机器学习工程师的成长路径。

该项目的作者还是一位来自意大利的 IT 工程师,名叫 Giacomo Ciarlini,十分帅气的有没有?

作者首先强烈推荐了《Scikit-Learn 与 TensorFlow 机器学习实用指南》一书。之外,他还上传了全球顶尖大学和开源组织的学习资源,并收集了理论和示例,以及对选择最佳资源的建议。

内容主要分为四大部分:

一、先决条件

  • Python

  • Jupyter Notebook

  • 需要掌握的基本数学知识

  • 机器学习全貌

二、使如何使用 Scikit-Learn 进行机器学习

  • 为什么是 Scikit-Learn?

  • 端到端机器学习项目

  • 线性回归

  • 分类

  • 训练模型

  • 支持向量机

  • 决策树

  • 合奏学习和随机森林

  • 无监督学习

  • 结语和期待

三、通过 TensorFlow 训练的神经网络

  • 为何选择 TensorFlow?

  • 使用 TensorFlow

  • ANN - 人工神经网络

  • CNN - 卷积神经网络

  • RNN - 递归神经网络

  • 训练网络:最佳实践

  • 自动编码

  • 强化学习

四、工具

  • 机器学习项目

  • 数据科学工具

  • 博客 / YouTube 频道 / 网站

每个标签下,作者都有详细的解释并给出了实战操作的资源,实乃良心之作!下面,就由营长来详细介绍下这个项目里有哪些值得一看的资源(并附上部分教程链接)。

一、先决条件

  • Python

基础知识:https://pythonprogramming.net/introduction-learn-python-3-tutorials/

作者还建议,除了对 Python 熟悉掌握外,还可以了解下 Numpy,它是数学运算的重要模块,可以有助于你在后面 Python 环境中导入 Tensor 数据类型。

Python3 安装地址:https://realpython.com/installing-python/

PyCharm Community Edition(一个用于 Python 开发的完整 IDE,为实验设置一个新的 Python 虚拟环境)

安装地址:https://www.jetbrains.com/pycharm/download/#section=windows

  • Jupyter Notebook

是一个开源的 Web 应用程序,帮助用户创建和共享文档,包括 live code,方程,可视化,叙述文本。例如,数据清洗、数值模拟、统计建模、数据可视化、机器学习等。

  • 需要掌握的基本数学知识

在作者看来,数学是机器学习背后的重要基础。但重要的是,掌握主要概念并认识到这些数学方法的应用领域和局限性。

他给出了三个课程链接,分别是:

线性代数:https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/

概率基础和统计:https://www.edx.org/course/introduction-to-probability-0

其他数学资源:https://explained.ai/matrix-calculus/index.html#sec4.5

  • 机器学习全貌

最后,还要通过一篇科普读物,了解整个机器学习全貌:https://www.oreilly.com/library/view/hands-on-machine-learning/9781491962282/ch01.html

二、如何使用 Scikit-Learn 进行机器学习?

  • 安装 Scikit-Learn

python pip install -U scikit-learn

如果安装时遇到一些问题,可能是你更新到最新版本的 pip,所以在同一个文件夹内运行:

python -m pip install --upgrade pip
  • 为什么是 Scikit-Learn?

Scikit-Learn 是机器学习任务中最完整、最成熟,且记录完整的库之一。它开箱即用,具有强大而先进的模型。

  • 端到端机器学习项目

Kaggle,作为机器学习和通用数据科学项目的首选平台,它提供了大量免费数据集,以及有趣的挑战和 ML 模型实验。

  • 线性回归

线性回归是最简单的机器学习形式,也是模型训练的起点。

可以参看吴恩达的理论课程:https://www.youtube.com/watch?v=W46UTQ_JDPk&list=PLoR5VjrKytrCv-Vxnhp5UyS1UjZsXP0Kj&index=2

  • 分类

如果想要从不同的可能性中预测结果,分类则是最重要的机器学习任务之一。最简单的情况是二元分类问题。

  • 训练模型

作者列举了 ML 任务中训练模型的一些技术,在 Google Crash 教程中可以找到:

梯度下降:https://developers.google.com/machine-learning/crash-course/reducing-loss/gradient-descent

学习率:https://developers.google.com/machine-learning/crash-course/reducing-loss/learning-rate

SGD:https://developers.google.com/machine-learning/crash-course/reducing-loss/stochastic-gradient-descent

正则化:https://www.youtube.com/watch?v=Q81RR3yKn30

  • 支持向量机

是创建 ML 模型的另一种经典算法。

除了理论解释外,还有更多实战策略:

https://www.youtube.com/watch?v=g8D5YL6cOSE

  • 决策树

  • 集成学习和随机森林

集成学习(Ensemble Learning)的思路是利用了几款 ML 模型的所有不同特征、优劣势,以期得到最有可能性的预测结果。

集成学习基础知识:

https://www.youtube.com/watch?v=9VmKYwX_U7s

随机森林最经典实践:

https://www.youtube.com/watch?v=3kYujfDgmNk

  • 无监督学习

涵盖了无监督学习的介绍、解释,以及与监督学习、强化学习之间的差别。

关于涉及的两个重要技术:关联规则(Association Rules)和聚类,作者分别提供了示例和教程。

三、通过 TensorFlow 训练的神经网络

在本节中,作者主力推荐斯坦福大学深度学习课程以及其他网络教程,帮助学习者快速了解这些内容。其中包括 ANN、CNN、RNN 等不同种类的机器学习模型。实际上,作者花了很长时间去理解神经网络的理论和应用,包括阅读博客、官网论坛、学习路径。

他给出了“三步走”的建议:

  1. 通过斯坦福大学教程了解神经网络的主要概念,不要过多担心一些数学解释,而要关注什么和为什么;

  2. 使用理论 + 教程 + 示例(如 RNN 理论 + RNN 教程 + RNN 示例),每次只深度探讨一个主题;

  3. 每探讨完一个主题,就回溯一遍斯坦福大学的课程。这种方式将帮助你完全理解所有公式,并将课程中提到的 “数学” 相关知识联系起来,触类旁通。

作者表示,以上这种方式可根据需要重复多次,然后在你的头脑中构建一个良好的通用模型。

斯坦福大学课程 PPT 地址:http://cs231n.stanford.edu/slides/2018/

  • 为何选择 TensorFlow?

目前,TensorFlow 已经企业里实现机器学习算法的事实标准。

在安装 TensorFlow 库之前,你只需在 Python 安装文件夹中打开一个终端并运行此命令:

python pip install tensorflow
  • ANN - 人工神经网络
  • CNN - 卷积神经网络

  • RNN - 递归神经网络

  • 训练网络:最佳实践

  • 自动编码

  • 强化学习

以上细节就不一一细讲了。

四、其他资源

除了上述内容之外,作者还收集了大量文章、网络应用程序、最佳实践、项目和存储库。

  • 机器学习项目

  • 工具

  • YouTube 频道

  • 博客

以及,其他值得一看的网站

作者最后表示,将在接下来的时间里对不同的主题进行扩充,包括:无监督学习、机器学习心态框架(如何像数据科学家一样思考)、使用 Pandas 进行数据处理和准备、特征选择、特色工程、扩展参数优化部分、Keras 库、TensorFlow 2.0、如何在 AWS、Azure 上部署模型等。

(本文为 AI科技大本营原创文章,转载请微信联系 1092722531)


精彩推荐

「2019 Python开发者日」7折票限时开售!这一次我们依然“只讲技术,拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节,为开发者们带来更多深度实战机会。

目前演讲嘉宾议题已确认,扫描海报二维码,即刻抢购7折优惠票价!更多详细信息请咨询13581782348(微信同号)。

相关文章:

Android模拟器SD卡的使用

在Eclipse中,操作如下: 在设置了RUN的命令参数之后,RUN一个应用,然后使用DDMS的File Explorer工具导入导出文件。 打开DDMS工具:在Eclipse的Window->Open Perspective->Other...里面打开DDMS工具。 在DDMS的File…

受用一生的高效PyCharm使用技巧

参加 2019 Python开发者日,请扫码咨询 ↑↑↑作者 | Python编程时光转载自Python编程时光(ID:Python-Time)今天先从 PyCharm 入手,写一些可以明显改善开发效率的使用技巧,一旦学会,受用一生。以下代码演示是…

【Go】Go基础(一):Hello World!

1、 C格式hello.go package main import "fmt"func main(){fmt.Printf("Hello World!\n"); }2、编译 go build hello.go3、运行 执行go build编译后,会在当前目录下生成名为hello的可执行程序。 $ ./hello Hello World!4、Go格式的hello.g…

centos7上搭建http服务器以及设置目录访问

参考文献:http://www.jb51.net/article/137596.htm,原文摘抄如下,并根据具体需要作了相应的修改。 步骤: 1. 安装httpd服务 sudo yum install httpd Apache 的所有配置文件都位于 /etc/httpd/conf 和 /etc/httpd/conf.d 。网站…

一文看懂深度学习发展史和常见26个模型

参加 2019 Python开发者日,请扫码咨询 ↑↑↑来源 | AI部落联盟(ID:AI_Tribe)作者简介:沧笙踏歌,硕士毕业于北京大学,目前计算机科学与技术博士在读,主要研究自然语言处理和对话系统…

JBL无所不能与IPhone4、IPad2的完美盛宴

期待以久JBL白版终于到货了,由于水货的供电参数是110V~200V,行货是110~220V,所以本人选择了行货,因为水货的供电和国内的输入电压不符,时间用久了会影响小J寿命。经过测试后本人发现,用JBL无所不能连接IPho…

【Go】Go基础(二):学习网址汇总

Go语言中文网站 https://studygolang.com/ Go语言标准库文档 https://studygolang.com/pkgdoc 《The Way to Go》中文名《Go 入门指南》 https://github.com/Unknwon/the-way-to-go_ZH_CN https://github.com/Unknwon/the-way-to-go_ZH_CN/blob/master/eBook/directory.md…

堆和栈的主要区别由以下几点:

1、管理方式不同;2、空间大小不同;3、能否产生碎片不同;4、生长方向不同;5、分配方式不同;6、分配效率不同;管理方式:对于栈来讲,是由编译器自动管理,无需我们手工控制&a…

参与2011年7月13日举行的Azure国际猜拳锦标赛,赢取5,000美元大奖

你想要编写自己的“bot”角色并测试你的技能,在线同来自美国,加拿大,中国,德国,新西兰,瑞典和英国的Windows Azure开发者一教高下,并赢取5,000美元大奖吗?请先注册Azure国际猜拳锦标…

【Go】Go基础(三):基本结构和基本数据类型

1、Go程序源码结构 我们将一个Go程序的源码暂时称为一个项目 : 每个项目由若干个包组成; 每个包由同一个目录中的若干个go文件组成; 每个go文件中由若干函数、变量、常量等组成; 每个函数由流程控制语句、变量、常量、运算符和函…

2019如何学Python?这里有你需要的答案

点击上方↑↑↑蓝字关注我们~参加 2019 Python开发者日,请扫码咨询 ↑↑↑编辑 | Jane出品 | Python大本营(公众号id:pythonnews)根据 2018 年 Python 开发者大调查,Python 3 的渗透率已经快速增长至 84%,越…

Cisco HSRP热备份路由器协议配置

HSRP热备份路由器协议: HSRP是 Hot Standby Routing Protocol(热备份路由协议)的缩写,它的作用是当核心路由器不能正常工作时, 备用路由器能够实现自动平滑的替换,以保证网络正常使用。该协议中含有多台路由…

FTP与TFTP的区别

文件传输协议(FTP)实际上就是传输文件的协议,它可以应用在任意两台主机之间,但是FTP不仅仅是一个协议,它同时也是一个程序。作为协议,FTP是被应用程序所使用的;而作为程序,用户需要通过手动方式来使用FTP并完成文件的传送。FTP允许执行对目录和文件的访问,并且可以完…

写给NLP研究者的编程指南

点击上方↑↑↑蓝字关注我们~参加 2019 Python开发者日,请扫码咨询 ↑↑↑作者 | 赤乐君,日本某大手研发部门的NLP工程师。关注关系抽取与知识图谱的相关研究。来源 | 赤乐君的知乎专栏最近AllenNLP在EMNLP2018上做了一个主题分享,名为“写给…

【数据库】sqlite3常用命令及SQL语句

【数据库】sqlite3数据库备份、导出方法汇总 一、准备工作 0、安装SQLite3 1)ubuntu命令安装(不是最新版本) sudo apt install sqlite32)源码安装(可以安装最新版本) 下载: https://www.sq…

资本主义社会是不存在人道的

对叙利亚人民感到无助而写点文章,虽然没有什么大的作用,也谈谈自己对于战争与和平的理解,战争与和平就相当于爱与恨一样,爱的热切,恨之入骨,虽然形容不当,人性的双面总是要拿来剖析一二的。 人类…

再谈javascript图片预加载经典技术

图片预加载技术的典型应用: 如lightbox方式展现照片,无疑需要提前获得大图的尺寸,这样才能居中定位,由于javascript无法获取img文件头数据,必须等待其加载完毕后才能获取真实的大小然后展示出来,所以lightb…

【Go】Go基础(四):流程控制(控制结构)

1、if-else结构 格式: if condition1 {// do something } else if condition2 {// do something else } else {// default }和C的不同,条件语句没有大括号; 新增的语法: if initialization; condition {// do something }例…

让世界零距离 小鱼易连的大梦想

“他是高材生,也是技术大拿。十年北美,十年中国,他在高科技领域善于创新、精于管理,五项中美专利加身。他在北电网络领导团队不断创新,成就亚太顶尖;他曾任宝利通全球高管,带领团队从初创一路起飞&#xff…

程序员再也不能埋头敲代码了

上周,阿里巴巴重磅发布了机器学习平台 PAI 3.0 版本,据悉,这个 PAL 平台封装了 200 多种经典算法,可以轻松搭建机器学习实验。作为码农一枚,使我不得不抬起原本一直低着敲代码的头,看看这个为 AI 狂欢的世界…

函数的重载 - C++快速入门06

函数的重载 让编程改变世界 Change the world by program 函数的重载 C 里的函数重载(overloading)机制比我们此前见到的东西都高深,这种语言的灵活性和强大功能在它身上体现得淋漓尽致。 所谓函数重载的实质就是用同样的名字再定义一个有…

【Go】Go基础(五):函数

1、简述 Go 里面有三种类型的函数: * 普通的带有名字的函数 * 匿名函数或者lambda函数 * 方法(Methods)两个特殊函数:main()和init(),它们没有参数和返回值; Go语言里面没有函数重载; 2、函数…

搬箱轮滑再炫技!一个被波士顿动力耽误的机器人

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑整理 | 琥珀出品 | AI科技大本营(ID:rgznai100)据 TheVerge 等多家外媒报道,波士顿动力公司 (Boston Dynamics) 又推出了一款新的机器人&…

我是如何在天猫、蚂蚁金服、百度等大厂面试中被拒的 | 掘金技术征文

本人16年毕业于普通二本院校网络相关专业,工作经验两年半,目前就职业于一家普通民营企业。 由于非985、211学历硬伤,校招进大厂的门槛远高于同届985、211的毕业生。于是乎,从毕业到现在经历了三家创业公司,创业公司的痛…

solaris上的pkg管理

原文写于2010-05-18 19:43:40 网易博客,已删. 在solaris上安装程序,很多时候多离不开package管理.上的编译好的软件都是已package的形式压缩好然后提供给大家下载的. 关键是3个命令:pkgadd/pkginfo/pkgrm pkgadd -d pkgname用来添加安装包 pkginfo 用来打印系统…

【Go】Go基础(六):数组、切片slice、映射map

1、数组 1.1 数组定义 数组:数组是具有相同 唯一类型 的一组已编号且长度固定的数据项序列。 数组长度必须是一个常量表达式,并且必须是一个非负整数。数组长度也是数组类型的一部分,所以[5]int和[10]int是属于不同类型的。数组长度最大为 …

语义表征的无监督对比学习:一个新理论框架

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑译者 | Linstancy责编 | 琥珀出品 | AI科技大本营(ID:rgznai100)诸如图像、文本、视频等复杂数据类型的语义表征 (也称为语义嵌入) 已成为机器学习的核心…

YEX黄建:脱离比特币谈区块链,要么真傻,要么装疯卖傻丨区块链十人谈

如果说2017年是属于虚拟货币的一年,那么2018年的区块链将是生态和应用的一年,随之而来的也将是新的玩法、新的赚钱姿势。为此,雷锋网推出“区块链十人谈”(十人者,取是知众人博所长之意,非实指)…

70佳精美的PSD素材免费下载(上篇)

设计师经常会去网上搜罗各种各样的素材,这些免费素材不仅能帮助他们节省大量的时间,而且能有很好的效果。今天,本文与大家分享70佳精美的PSD素材,非常感谢那些很有才华的设计师分享它们的劳动成果,让更多的人可以使用他…

漫画讲述人工智能简史

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑作者 | 武博士、宋知达、袁雪瑶、聂文韬来源 | 大鱼AI(id:DayuAI-Founder)本文我们会以生动有趣的漫画来介绍关于人工智能(AI)相…