斯坦福CS231n最新课程:详解深度学习的框架对比与实现
ccwgpt 2024-09-17 12:44 38 浏览 0 评论
选自Stanford
作者:李飞飞等
机器之心编译
参与:Smith
斯坦福大学的课程 CS231n (Convolutional Neural Networks for Visual Recognition) 作为深度学习和计算机视觉方面的重要基础课程,在学界广受推崇。今年 4 月,CS231n 再度开课,全新的 CS231n Spring 2017 仍旧由李飞飞带头,带来了很多新鲜的内容。今天机器之心给大家分享的是其中的第八讲——深度学习软件(Deep Learning Software)。主要内容有:CPU 和 GPU 的对比;深度学习框架简介;TensorFlow 和 PyTorch 的实例;以及各种深度学习框架的比较。
一、 CPU 和 GPU
CPU:核芯的数量更少;
但是每一个核芯的速度更快,性能更强;
更适用于处理连续性(sequential)任务。
GPU:核芯的数量更多;
但是每一个核芯的处理速度较慢;
更适用于并行(parallel)任务。
二、深度学习框架简介
去年我们还仅有 Caffe、Torch、Theano 和 TensorFlow 这些深度学习框架可供使用;但是到了今年,在此基础上我们又新增加了 Caffe2、Pytorch、TensorFlow、PaddlePaddle、 CNDK、MXNet 等等一系列新的框架,可谓「百花齐放」。如今最常用的框架当数 Pytorch 和 TensorFlow 了, 而 Caffe 和 Caffe2 次之。
深度学习框架的关键点在于:
(1)易于建造大型的计算机图形;
(2)易于在计算机图形中进行梯度计算;
(3)能在 GPU 上高效运行(cuDNN, cuBLA 等)
三、TensorFlow 简单实例
下面我们将详细说明一个在 TensorFlow 下训练神经网络的简单实例:即用随机数据训练一个两层的网络,激活函数为 ReLU。
a. 定义计算机图形:
1. 为输入 x,权重系数 w1、w2, 和目标函数 y 创建 placeholder:
2. 定义前向传输:这是为了计算 y 的预测值和误差损失(loss);实际上这里是没有计算过程的——仅仅是为了创建图形!
3. 告诉 Tensorflow 去计算关于 w1 和 w2 的梯度损失;这里仍然不产生计算过程——仅仅是为了创建图形。
b. 运行
现在已经完成了创建图形的步骤,所以我们进入对图形进行运算的部分。
创建 Numpy 数组,这个数组将会被填进上方的 placeholder 中。
对图形进行运算:将 x、y、w1、w2 输入到 numpy 数组中;得到关于损失(loss),w1 梯度和 w2 梯度的 numpy 数组。
训练网络:反复对图形进行运算,用梯度(gradient)来更新权重(weights)。
把 w1 和 w2 的相应函数从 placeholder() 改为 Variable()。
添加 assign 操作来更新 w1 和 w2(图形的一部分)。
对图形进行一次运算来初始化 w1 和 w2,然后进行多次迭代训练。
完整代码如下:
但是产生一个问题:误差损失(loss)并没有下降!这是因为 Assign 指令实际上并没有被执行。
这时我们就需要添加虚拟图形节点,并且告诉图形去计算虚拟节点。
可以使用 optimizer 来计算梯度和更新权重系数;记得要执行 optimizer 的输出!
使用预先定义的常用损失函数:
使用 Xavier 进行初始化;tf.layer 会自动设置权重系数(weight)和偏置项(bias)!
c. 高级 Wrapper——Keras
Keras 可以理解为是一个在 TensorFlow 顶部的 layer,它可以让一些工作变得更加简单(也支持 Theano 后端)。
把模型目标定义成一系列的 layer :
定义优化器目标(optimizer object):
创建模型,明确规定损失函数(loss function):
仅用一行代码就能训练模型!
除了 Keras, 还有一些其他类型的高级容器(Wrapper)可供使用:
四、PyTorch 实例
PyTorch 是 Facebook 推出的深度学习框架,不论是在工业界还是学术界,它都得到了广泛的应用。它包括三个等级的抽象概念:
张量(Tensor):命令式的多维数组对象(ndarray),在 GPU 上运行;
变量(Varaible):计算型图形(computational graph)的节点;用于存储数据和梯度(gradient)
模块(Module):代表一个神经网络层;可以存储状态(state), 也可以存储可学习的权重系数(learnable weights)
PyTorch 和 TensorFlow 中抽象概念的等价对应关系:
a. Pytorch 中的张量(Tensor)设置
PyTorch 中的张量就像 numpy 中的数组,但是这些张量可以在 GPU 上运行;
这里我们用 PyTorch 的张量设置了一个两层网络:
下面我们来分步解读:
1. 为数据和权重(weights)创建随机张量:
2. 设置前向传播:计算预测值(prediction)和损失(loss):
3. 设置反向传播:计算梯度(gradients):
4. 梯度下降(Gradient descent)和权重(weights)相对应:
5. 为了在 GPU 上运行,将张量(tensors)设置为 cuda 数据类型:
b. PyTorch 中的 Autogradient 设置
PyTorch 的张量(Tensors)和变量(Variables)拥有相同的应用编程接口 API。变量(Variables)可以记忆它们是怎么产生的(因为反向传播的缘故)。
下面仍进行分步解读:
1. 我们不希望(损失 loss 的)梯度和数据(data)有相关性,但我们希望梯度和权重(weights)是相关的。相关设置如图:
2. 这里的前向传播看上去和上述张量(Tensor)的对应版本很相似,但是需要注意的是现在这里全部都是变量(variable)。
3. 计算损失函数对 w1 和 w2 的梯度(开始的时候梯度置零):
4. 让梯度和权重(weights)相对应:
C. 定义新型 Autograd 函数
通过张量的前向和反向传播来定义你自己的 autograd 函数:
可以在前向传播中使用新的 autograd 函数:
d. PyTorch 中的神经网络(nn)设置
用更高级的「容器」(wrapper)来处理神经网络(neural nets), 和 Keras 相似。完整代码如下:
下面进行分步解读:
把我们的模型定义成一系列的 layers:
也要定义常用损失函数:
前向传播:给模型输入数据;给损失函数(loss function)输入预测信息(prediction):
反向传播:计算所有的梯度(gradients):
让梯度和每一个模型参数对应:
下面我们添加一个优化器(optimizer):
在计算完梯度以后对所有的参数(parameters)进行更新:
E. PyTorch 中的神经网络——定义新的模型
Pytorch 中的模块(Module)其实是一个神经网络层(neural net layer),需要注意它的输入和输出都是变量;模块(Module)中包含着权重 (当作变量处理) 或者其他模块;你可以使用 autograd 来定义你自己的模块。详细代码如下:
下面进行分步解读:
1. 把我们的整体模型定义成一个单一的模块:
2. 用初始化程序来设置两个子模块(一个父模块可以包含子模块)
3. 用子模块和变量上的 autograd ops 定义前向传播;不需要定义反向传播——因为 autograd 会作相应处理:
4. 创建并训练一个模型实例:
E. PyTorch 中的资料存储器(Dataloaders)
资料存储器(DataLoader)包括一个数据集 (Dataset),而且给你提供了小批量处理(minibatching),「洗牌」处理(shuffling)和多线程处理(multithreading);当你需要载入自定义数据(custom data)时,写下你自己的数据集类型(dataset class)就可以了。
通过遍历存储器(loader)来形成小批量(minibatch);存储器会给你提供张量(Tensors), 所以你需要将其「打包」(wrap)进变量中:
注意:使用带有 torchvision 的预先训练好的模型(pretrained model)将会更加简单易行。
F. Torch 和 pytorch 的简单对比
结论:尽量使用 PyTorch 来做你的新项目。
五、Caffe2 简介
六、深度学习框架之争,究竟谁更胜一筹?
其实具体选择何种框架来进行深度学习取决于我们要做什么。在参阅相关文献之后,我们大致可以得出以下结论(仅供参考):
PyTorch 和 Torch 更适用于学术研究(research);TensorFlow,Caffe,Caffe2 则更适用于工业界的生产环境部署(industrial production)。
Caffe 适用于处理静态图像(static graph);Torch 和 PyTorch 更适用于动态图像(dynamic graph);而 TensorFlow 在两种情况下都很实用;
Tensorflow 和 Caffe2 可在移动端使用
附参考文献(斯坦福课程 CS231n; 以及港中文课程 ELEG5491):
http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture8.pdf
http://203.187.160.132:9011/dl.ee.cuhk.edu.hk/c3pr90ntc0td/slides/tutorial-caffe.pdf
http://203.187.160.132:9011/dl.ee.cuhk.edu.hk/c3pr90ntc0td/slides/DL_in_Action.pdf
相关推荐
- 2025南通中考作文解读之四:结构框架
-
文题《继续走,迈向远方》结构框架:清晰叙事,层层递进示例结构:1.开头(点题):用环境描写或比喻引出“走”与“远方”,如“人生如一条长路,每一次驻足后,都需要继续走,才能看见更美的风景”。2.中间...
- 高中数学的知识框架(高中数学知识框架图第三章)
-
高中数学的知识框架可以划分为多个核心板块,每个板块包含具体的知识点与内容,以下为详细的知识框架结构:基础知识1.集合与逻辑用语:涵盖集合的概念、表示方式、性质、运算,以及命题、四种命题关系、充分条件...
- 决定人生的六大框架(决定人生的要素)
-
45岁的自己混到今天,其实是失败的,要是早点意识到影响人生的六大框架,也不至于今天的模样啊!排第一的是环境,不是有句话叫人是环境的产物,身边的环境包括身边的人和事,这些都会对一个人产生深远的影响。其次...
- 2023年想考过一级造价师土建计量,看这30个知识点(三)
-
第二章工程构造考点一:工业建筑分类[考频分析]★★★1.按厂房层数分:(1)单层厂房;(2)多层厂房;(3)混合层数厂房。2.按工业建筑用途分:(1)生产厂房;(2)生产辅助厂房;(3)动力用厂房;(...
- 一级建造师习题集-建筑工程实务(第一章-第二节-2)
-
建筑工程管理与实务题库(章节练习)第一章建筑工程技术第二节结构设计与构造二、结构设计1.常见建筑结构体系中,适用建筑高度最小的是()。A.框架结构体系B.剪力墙结构体系C.框架-剪力墙结构体系D...
- 冷眼读书丨多塔斜拉桥,这么美又这么牛
-
”重大交通基础设施的建设是国民经济和社会发展的先导,是交通运输行业新技术集中应用与创新的综合体现。多塔斜拉桥因跨越能力强、地形适应性强、造型优美等特点,备受桥梁设计者的青睐,在未来跨越海峡工程中将得...
- 2021一级造价师土建计量知识点:民用建筑分类
-
2021造价考试备考开始了,学霸君为大家整理了一级造价师备考所用的知识点,希望对大家的备考道路上有所帮助。 民用建筑分类 一、按层数和高度分 1.住宅建筑按层数分类:1~3层为低层住宅,4~6层...
- 6个建筑结构常见类型,你都知道吗?
-
建筑结构是建筑物中支承荷载(作用)起骨架作用的体系。结构是由构件组成的。构件有拉(压)杆、梁、板、柱、拱、壳、薄膜、索、基础等。常见的建筑结构类型有6种:砖混结构、砖木结构、框架结构、钢筋混凝土结构、...
- 框架结构设计经验总结(框架结构设计应注意哪些问题)
-
1.结构设计说明主要是设计依据,抗震等级,人防等级,地基情况及承载力,防潮抗渗做法,活荷载值,材料等级,施工中的注意事项,选用详图,通用详图或节点,以及在施工图中未画出而通过说明来表达的信息。2.各...
- 浅谈混凝土框架结构设计(混凝土框架结构设计主要内容)
-
浅谈混凝土框架结构设计 摘要:结构设计是个系统的全面的工作,需要扎实的理论知识功底,灵活创新的思维和严肃认真负责的工作态度。钢筋混凝土框架结构虽然相对简单,但设计中仍有很多需要注意的问题。本文针...
- 2022一级建造师《建筑实务》1A412020 结构设计 精细考点整理
-
历年真题分布统计1A412021常用建筑结构体系和应用一、混合结构体系【2012-3】指楼盖和屋盖采用钢筋混凝土或钢木结构,而墙和柱采用砌体结构建造的房屋,大多用在住宅、办公楼、教学楼建筑中。优点:...
- 破土动工!这个故宫“分院”科技含量有点儿高
-
故宫“分院”设计图。受访者供图近日,位于北京海淀区西北旺镇的故宫北院区项目已开始破土动工,该项目也被称作故宫“分院”,筹备近十年之久。据悉,故宫本院每年展览文物的数量不到1万件,但是“分院”建成后,预...
- 装配式结构体系介绍(上)(装配式结构如何设计)
-
PC构件深化、构件之间连接节点做法等与相应装配式结构体系密切相关。本节列举目前常见的几种装配式结构体系:装配整体式混凝土剪力墙结构体系、装配整体式混凝土框架结构体系、装配整体式混凝土空腔结构体系(S...
- 这些不是双向抗侧结构体系(这些不是双向抗侧结构体系的特点)
-
双向抗侧土木吧规范对双向抗恻力结构有何规定?为何不应采用单向有墙的结构?双向抗侧土木吧1.规范对双向抗侧力结构体系的要求抗侧力体系是指抵抗水平地震作用及风荷载的结构体系。对于结构体系的布置,规范针对...
- 2022一级建造师《建筑实务》1A412020 结构设计 精细化考点整理
-
1A412021常用建筑结构体系和应用一、混合结构体系【2012-3】指楼盖和屋盖采用钢筋混凝土或钢木结构,而墙和柱采用砌体结构建造的房屋,大多用在住宅、办公楼、教学楼建筑中。优点:抗压强度高,造价...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)