百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

斯坦福CS231n最新课程:详解深度学习的框架对比与实现

ccwgpt 2024-09-17 12:44 28 浏览 0 评论

选自Stanford

作者:李飞飞等

机器之心编译

参与:Smith

斯坦福大学的课程 CS231n (Convolutional Neural Networks for Visual Recognition) 作为深度学习和计算机视觉方面的重要基础课程,在学界广受推崇。今年 4 月,CS231n 再度开课,全新的 CS231n Spring 2017 仍旧由李飞飞带头,带来了很多新鲜的内容。今天机器之心给大家分享的是其中的第八讲——深度学习软件(Deep Learning Software)。主要内容有:CPU 和 GPU 的对比;深度学习框架简介;TensorFlow 和 PyTorch 的实例;以及各种深度学习框架的比较。

一、 CPU 和 GPU

CPU:核芯的数量更少;

但是每一个核芯的速度更快,性能更强;

更适用于处理连续性(sequential)任务。

GPU:核芯的数量更多;

但是每一个核芯的处理速度较慢;

更适用于并行(parallel)任务。

二、深度学习框架简介

去年我们还仅有 Caffe、Torch、Theano 和 TensorFlow 这些深度学习框架可供使用;但是到了今年,在此基础上我们又新增加了 Caffe2、Pytorch、TensorFlow、PaddlePaddle、 CNDK、MXNet 等等一系列新的框架,可谓「百花齐放」。如今最常用的框架当数 Pytorch 和 TensorFlow 了, 而 Caffe 和 Caffe2 次之。

深度学习框架的关键点在于:

(1)易于建造大型的计算机图形;

(2)易于在计算机图形中进行梯度计算;

(3)能在 GPU 上高效运行(cuDNN, cuBLA 等)

三、TensorFlow 简单实例

下面我们将详细说明一个在 TensorFlow 下训练神经网络的简单实例:即用随机数据训练一个两层的网络,激活函数为 ReLU。

a. 定义计算机图形:

1. 为输入 x,权重系数 w1、w2, 和目标函数 y 创建 placeholder:

2. 定义前向传输:这是为了计算 y 的预测值和误差损失(loss);实际上这里是没有计算过程的——仅仅是为了创建图形!

3. 告诉 Tensorflow 去计算关于 w1 和 w2 的梯度损失;这里仍然不产生计算过程——仅仅是为了创建图形。

b. 运行

现在已经完成了创建图形的步骤,所以我们进入对图形进行运算的部分。

创建 Numpy 数组,这个数组将会被填进上方的 placeholder 中。

对图形进行运算:将 x、y、w1、w2 输入到 numpy 数组中;得到关于损失(loss),w1 梯度和 w2 梯度的 numpy 数组。

训练网络:反复对图形进行运算,用梯度(gradient)来更新权重(weights)。

把 w1 和 w2 的相应函数从 placeholder() 改为 Variable()。

添加 assign 操作来更新 w1 和 w2(图形的一部分)。

对图形进行一次运算来初始化 w1 和 w2,然后进行多次迭代训练。

完整代码如下:

但是产生一个问题:误差损失(loss)并没有下降!这是因为 Assign 指令实际上并没有被执行。

这时我们就需要添加虚拟图形节点,并且告诉图形去计算虚拟节点。

可以使用 optimizer 来计算梯度和更新权重系数;记得要执行 optimizer 的输出!

使用预先定义的常用损失函数:

使用 Xavier 进行初始化;tf.layer 会自动设置权重系数(weight)和偏置项(bias)!

c. 高级 Wrapper——Keras

Keras 可以理解为是一个在 TensorFlow 顶部的 layer,它可以让一些工作变得更加简单(也支持 Theano 后端)。

把模型目标定义成一系列的 layer :

定义优化器目标(optimizer object):

创建模型,明确规定损失函数(loss function):

仅用一行代码就能训练模型!

除了 Keras, 还有一些其他类型的高级容器(Wrapper)可供使用:

四、PyTorch 实例

PyTorch 是 Facebook 推出的深度学习框架,不论是在工业界还是学术界,它都得到了广泛的应用。它包括三个等级的抽象概念:

  • 张量(Tensor):命令式的多维数组对象(ndarray),在 GPU 上运行;

  • 变量(Varaible):计算型图形(computational graph)的节点;用于存储数据和梯度(gradient)

  • 模块(Module):代表一个神经网络层;可以存储状态(state), 也可以存储可学习的权重系数(learnable weights)

PyTorch 和 TensorFlow 中抽象概念的等价对应关系:

a. Pytorch 中的张量(Tensor)设置

PyTorch 中的张量就像 numpy 中的数组,但是这些张量可以在 GPU 上运行;

这里我们用 PyTorch 的张量设置了一个两层网络:

下面我们来分步解读:

1. 为数据和权重(weights)创建随机张量:

2. 设置前向传播:计算预测值(prediction)和损失(loss):

3. 设置反向传播:计算梯度(gradients):

4. 梯度下降(Gradient descent)和权重(weights)相对应:

5. 为了在 GPU 上运行,将张量(tensors)设置为 cuda 数据类型:

b. PyTorch 中的 Autogradient 设置

PyTorch 的张量(Tensors)和变量(Variables)拥有相同的应用编程接口 API。变量(Variables)可以记忆它们是怎么产生的(因为反向传播的缘故)。

下面仍进行分步解读:

1. 我们不希望(损失 loss 的)梯度和数据(data)有相关性,但我们希望梯度和权重(weights)是相关的。相关设置如图:

2. 这里的前向传播看上去和上述张量(Tensor)的对应版本很相似,但是需要注意的是现在这里全部都是变量(variable)。

3. 计算损失函数对 w1 和 w2 的梯度(开始的时候梯度置零):

4. 让梯度和权重(weights)相对应:

C. 定义新型 Autograd 函数

通过张量的前向和反向传播来定义你自己的 autograd 函数:

可以在前向传播中使用新的 autograd 函数:

d. PyTorch 中的神经网络(nn)设置

用更高级的「容器」(wrapper)来处理神经网络(neural nets), 和 Keras 相似。完整代码如下:

下面进行分步解读:

把我们的模型定义成一系列的 layers:

也要定义常用损失函数:

前向传播:给模型输入数据;给损失函数(loss function)输入预测信息(prediction):

反向传播:计算所有的梯度(gradients):

让梯度和每一个模型参数对应:

下面我们添加一个优化器(optimizer):

在计算完梯度以后对所有的参数(parameters)进行更新:

E. PyTorch 中的神经网络——定义新的模型

Pytorch 中的模块(Module)其实是一个神经网络层(neural net layer),需要注意它的输入和输出都是变量;模块(Module)中包含着权重 (当作变量处理) 或者其他模块;你可以使用 autograd 来定义你自己的模块。详细代码如下:

下面进行分步解读:

1. 把我们的整体模型定义成一个单一的模块:

2. 用初始化程序来设置两个子模块(一个父模块可以包含子模块)

3. 用子模块和变量上的 autograd ops 定义前向传播;不需要定义反向传播——因为 autograd 会作相应处理:

4. 创建并训练一个模型实例:

E. PyTorch 中的资料存储器(Dataloaders)

资料存储器(DataLoader)包括一个数据集 (Dataset),而且给你提供了小批量处理(minibatching),「洗牌」处理(shuffling)和多线程处理(multithreading);当你需要载入自定义数据(custom data)时,写下你自己的数据集类型(dataset class)就可以了。

通过遍历存储器(loader)来形成小批量(minibatch);存储器会给你提供张量(Tensors), 所以你需要将其「打包」(wrap)进变量中:

注意:使用带有 torchvision 的预先训练好的模型(pretrained model)将会更加简单易行。

F. Torch 和 pytorch 的简单对比

结论:尽量使用 PyTorch 来做你的新项目。

五、Caffe2 简介

六、深度学习框架之争,究竟谁更胜一筹?

其实具体选择何种框架来进行深度学习取决于我们要做什么。在参阅相关文献之后,我们大致可以得出以下结论(仅供参考):

  • PyTorch 和 Torch 更适用于学术研究(research);TensorFlow,Caffe,Caffe2 则更适用于工业界的生产环境部署(industrial production)。

  • Caffe 适用于处理静态图像(static graph);Torch 和 PyTorch 更适用于动态图像(dynamic graph);而 TensorFlow 在两种情况下都很实用;

  • Tensorflow 和 Caffe2 可在移动端使用

附参考文献(斯坦福课程 CS231n; 以及港中文课程 ELEG5491):

  • http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture8.pdf

  • http://203.187.160.132:9011/dl.ee.cuhk.edu.hk/c3pr90ntc0td/slides/tutorial-caffe.pdf

  • http://203.187.160.132:9011/dl.ee.cuhk.edu.hk/c3pr90ntc0td/slides/DL_in_Action.pdf

相关推荐

MFC、Qt、WPF?该用哪个?(mfc和wpf区别)

MFC、Qt和WPF都是流行的框架和工具,用于开发图形用户界面(GUI)应用程序。选择哪个框架取决于你的具体需求和偏好。MFC(MicrosoftFoundationClass)是微软提供的框架,...

一款WPF开发的通讯调试神器(支持Modbus RTU、MQTT调试)

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!项目介绍Wu.CommTool是一个基于C#、WPF、Prism、MaterialDesign...

关于面试资深C#、WPF开发工程师的面试流程和问题

一、开场(2-3分钟)1.欢迎应聘者,简单介绍公司和面试流程。2.询问应聘者是否对公司或岗位有初步的问题。二、项目经验与技术应用(10-20分钟)1.让应聘者详细介绍几个他参与过的C#、...

C# WPF MVVM模式Prism框架下事件发布与订阅

01—前言处理同模块不同窗体之间的通信和不同模块之间不同窗体的通信,Prism提供了一种事件机制,可以在应用程序中低耦合的模块之间进行通信,该机制基于事件聚合器服务,允许发布者和订阅者之间通过事件进行...

WPF 机械类组件动画制作流程简述(wps上怎么画机械结构简图)

WPF机械类组件动画制作流程简述独立观察员2025年3月4日一、创建组件创建组件用户控件,将组件的各部分“零件”(图片)拼装在一起,形成组件的默认状态:二、给运动部分加上Rend...

C#上位机WinForm和WPF选哪个?工控老油条的"血泪史"

作为一个从互联网卷进工控坑的"跨界难民",在这会摸鱼的时间咱就扯一下上位机开发选框架这档子破事。当年我抱着WPF的酷炫动画一头扎进车间,结果被产线老师傅一句"你这花里胡哨的玩意...

【一文扫盲】WPF、Winform、Electron有什么区别?

近年来,随着软件开发的不断发展,开发人员面临着选择适合他们项目的各种框架和工具的挑战。在桌面应用程序开发领域,WPF、Winform和Electron是三个备受关注的技术。本文将介绍这三者的区别,帮助...

一个开源、免费、强大且美观的WPF控件库

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!项目介绍HandyControl是一套基于WPF(WindowsPresentationF...

WPF 根据系统主题自动切换浅色与深色模式

WPF根据系统主题自动切换浅色与深色模式控件名:Resources作者:WPFDevelopersOrg-驚鏵原文链接[1]:https://github.com/WPFDevelopers...

WPF与WinForm的本质区别(wpf与maui)

在Windows应用程序开发中,WinForm和WPF是两种主要的技术框架。它们各自有不同的设计理念、渲染机制和开发模式。本文将详细探讨WPF与WinForm的本质区别,并通过示例进行说明。渲染机制W...

Win10/Win11效率神器再进化:微软发布PowerToys 0.90.0版本

IT之家4月1日消息,微软今天(4月1日)更新PowerToys,在最新发布的0.90.0版本中,修复多个BUG之外,引入多项功能更新,为Windows10、Windows...

一款非常漂亮的WPF管理系统(wpf架构及特性)

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!WPFManager项目介绍该项目是一款WPF开发的管理系统,数据库采用的MSSqlserv...

WPF 实现描点导航(wpf按钮的点击事件)

WPF实现描点导航控件名:NavScrollPanel作者:WPFDevelopersOrg-驚鏵原文链接[1]:https://github.com/WPFDevelopersOrg/WPF...

微软更新基于Win11的Validation OS 2504:增强 .NET与WPF

IT之家5月1日消息,科技媒体NeoWin今天(5月1日)发布博文,报道称微软公司更新基于Windows11的ValidationOS,增强支持.NET和WPF,并优...

WPF的技术架构与优势(wpf的前景)

WindowsPresentationFoundation(WPF)是一个现代化的用户界面框架,专为构建Windows应用程序而设计。它通过分层的技术架构和丰富的功能集,提供了全面的应用程...

取消回复欢迎 发表评论: