深度学习面试必备的25个问题
作者 | Tomer Amit
译者 | 弯月,编辑 | 屠敏
出品 | CSDN(ID:CSDNnews)
在本文中,我将分享有关深度学习的25个问题,希望能够帮助你为面试做好准备。
1.为什么必须在神经网络中引入非线性?
答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线性模型的参数数量非常少,因此建模的复杂性也会非常有限。
2.说明解决神经网络中梯度消失问题的两种方法。
答:
使用ReLU激活函数代替S激活函数。
使用Xavier初始化。
3.在图像分类任务中,相较于使用密集神经网络(Dense Neural Network,DNN),使用卷积神经网络(Convolutional Neural Network,CNN)有哪些优势?
答:虽然两种模型都可以捕获彼此靠近的像素之间的关系,但CNN具有以下属性:
它是平移不变的:对于过滤器而言,像素的确切位置是无关的。
更不容易发生过度拟合:一般而言CNN中的参数比DNN要少很多。
方便我们更好地理解模型:我们可以查看过滤器的权重,并可视化神经网络的学习成果。
分层性质:通过使用较简单的模式描述复杂的模式来学习模式。
4. 说明在图像分类任务中可视化CNN特征的两种方法。
答:
输入遮挡:遮挡输入图像的一部分,看看哪部分对分类的影响最大。 例如,针对某个训练好的图像分类模型,将下列图像作为输入。如果我们看到第三幅图像被分类为狗狗的概率为98%,而第二幅图像的准确率仅为65%,则说明眼睛对于对分类的影响更大。
激活最大化:创建一个人造的输入图像,以最大化目标响应(梯度上升)。
5. 在优化学习速率时,分别尝试学习速率:0.1、0.2,…,0.5是好办法吗?
答:这种方法并不好,建议使用对数比例来优化学习速率。
6. 假设一个神经网络拥有3层的结构和ReLU激活函数。如果我们用同一个值初始化所有权重,结果会怎样?如果我们只有1层(即线性/逻辑回归)会怎样?
答:如果所有权重的初始值都相同,则无法破坏对称性。也就是说,所有梯度都会更新成同一个值,而且神经网络将无法学习。但是,如果神经网络只有1层的话,成本函数是凸形的(线性/ S型),因此权重始终会收敛到最佳点,无论初始值是什么(收敛可能会较慢)。
7.解释Adam优化器的概念。
答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。
8.比较批处理,小批处理和随机梯度下降。
答:批处理是指在估计数据时获取整个数据;小批处理是通过对几个数据点进行采样来进行小批量处理;而随机梯度下降是指在每个时期更新一个数据点的梯度。我们需要权衡梯度计算的准确度与保存在内存中的批量大小。此外,通过在每个epoch添加随机噪声,我们可以通过小批处理(而非整个批处理)实现正规化效果。
9.什么是数据扩充?举个例子。
答:数据扩充是一种技术,通过操作原始数据来增加输入数据。例如,对于图像,我们可以执行以下操作:旋转图像、翻转图像、添加高斯模糊等。
10. 解释GAN的概念。
答:GAN(Generative Adversarial Network)即生成对抗网络,通常由两个神经网络D和G组成,其中D指的是判别器(Discriminator),而G指生成网络(Generative Network)。这种模型的目标是创建数据,例如创建与真实图像并无二样的图像。假设我们想要创建一只猫的对抗示例。神经网络G负责生成图像,而神经网络D则负责判断图像是否是猫。G的目标是“愚弄”D——将G的输出始终分类为猫。
11.使用Batchnorm有什么优势?
答:Batchnorm能够加快训练过程,而且(一些噪音的副产品)还具有调节作用。
12.什么是多任务学习?应该在什么时候使用?
答:当我们使用少量数据处理多个任务时,多任务处理将很有用,而且我们还可以使用在其他任务的大型数据集上训练好的模型。通过“硬”方式(即相同的参数)或“软”方式(即对成本函数进行正则化/惩罚)共享模型的参数。
13.什么是端到端学习?列举一些优点。
答:端到端学习通常是一个模型,该模型能够获取原始数据并直接输出所需的结果,而无需任何中间任务或功能工程。其优点包括:无需手工构建功能,而且通常可以降低偏差。
14.如果在最后一层中,我们先使用ReLU激活函数,然后再使用Sigmoid函数,会怎样?
答:由于ReLU始终会输出非负结果,因此该神经网络会将所有输入预测成同一个类别。
15.如何解决梯度爆炸的问题?
答:解决梯度爆炸问题的一个最简单的方法就是梯度修剪,即当梯度的绝对值大于M(M是一个很大的数字)时,设梯度为±M。
16.使用批量梯度下降法时,是否有必要打乱训练数据?
答:没有必要。因为每个epoch的梯度计算都会使用整个训练数据,所以打乱顺序也没有任何影响。
17.当使用小批量梯度下降时,为什么打乱数据很重要?
答:如果不打乱数据的顺序,那么假设我们训练一个神经网络分类器,且有两个类别:A和B,那么各个epoch中的所有小批量都会完全相同,这会导致收敛速度变慢,甚至导致神经网络对数据的顺序产生倾向性。
18.列举迁移学习的超参数。
答:保留多少层、添加多少层、冻结多少层。
19. 测试集上是否需要使用dropout?
答:不可以使用!dropout只能用于训练集。dropout是训练过程中应用的一种正则化技术。
20.说明为什么神经网络中的dropout可以作为正则化。
答:关于dropout的工作原理有几种解释。我们可以将其视为模型平均的一种形式:我们可以在每一步中“去掉”模型的一部分并取平均值。另外,它还会增加噪音,自然会产生调节的效果。最后,它还可以稀释权重,从根本上阻止神经网络中神经元的共适应。
21. 举个适合多对一RNN架构的例子。
答:例如:情绪分析,语音中的性别识别等。
22.我们什么时候不能使用BiLSTM?说明在使用BiLSTM我们必须做的假设。
答:在所有双向模型中,我们都可以假设在给定的“时间”内访问序列的下一个元素。文本数据(例如情感分析、翻译等)就是这种情况,而时间序列数据则不属于这种情况。
23. 判断对错:将L2正则化添加到RNN有助于解决梯度消失的问题。
答:错误!添加L2正则化会将权重缩小为零,在某些情况下这实际上会让梯度消失的问题更严重。
24. 假设训练错误/成本很高,而且验证成本/错误几乎与之相等。这是什么意思?我们应该做些什么?
答:这表明欠拟合。我们可以添加更多参数,增加模型的复杂性或减少正则化。
25. 说明为何L2正则化可以解释为一种权重衰减。
答:假设我们的成本函数为C(w),我们再加上一个c|w|2。使用梯度下降时,迭代如下:
w = w -grad(C)(w) — 2cw = (1–2c)w — grad(C)(w)
在该等式中,权重乘以因子<1
原文链接:
https://towardsdatascience.com/50-deep-learning-interview-questions-part-1-2-8bbc8a00ec61
【End】
推荐阅读半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE
首次揭秘!大麦如何应对超大规模高性能选座抢票?
AI 四巨头 Google、DeepMind、Microsoft、Uber 深度学习框架大比拼马化腾、马云并列成为中国首富;百度回应“将上线电商直播”;.NET 5 Preview 2 发布 | 极客头条程序员职场背锅甩锅指南警惕!新骗术出现:这些虚假二维码生成器已成功盗取 4.6 万美元!“出道” 5 年采用率达 78%,Kubernetes 的成功秘诀是什么?
你点的每个“在看”,我都认真当成了AI
相关文章:

一分钟了解阿里云产品:先知计划
一、 概述 阿里云发布了各种各样的产品,今天让我们一起来了解下阿里云先知计划吧。 什么是先知计划呢? 先知计划是一个帮助企业建立私有应急响应中心的平台(帮助企业收集漏洞信息)。企业加入先知计划后,可…

C语言的HashTable简单实现
原文地址:http://blog.csdn.net/zmxiangde_88/article/details/8025541 HashTable是在实际应用中很重要的一个结构,下面讨论一个简单的实现,虽然简单,但是该有的部分都还是有的。 一,访问接口 创建一个hashtable. h…
GitHub标星2000+,如何用30天啃完TensorFlow2.0?
作者 | 梁云1991来源 | Python与算法之美(ID:Python_Ai_Road)天下苦tensorflow久矣!尽管tensorflow2.0宣称已经为改善用户体验做出了巨大的改进,really easy to use,但大家学得并不轻松。tensorflow2.0官方文档和tenso…

【Struts2学习笔记(1)】Struts2中Action名称的搜索顺序和多个Action共享一个视图--全局result配置...
一、Action名称的搜索顺序 1.获得请求路径的URI,比如url是:http://server/struts2/path1/path2/path3/test.action 2.首先寻找namespace为/path1/path2/path3的package,假设不存在这个package则运行步骤3;假…
大话卷积神经网络CNN,小白也能看懂的深度学习算法教程,全程干货建议收藏!...
来源 | 程序员管小亮本文创作的主要目的,是对时下最火最流行的深度学习算法的基础知识做一个简介,作者看过许多教程,感觉对小白不是特别友好,尤其是在踩过好多坑之后,于是便有了写这篇文章的想法。由于文章较长&#x…
频繁分配释放内存导致的性能问题的分析--brk和mmap的实现
现象1 压力测试过程中,发现被测对象性能不够理想,具体表现为: 进程的系统态CPU消耗20,用户态CPU消耗10,系统idle大约70 2 用ps -o majflt,minflt -C program命令查看,发现majflt每秒增量为0&…

Linux 服务器日志文件查找技巧精粹
用来在日志文件里搜索特定活动事件的工具不下几十种,本文将介绍搜索日志文件时应该采取的策略。然后,通过几个具体示例介绍一些使用grep命令手动搜索日志文件的办法。接下来,我们将看到 logwatch工具和logsurfer工具的用法。最后,…

程序猿面试什么最重要?
程序猿面试一直是社区乐于讨论的热门话题。我自己从06年实习以来。先后经历了4家软件公司。所有是外企。当中有世界500强的通信企业,有从事期权期货交易的欧洲中等规模的金融公司,也有为大型汽车制造商开发Android智能汽车的新兴公司。跨入IT行业以来。我…

open的O_DIRECT选项
http://blog.chinaunix.net/uid-223060-id-2127385.html http://blog.csdn.net/hhtang/article/details/6605951 查看磁盘分区: #df -h #tune2fs -l /dev/mapper/VolGroup-lv_root 或者 #dumpe2fs /dev/mapper/VolGroup-lv_root|grep -i "block size"…
2020 年,AI 芯片内存哪家强?
目前多家公司都在开发网络边缘系统的AI芯片,本文作者详细分析AI边缘芯片遇到的问题和挑战,并给出一些新的内存技术解决方案。作者 | Mark LaPedus译者 | 弯月,责编 | 伍杏玲封图 | CSDN下载自视觉中国出品 | CSDN(ID:CSDNnews&…

Excel数字、文本混合列导入SQL Server出现的问题&解决办法
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://annie-out.blogbus.com/logs/60276495.htmlExcel文件:序号 姓名 内部电话 住址 1 小李 1234 …… 2 小王5678……3小张2345(国内长途)…………………………如上结构的…

ARM 位置无关代码(PIC)的分析理解
2019独角兽企业重金招聘Python工程师标准>>> PIC的特点是: 它被加载到任意地址空间都可以正确的执行。其原理是PIC对常量和函数入口地址的操作都是基于PC偏移量的寻址方式。即使程序被移动,但是PC也变化了,而偏移量是不变的&#…

Linux压缩/解压缩
整合资源,仅供自己参考:) TAR 命令名 tar - tar 档案文件管理程序的 GNU 版本。下面将逐个介绍其含义 总览 tar [ - ] A --catenate --concatenate | c --create | d --diff --compare | r --append | t --list | u --update | x -extract -…
为什么校招面试中总被问“线程与进程的区别”?我该如何回答?
作者 | 宇宙之一粟责编 | 徐威龙出品 | AI 科技大本营(rgznai100)进程与线程?(Process vs. Thread?)面试官(正襟危坐中):给我说说“线程”与“进程”吧。我(总…

Linux线程编程
1.编译 undefined reference to pthread_create问题解决 出现如下错误: undefined reference to pthread_create undefined reference to pthread_join 问题原因: pthread 库不是 Linux 系统默认的库,连接时需要使用静态库 libpthread…

PHP引擎php.ini 和fastcti优化
1.1 php引擎缓存优化加速1)eaccelerator2)Zend3)xcache1.2 使用tmpfs作为缓存加速的的文件目录[rootLNMP ~]# mount -t tmpfs /dev/shm -o size256m[rootLNMP ~]# mount -t tmpfs /dev/shm/ /tmp/eaccelerator/提示:1、上传图片缩…
从*p++说指针,数组,结构和函数
说明文中*p和*s都是一个东西,不做字面上的统一了。 因为右结合性,*p 其实就是 *(p) 1.strlen的实现 #include <stdio.h> main(){char str[] "Abcde";printf("\n string %s length %d \n",str,str_length(str)); }int str…
8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020
出品 | AI科技大本营(ID:rgznai100)在CVPR 2020上,商汤研究院链接与编译团队、高性能计算团队和北航刘祥龙老师团队合作提出了用于加速卷积神经网络训练过程的INT8训练技术。该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传…

×××作,不知写些什么
博客,老是有写的冲动,不过,没什么韧劲坚持,自己感觉文采一般般啦,有时兴起,挥毫泼墨,蜡笔重唱一番,呵呵,自个爽朗了,呵呵 所以,自己坚持ÿ…

centos7 install 安装mysql
CentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件,需要去官网上下载 # wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm # rpm -ivh mysql-community-release-el7-5.noarch.rpm # yum install mysql-community-server成功安装之…
AI四巨头Google、DeepMind、Microsoft、Uber深度学习框架大比拼
编者按:Google、Uber、DeepMind和Microsoft这四大科技公司是当前将深度学习研究广泛应用于自身业务的典型代表,跻身全球深度学习研究水平最高的科技公司之列。GPipe、Horovod、TF Replicator和DeepSpeed分别是这四家公司开发应用的深度学习框架ÿ…

转《刘润的数字化家庭》
数字家庭也是我的一大梦想,感谢刘润让我的想法更加丰富和具体。。。 转载自刘润的博客,原文地址:http://blog.run2me.com/runliu/archive/2010/06/12/37082.aspx 1 of 22 (大图):用数字化的技术,…
自己写的内存池Slabs
看memcached的源码写的,虽然很粗糙,但是基本思想还是有的,自娱自乐,后期不断改进。 #include <stdio.h> #include <stdlib.h> #include <string.h>struct st{void * start;void * end;char ptr[10]; }; struct …
Eclispse Che(2):启动Che服务,进入IDE界面
本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/50888878 未经博主允许不得转载。 博主地址是:http://blog.csdn.net/freewebsys 1,关于Docker 上次使用Che的时候没有成功创建Project。 其实主要问题就是docker的网络问题。 使用…
使用strace和ltrace跟踪程序调用
ltrace能够跟踪进程的库函数调用,它会显现出哪个库函数被调用,而strace则是跟踪程序的每个系统调用.1.系统调用的输出对比程序代码:#include <stdio.h> main(){char str[] "Abcde";printf("\n string %s length %d \n",str,str_length(…

NeHe OpenGL第三十三课:TGA文件
NeHe OpenGL第三十三课:TGA文件 加载压缩和未压缩的TGA文件: 在这一课里,你将学会如何加载压缩和为压缩的TGA文件,由于它使用RLE压缩,所以非常的简单,你能很快地熟悉它的。 我见过很多人在游戏开发论坛或其它地方询问…

阿里自动驾驶新突破!达摩院自研ISP图像处理器大幅提升安全性
阿里巴巴达摩院在自动驾驶领域取得新突破!4月8日,据记者了解,达摩院已经自主研发出用于车载摄像头的ISP处理器,保障自动驾驶车辆在夜间拥有更好的“视力”,“看”得更清晰,从而大幅提升自动驾驶安全性, 而背…

3月14号作业
<!DOCTYPE html> <html> <head lang"en"><meta charset"UTF-8"><title></title> </head> <body> <br/> <br/> <img src"51job表单_03.gif"</br> <br/> <br/>…

NeHe OpenGL第三十五课:播放AVI
NeHe OpenGL第三十五课:播放AVI 在OpenGL中播放AVI: 在OpenGL中如何播放AVI呢?利用Windows的API把每一帧作为纹理绑定到OpenGL中,虽然很慢,但它的效果不错。你可以试试。 首先我得说我非常喜欢这一章节.Jonathan de Blok使我产生…
为什么TCP的TIME_WAIT状态要保持2MSL?
TIMEWAIT状态也称为 2MSL等待状态。每个具体TCP实现必须选择一个报文段最大生存时间MSL(Maximum Segment Lifetime)。它是任何报文段被丢弃前在网络内的最长时间。我们知道这个时间是有限的,因为TCP报文段以IP数据报在网络内传输,而IP数据报则有限制其生…