未必孤独网 > Deep Learning 的专家如此急缺,它难在何处?

Deep Learning 的专家如此急缺,它难在何处?

【李渊的回答(167票)】:

做为前深度学习相关研究工作者,以第一人称视角做个回答。

上面的回答大都是从技术的角度来回答的,这样讲都没错,但是我觉得另一个角度,即心理的角度可能才是更为深层次的原因

我12年开始在T大进行深度学习相关研究,主要是做语音识别应用方向的研究。硕士阶段满打满算好好做了两年的研究工作,曾在语音信号处理领域国际顶会发了三篇文章。这个水平相对于业界活跃的大牛肯定是不值一提的,我讲这个只是为了说明我对这个东西是有足够了解的。

首先必须要澄清的一点是,深度学习专家急缺可能是事实,然而它难,并不是事实。就像题主说到的,相对于从前的许多机器学习方法,深度学习确实不需要什么高深的数学内容,这一点是没错的。那么如果是这样,那么为什么研究的人(暂时)看起来没有想象的多呢?

深度学习是一个学术概念,要搞清楚这个问题,就需要了解这个东西的学术背景。如同大家可能在其它新闻稿之类的地方能看到的,神经网络的概念几十年前就有了,那个时候就已经火了一阵了,然而后来又被其它方法(比如SVM)超越,之后沉寂了一段时间,到大约11年左右开始爆发,到现在算是受到各界注意力汇聚的顶点了。

做为语音领域研究的工作者,对于上面描述的这些变化其实是非常敏感的。正是因为11年微软在大规模连续语音识别上的突破性进展,(参见语音识别技术突飞猛进)拉开了国际上各家在深度学习上面军备竞赛的序幕,比如百度IDL的成立,谷歌收购Deepmind,DNNReserch等。当然这也是导致我毅然决然向导师要求从事这个方向研究的原因。

实际上现在深度学习的几乎所有最重要理论早在八十年代就确定下来了,那么为什么这么多的进展最近几年才出现?现在我们已经知道,因为那个时候计算机速度太慢,无法支持足够大规模的神经网络,而由于摩尔定律在一段时间内的作用,已经在几十年内使得计算速度得到了数百万倍的提升,而这数百万倍的提升本身其实是一个持续而漫长的过程,所以计算速度方面的原因只能回的的是“为什么它出现了”,而不能回答“为什么它在最近几年以如此密集的方式出现”。

如同理解经济现象不要只讲大道理,必须回到每个人实际面临的选择情景一样,要回答这个问题就必须回到每个研究者所面临的实际情景中

假设在另一个时空中,我依然是我,依然阴差阳错以语音研究开始了我的研究生生涯,只不过这时是20世纪90年代。经过充分的调研后,我发现大体上有两种研究思路值得注意:一种叫做A,比较主流,效果很好,有一些现成的工具使用;另一种叫做神经网络,本身想法很有意思,但是受关注较少。这个时候看似有两种选择,其实我在这个情景中是没有选择的。

这是因为每个做研究的都是实实在在的人,他们有毕业,评职称,评教授,生活的压力。如果那个时空里的我坚定的选择了进行神经网络的研究,当我们现在回过头来看的时候,可能用1-2年时间,坚持跑完一个足够大规模的试验,也许能发现不一样的东西。但是这又怎么可能呢?导师会给你压力,同行会给你压力,学校会给你压力,而且在这1-2年没有任何结果的过程中,你不可能不怀疑自己,因为研究就是一个在黑暗中摸索的阶段,现在回头看认为曾经需要1-2年,在那样的情景中是根本无法知道的,完全有可能1-2年搭进去什么都没有,3-4年还是什么都没有。这就好像男生追女生,女生奇怪男生追了一半为啥不追了,男生却会觉得连十分之一都不到一样。相比于坚持,放弃换一个方向才是更理性的选择。

所以能够撑过神经网络最黑暗时光的人,一定是极少数抱有绝对信仰的人,比如Hinton, Lecun, Bengio,他们凭借已经取得的成就,在没有来自其它方面压力的时候,才能走下去。这就是为什么这样的人一定很少的原因。

然而回答到这里只是事情的前一半部分。

一件需要意识到的事情是,神经网络,做为一种研究方向,有过这样一种跌宕起伏的发展过程,为什么其它理论就不能有呢?所以很有可能其它机器学习派别在未来再度超越的,这是完全有可能的,这就是科学。

所以,这就是为什么即使到今天,深度学习依然只是一个机器学习分支的原因。依然有人不喜欢它,依然有人愿意坚持自己的方向。这是完全值得尊敬的,也是合理的,因为搞神经网络的人曾经就是这样的一帮人,才有了现在我们看到的深度学习的繁荣。

【LeiShi的回答(192票)】:

题主修改了问题的用语,因此我也附加一点正面答案。

修改之前的问题描述中的体现了一种理论至上的思维,然而这种思维恰恰导致了九十年代神经网络之冬。

科学是一个不断发展的过程。深度学习在现阶段对于其适用性的实践工作还没有走到尽头,正是需要由实验出发去寻找其适用性边界的阶段。等到足够的实验结果能够说明其适用范围,届时理论工作自然会逐渐出现和完善。这个规律在别的学科中也存在,例如物理在18-19世纪也经历过这么一个阶段,并且一定程度上天体物理、高能物理等在现在依旧处于这样的阶段。这一阶段性特点导致了深度学习研究和应用大致两方面的不同:

  1. 偏离传统以数学导向的、保守化的研究方法,培养人才变得困难。
  2. 实践中对资源和代码的需求变强,工程量不可同日而语
这两方面共同导致了目前深度学习人才出产率较低的现实。

偏离传统数学导向的、保守化的研究方法,培养人才变得困难

机器学习的传统理论主要围绕学习过程的泛化(Generalization)能力展开,然而有关泛化能力的理论都是以集中不等式(Concentration Inequality)为基础的寻求”上界的上界"的一个过程,其结果是一种保守统计学的结果。这种保守的统计学结果对于验证传统科学实验来提供可信区间也许是非常合理的,然而用于描述机器学习本身却往往因过于保守而失去了对于模型可行性的合理探索。这种思路导致很长时间(90年代和00年代)机器学习停留在线性分类器的研究中。在这个过程中虽然有例如Boosting算法、核(Kernel)方法等数学上非常漂亮的结果,然而不可避免地机器学习的应用性其实受到了不合理的限制。

深度学习在这方面有着截然不同的思路。尽管泛化能力是一个不可避开的话题,从事深度学习的人大多认为现有的泛化理论不足以描述模型实际应用时的平均状况。在符合科学方法论实验、观察、假设、验证、结论的过程前提下,深度学习的研究以追求实际测试数据集效果为核心,更为大胆探索可行的模型,并且从以神经科学、认知科学为代表的其它学科中寻求启发。这一特点使得深度学习的建模过程成为一个“勇敢者的游戏”,在许多可行的模型中寻找并验证某个有效模型需要一定的创造性,这并不是每个人都做得到的。同时,泛化理论也需要进一步发展来更加贴切地解释实际的应用。

深度学习更加关注“表达”的理论,即什么样的问题需要什么样结构的模型,以及什么结构的问题适合什么样的问题。这一点的理论目前基本处于几乎空白且初步开始的状态。到目前为止从数学和哲学上我们对于表达的基本理解受制于对现有智能体(人类)的模仿中,并没有什么更好的启发知识。这种困难可能最终同逻辑中的哥德尔不完备性定理(G?del's incompleteness theorems)以及物理中的拉普拉斯幽灵(Laplace's Demon)带来的问题类似。如何在这样的条件下敏锐地发现适合表达某些问题的模型因此成为一项十分考验智力的工作。

理论的无效性和缺乏导致了在现有的教育体系下培养深度学习人才的困难。除了一些基本研究原则之外,我们没有办法确切定义和预测这个学科需要什么样的知识,以及这些方法能够通过什么方式应用到什么样的领域。并不是所有的人都适合在这种条件下进行研究和学习的。

实践中对资源的需求变大,工程量不可同日而语

尽管深度学习的研究哲学弱化了对泛化能力可证明性的追求,但泛化能力终究是一个不可绕开的话题。机器学习的实践在一定程度上是表达和泛化互相寻求平衡的过程。由于深度学习的建模更加倾向于对表达能力的探索上,因此我们需要更大的数据量使得泛化能力不成为问题。然而,“大数据”并不是一句空话。获取百万级别的样本数量是一个非常巨大的工程挑战,这在传统理论为导向的研究过程中是无法想象的。这些挑战即包括获取大量的数据量对于自动化的要求,也包括处理实际数据过程中繁琐的数据清理过程,更可能涉及缓存和分块等优化方法的应用。这无一不对从业人员的工程能力提出了更高的要求。这一点的重要性曾经被理论学派所忽略,然而随着研究的进展越来越多的人开始认识到它的必要性。

建模自由性的增强必然导致代码自由度增加,其结果是对现有代码重用能力的下降和对从业者更高的工程要求。为了实现一些崭新的模型,我们可能需要从底层的数值计算出发去一步步把模型构建起来。在这个过程中又有许多的工程问题需要解决,例如数值稳定性(由于计算机表达实数是有限精度导致的各种问题,这是专门的学科)、优化参数的调整(由于优化往往是非凸的,实践中并没有足够的理论指导)以及最终模型是否能够在有效时间内完成运行。这些过程中任何一个环节出错都会导致模型无法训练。理论学者可能往往以一句“调参”来调侃这一过程,但是我相信没有实践过的人是无权评价这个过程中需要的数值知识、对问题的敏锐理解以及解决实际问题的耐心的。

由于数据规模大和模型的自由度较大两方面的问题,训练和寻找最佳模型可能是一个非常耗时的过程。这就导致深度学习的研究往往需要巨大的计算能力。科学发展的另一个基本规律是新的方法和理论往往需要在之前无法实现的规模中才能发现。例如狭义相对论的实验需要物质运行超出常规的速度才能验证,以及发现极度微观粒子的运动不符合经典力学才导致了量子力学的出现。这种实际上需要不断挑战极限的过程体现在计算机学科中就是能够在之前无法想象的计算能力和数据规模下完成任务。可惜现实中并不是所有的人都能够有机会接触到这种规模的计算力。

总之,如果把深度学习的研究过程比作模拟退火的优化过程,假设从业人员是一个随机的初始值,这个目标函数的特点是只有缓慢的温度下降才能得到有效结果。也许退火过程只是一个简易的晶体理论,而实际的退火怎样有效只有炼过钢打过铁的人才真正知道。

【tiananonymous的回答(498票)】:

补充:在看此答案前,请认真阅读同问题下@张翔同学的答案,他的回答相当严谨和精彩。他的回答值得比此回答多得多的赞。

此回答仅限吐槽。

看了很多答案,总结来看中心思想就一个:

神经网络这玩意没理论,大家都是在猜,在蒙,在试,调调参数,试试trick,太low,我们搞数学物理的都看不上, 你们就是运气好赶上好时候,看看过两年你们就不行了。

而事实情况是:

基于神经网络的各种数学模型都太过复杂,复杂到目前的数学工具不能提供有效的分析手段,然而经验上却达到了很好的效果,挑拨了一部分敏感的理论派的神经。

现阶段主流理论派一方面将神经网络的成功归于trick和调参,嘲笑他们没有理论。另一方面,理论派自己却并不具备足够的理论水平来对神经网络进行有价值的分析,与此同时也没有在实践上找到更优的算法。如此讽刺的矛盾是导致很多搞数学物理,统计的人对深度学习看不上却又有点酸溜溜的根本原因。

在很多人嘲讽DL的同时,关于DL的理论工作也悄然在UCB,CIT, NYU,Princeton等学校的某些实验室展开(不要问我链接,如果这些链接你找不到,说明你对DL的了解不足以使你具有足够的水平对其妄下论断),个人认为这才是正确的对待DL的方式。

而机器学习用的都是一些很intuitive的idea。有许多trick,例如loss function, kernel,activation function, back propagation。可是这些东西和狄拉克的bra, ket希尔伯特空间相比,根本就是中学数学。。最复杂的函数可能就是tanh function了吧。这些人肯定是看不懂量子力学的书的,但是做理论物理的人看ml paper不要太容易(起码数学上);
说白了,要拼数学之美理论之妙想搞“高等”数学的人,你们去跟搞代数几何的人拼去,看他们不黑死你的“Dirac Bracket” 和“Hilbert Space”。真不知道会用这几个基本的数学工具就冒出来这么大的优越感然后对着机器学习开地图炮是几个意思,不用提搞纯数的, COLT的人都可以嘲笑你。建议题主随便搜一篇,我是说,随便任何一篇,COLT的paper读一读,看你能读懂不。还有,不好意思,我认识有拿Fields Medal的人就在这被鄙视的机器学习会议上发文章的。

最后套用Yoshua Bengio在Quora关于问题

Does Yoshua Bengio expect traditional statistical learning to triumph again over Deep Learning (or any neural network based methods) soon?

的回答:

Neural networks ARE statistical learning methods.

Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking!

我就是喜欢你看不惯我,却又不得不和我一起深度学习的样子。

【ChenChen的回答(72票)】:

理论上的恰当解释需要高级的数学工具(我听说有人在用代数几何搞的),而且到现在也没有好的成果,所以大家发明新的网络结构或者 trick 的时候,最开始其实是有点随机和盲目的,不够痛快。不过这并不妨碍应用,只是经验的获取变得更加困难了。面对具体问题的各种特征,选择正确的网络结构,合理切入,科学调参,以最快达到最佳效果,这就是 DL 里的学问,是有科学规律的,需要去领悟并形成相应思维。

工程上,由于庞大的硬件资源需求,可以搞大新闻的应用被大公司和高校垄断。另外,开发一个好的 DL 库既需要对算法的理解,又往往需要丰富的分布式系统、GPU 和软件工程方面的经验,门槛不低。现在大家可以随便调个库跑一下完全是他们的功劳。

================================================

下面我要批判曾老师一下:

而机器学习用的都是一些很intuitive的idea。有许多trick,例如loss function, kernel,activation function, back propagation。可是这些东西和狄拉克的bra, ket 希尔伯特空间相比,根本就是中学数学。。
kernel 和希尔伯特空间相比?曾老师你真不是来钓鱼的,还是不小心暴露自己的浅薄了解了?

kernel 可是和 reproducing kernel Hilbert space 一一对应的。

而 Moore–Aronszajn 定理和 representer 定理则说明了 kernel 在什么样的问题里可以用,为何可以这样用。

有你要的数学吧,这已经是最简单的证明了,learning theory 里面精彩的东西多得是。

你还是要学习一个,不要想搞个大新闻。

【ElizChong的回答(8票)】:

在回答这个问题前我希望大家不要掉到此问题的逻辑陷阱里。BoBo你这提问的逻辑实在是挖坑让人跳的节奏。我建议你把“为何DL专家这么急缺”和“DL难在何处”拆成两个问题。因为DL专家数量跟DL本身难度如何相关性并不高,而且也没有因果关系。DL比理论物理简单,不代表做DL的人会比做理论物理的人多。某个学科方向人才的多少,更多的是与其热门的程度,应用的广度,兴起发展的时间长短有关。

你也知道,跟research类似,热门话题总是容易发paper拿funding招到更多PhD。

几个答案看到BoBo说DL没什么难度,就在那撕逼DL的理论到底难不难是不是足够高大上……看得人心好累。工业界首先还是看应用效果的吧,理论之美什么的不能转化为实际应用也闲的,即便是不那么美理论只要好用照样会应用。从AlphaGo就能看出,其用的算法方法基本都是比较成熟的,并没有发明出多么高大上的新理论。工业界因为需要保证可靠与稳定,所以会更多选择已经被反复验证的成熟方法,所以最新的东西反而不会轻易使用。因为这个鄙视工业界用的东西不够高大上,我觉得还是陷在科研的思维里了。即便是再完备的理论,在应用的时候很多细节还是要靠经验和理论之外的东西。从理论到实际应用总是要有个过程。

就我个人的观点,machine learning本身就是个toolbox,了解这些工具并不难,难的是如何用好这些工具做出漂亮的应用。现在缺的是能用好DL解决问题的专家。这类人不仅要懂DL,还要了解需要使用DL的这个领域。了解理论,并不代表一定会理论的应用,一如Dirac造不出量子计算机。

最后想说,个人真的是非常不喜欢学术圈里唯新颖和难度最高的态度,鄙视应用和工程根本不利于理论发展。没有工业进步,做理论照样瓶颈。我bf做高性能计算,给我讲了一个例子:当年一群人搞出一类并行算法觉得高端的不得了,结果出来了GPU把他们算法全秒了……今天我们在这里愉快地玩machine learning而不用像早期程序员那样小心分配内存节约算力,真的是工业发展的功劳。

【高策的回答(33票)】:

1. 没有理论支撑。关于深度神经网络为什么收敛,怎么收敛,如何控制等等内容,都没有成熟的理论证明,所有的结果都是停留在实验阶段,尽管有时候结果很好,然而糟糕的时候是真糟糕。

2. 计算资源。个人(土豪除外)很难负担DL硬件的所有费用,至少需要一个配置不太差的workstation吧,如果做大一点,至少需要十台吧,然而并买不起。说白了就是没钱。信科有钱,然而他们数学不好。。。

3. 时间成本。服务器上训练一个简单的网络时间以天为单位,然后再调参数,结果没出来,先把自己急死了。

4. 数据集。很难有能够填充一个DNN信息量的数据集。不管从数据集质量还是规模来看,能用的数据集太少了,同时很少有人愿意做这方面的工作。很多号称是大数据、深度学习的东西其实都是炒作,好骗投资人的钱。

【王某的回答(44票)】:

难点在于,Deep learning 就是靠自身的复杂度砸开复杂的问题的,而人们最擅长的,分层抽象降低复杂度,对它毫无办法。而计算机科学最厉害的地方就是可以直接蛮力砸开复杂的问题。

再举两个例子:

  • 在有量子力学计算之前,没有人相信 HArF、

    这种物质可以合成出来

  • 在有了计算机辅助设计之前,像大裤衩这种建筑没人敢去修

【流云之语的回答(30票)】:

世界上没有什么优化目标是在NN中多加一层layer不能解决的。

如果有,那就两层。

【张磊的回答(29票)】:

深度学习是一门综合性的偏工程的学科,除了扎实的基础知识之外,更多的是需要极强的工程能力,对问题理解、抽象和建模的能力,以及综合运用多种工具把问题解决掉的执行力。同时,深度学习兴起的时间比较短,很多人才刚刚热门,成为专家还需要一段时间,从而导致当前深度学习 人才紧缺的现状。

首先是数学基础,虽然这块的要求并不需要学的很深入,但基本的了解还是要的,如果能够较为深入的学习,在真正做分析和工程时的帮助也会比较大。如果是在校生,并且有志于深度学习方向,多花点时间在这上面是十分值得的。

1. 线性代数,矩阵和张量的计算

了解标量、矢量、矩阵和张量,对相关的运算(比如加法、乘法、转置等)比较熟悉,知道特征分解和奇异值分解是怎么回事等等。如果有时间,啃点书总没有坏处,比如Linear Algebra (豆瓣) ,和矩阵计算 (豆瓣) 。这两个公开课 可汗学院公开课:线性代数 和 麻省理工公开课:线性代数 ,有空看看也没啥坏处

2. 微积分

微积分应该是大学理工科必须的课程吧,求导是微积分里面最基本的概念了吧,在深度学习里也是基础之一,对其了解是必要的。如果有时间,还是啃书,柯朗的两卷本微积分和数学分析引论(第一卷) (豆瓣) 和 微积分和数学分析引论(第二卷) (豆瓣) 貌似是很经典的,有兴趣的可以啃啃。 麻省理工学院公开课:单变量微积分 和 麻省理工学院公开课:多变量微积分 这两个公开课讲的不错的,偶当年在地铁上看下来的,也是不容易啊。

3. 概率,统计和随机过程

几个基本的分布(如高斯分布,指数分布等)是需要了解的,条件概率之类的也得知道吧,贝叶斯是谁还是得认识一下的,大数定律和中心极限定理能够熟悉熟悉也是有帮助的,如果能够认识下马尔科夫,想来也是有帮助的。手头的书翻了下,貌似有 概率论沉思录 (豆瓣), 还有 随机过程 (豆瓣) 。网易公开课这类课程比较少啊,搜索了下,只有 可汗学院公开课:统计学 这个看起来有点意思(没看过,找个时间瞧瞧去)。

第二块是机器学习的基础知识。深度学习是机器学习的一个分支,由于在图像识别语音识别机器翻译等多个地方的效果卓越而流行起来的。总体上,线性回归是机器学习里最基本也是最常用的算法,直至2015年的时候,Google,百度等互联网公司在广告及其相关项目中所使用的最多的算法依然是线性回归,简单,可解释和高效率是它的最大的优点。其他诸如过拟合和泛化,training,validation和testing等机器学习中最基本的概念也同时是深度学习所必须的。其他诸如贝叶斯网络,svm,nn,k-means,mcmc,sgd,熵,分类和聚类,监督和无监督等算法和概念在大部分机器学习的书籍中都或多或少涉及到。大部头书籍Pattern Recognition And Machine Learning (豆瓣)是最经典的书籍(没有)之一,斯坦福的经典教程UFLDL教程 - Ufldl 涉及到无监督学习和深度学习(与时俱进的比较快), 另外,公开课加州理工学院公开课:机器学习与数据挖掘 看看也会有所收获的。

1. 数据,training, validation和testing

2. 线性模型,classification和regression

3. 贝叶斯网络,SVM,马尔科夫随机场

4. cluster,k-means

5. 神经网络

第三块是编程。纸上得来终觉浅,绝知此事要编程。在一个美帝总统奥巴马都学习编程,美帝监狱都开编程客的年代,一个搞深度学习的编程水平太差,也说不过去吧。同时,深度学习在目前阶段,还是需要很大的计算力来支持的,对于稍微有点规模有点实用的场景,分布式和GPU都是需要涉及到的,编程语言的话,C/C++肯定会涉及,Python估计也无法避免会遇到,java和lua等其他语言会一些则更好,至于世界上最好的语言PHP不会倒无关紧要。这本书 深入理解计算机系统 (豆瓣) 有助于从各方面了解计算机,(特别是非计算机专业的)啃完后会受益匪浅。C和C++的书籍多如牛毛,C程序设计语言 (豆瓣) 和 C++ Primer 中文版(第 5 版) (豆瓣) 这两本书是我的偏好(想当年啃下后一本的时候,还是有点成就感的)。如果能够把 Learning Python (豆瓣) 和 SciPy and NumPy (豆瓣) 啃完,用起Python应该是能够得心应手的。至于cuda(进行GPU计算的),官方资料(https://developer.nvidia.com/cuda-zone )十分丰富,有需要就去看看好了。

第四块是深度学习(这个名字有点奇怪就是,不过都这么叫了,熟了就好了)。在不熟之前还生着的时候,深度学习有另外一个名称叫神经网络(不是神经病网络哦),貌似上个世纪后期的时候就火过一阵,奈何先驱约等于先去的意思,那个时候由于计算机的能力问题,没搞出啥好的效果,让位于一堆其他的机器学习算法。直到201×年,突然间,Hinton,Bengio,LeCun等人依靠强大的计算力让多层神经网络能够很好的运行,并且效果好的令人发指,于是乎大家才想起,原来神经病还能这么玩,然后大家就high起来了。wikipedia上dl的条目Deep learning 编辑的挺不错的,很适合作为入门材料,了解一下基本概念。LeCun,Bengio和Hinton合作的Nature的Review: Deep learning(https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf)应该是必读的文献之一吧,另外Bengio的Learning Deep Architectures for AI(http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf ) 和Schmidhuber的Deep Learning in Neural Networks:An Overview(arxiv.org/pdf/1404.7828)也是了解这个领域的好文。不想看论文的,可以看看这个youtube.com/channel/UC9 (基础+框架介绍)和 这个 youtube.com/playlist?(牛津大学的课程,国外大学的课程真是与时俱进,不知道国内大学是否有开课?)

接下来是不同领域的应用,印象中,深度学习首先是在图像识别和计算机视觉中火起来的,这篇ImageNet Classification with Deep Convolutional Neural Networks(papers.nips.cc/paper/48)是dl在计算机视觉中应用的经典文章之一。自然语言处理方面,当年word2vec(papers.nips.cc/paper/50,)刚出来的时候,让一小撮土鳖大吃一惊,原来nlp还能这么玩。而这次alphaGo(Mastering the game of Go with deep neural networks and tree search: http://willamette.edu/~levenick/cs448/goNature.pdf)则让超越了码农群体之外的一大撮人大吃一惊,原来,围棋也有另一种玩法。

了解完了之后,就开始写代码。早些年呢,需要从0开始一把鼻涕一把泪的搬很多砖才能搞出一个能够work的东西。后来,不知道何年何月为了啥目的,各种开源框架纷纷冒出,现在随便花店心思,就能过搞出一个忽悠人的东西出来。这么些个 GitHub - BVLC/caffe: Caffe: a fast open framework for deep learning. GitHub - tensorflow/tensorflow: Computation using data flow graphs for scalable machine learning GitHub - Theano/Theano: Theano is a Python library that allows you to define, optimize, and evaluate mathematical expressions involving multi-dimensional arrays efficiently. It can use GPUs and perform efficient symbolic differentiation. 和 GitHub - torch/torch7: http://torch.ch 以及更多的各种框架,就任君选择了。至于哪个好用,谁用谁知道。号称码神的jeff dean在韩国汉城的演讲中(youtube.com/watch?),穿着那件TensorFlow的t恤,看起来还是蛮不错的。其实我蛮想知道的,AlphaGo是不是用tersorflow的?如果不是,为嘛不用?

第五块是领域知识,随便列举,有空的时候整理一下我自己做过的一些内容。

比如alphago,aja huang是业余6段的水平;

比如之前有个同事做色情图像识别,貌似天天看图片看到吐啊;

比如想在金融领域玩玩的,对金融也是得有所了解的

其他内容,貌似只能写写段子的部分了

问题的理解、抽象和建模

执行力

勤奋

上述几个方面要(都)做的好的,算算人数也不会太多。而能够都做的好的,还不一定去干深度学习这事,比如有些人抱着白富美去做人生赢家去了,有些人游山玩水到处自拍显摆去了,剩下的也就寥寥无几了。

看到这里的,数学还不错,编程水平又比较高,人也聪明并且勤奋的,如果还闲着的话,欢迎私信我啊。

写着写着变成一个教程了

【大湿的回答(4票)】:

难在没钱买机器。

一卡车GPU不是说买就能买的。

【许尘的回答(21票)】:

恰恰相反,是我们目前的数学还不足以理解、处理nn这类复杂系统,以至于只能靠trick。

有兴趣可以去看看Bengio最近的关于STDP的论文,已经开始研究人脑智能与dl之间的联系。也就是说,真正解决了dl的数学问题,实际上也就解决了人类智能从何而来,这是可以比肩牛顿、爱因斯坦的贡献,而且我相信不会完全由某一个科学家完成。

Bengio这样的人已经盯着这人类科学史上最后的圣杯,而大部分普通人连其背后的意义都不了解,有意思。

【胡瞬一的回答(39票)】:

深度学习需要的数学基础(凸优化,数值分析,矩阵分析,统计推断,概率图)把99%的程序员学生挡在了门外;

C/C++,CUDA/OpenCL,计算机网络和体系结构,大规模并行系统的门槛又将纯数学背景的限制在了只能用matlab写点两三层几千维神经网络的实验小程序上,而数据量不到100G深度不到五六层维度没有十万根本感受不到深度学习的可怕威力。

所以两个知识的交叉领域还剩多少人?我估计全中国具有可实用深度学习知识的人应该只有300个左右。

【野忍野的回答(9票)】:

看到这是曾博提的问题。。。

ml研究是有难点的。但是,cs大部分方向的研究都分为理论和应用。理论研究一般都有难点,应用研究普遍都不难。

曾博在题目中提到的大部分内容,主要还是教科书内容(曾经的研究前沿),现在的研究前沿和难点往往更加深入。题目中指的“而机器学习用的都是一些很intuitive的idea”,在我看来其实指的往往是那些偏向应用的paper。

deep learning现在的研究大部分偏应用(我没觉得有啥不好),相对于理论研究,门槛会低一些。关于,题目中问道的“专家如此急缺,它难在何处?”,我觉得不是难在何处的问题,仅仅是大量花时间熟悉DL tricks这类人 和 实际需求之间的不平衡而已。

关于题目描述中提到的最后一个问题“deep learning,难点究竟在哪里呢?”,个人比较赞同第1和3点,数学证明对于研究太重要,新的intuitive的trick就是DL能发展的根本。

【feelworldzjw的回答(3票)】:

恰恰相反,我认为稀缺的不是某一个学科的人才,稀缺的是,有能力去归纳总结并能用在应用上的那些少数精英人才。而这些人才,不只是单单dl方面稀缺,往往任何一个当代学科都会碰到这个人才瓶颈。

常言道隔行如隔山。形式化下隔行看问题,如果把问题看作一个高维向量x,在学科A的理解下,可以得到这个问题的一种描述方式,其实就是x在空间A的一个投影。同样可以得到同一个问题在不同学科(空间)下的描述(投影)。

如果我们在隔行看问题的时候,能够正确地处理两个不同学科AB(空间AB)的差异,自然就不会出现误差了。然而实际上,大家只会寻找两个学科的交集来去做所谓的认知。自然而然就有了误差了。

诚然,机器学习中,很多模型,很多算法的底层思维,思路,很简单。有一些东西,比如正则项,比如平滑,感觉上不那么科学靠谱。但是一旦从别的角度去看待这些问题,可能就会嘲讽“你看这些门外汉”了。

我其实是个很严重的实用主义者,我并不在乎,这个算法的数学原理多高超,我也不在乎这个算法的实(tiao)现(can)难度有多大。只要有效,我觉得工作量再大也是值得的。有些东西,比如神经网络,我真的说不清楚,为什么学习之后这家伙能够那么强,我有时甚至都不敢保证他学习的收敛性。但是如果大家的实验结果都是收敛的,或者说如果按照一个一定步骤来操作几乎会得到一个熟练的模型,那我认为,如果有人能够告诉我们,满足这些条件收敛,或者告诉我们满足这些条件不收敛,那他必然是这个学科的一个小救星了。而成为救星并不容易,可想而知他的知识水平和应用能力达到了何等的水平。

【Abel.S的回答(15票)】:

我认为深度学习人才急缺只是个时间问题。深度学习真正从学术界走到人们的视野中,主要是通过ImageNet竞赛和最近AlphaGo的普及,之前对深度学习抱有怀疑态度的人大有人在。参见:

这一波人工智能泡沫将会怎么破灭? - 深度学习(Deep Learning)

深度学习重新在学术界火起来大概可以追溯到09、10年,人们给与深度学习发展的时间还太少了。只要再多一点时间,相信会有越来越多的人加入深度学习的大潮。

以我个人的经验来看,深度学习其实入门的门槛并不高,只要对机器学习算法有较好基础都是容易转行过来的。难处在于这是一门非常具有应用性的学科,读一百篇论文可能还不如自己实现个ConvNet和LSTM理解得更深入。而硬件是其中很重要的一个制约因素,跑个深度学习的实验可能往往需要多台机器或者GPU,而很多入门者可能并不具备这一基本条件。

有必要纠正下深度学习就是调参的说法。我不否认调参的重要性,但是单纯靠调参是远远不够的。调参党可以自己去读读近些年来在NIPS, CVPR, ACL, EMNLP等各领域顶级会议上发表的deep learning相关论文(arxiv还没发表的不算),可以说绝大部分论文要么是在模型上有所创新,要么是把深度学习用在了一个全新的问题上,单纯靠堆机器堆深度搭框架来提高性能的论文我还没怎么读到过。比较赞同 @Naiyan Wang的说法,无论是深度学习,还是机器学习或者其他算法也好,本质上都是对问题的深度理解从而解决问题。工具可以有千种万种,但是问题本质不会变。

一方面,我觉得大家完全没必要把深度学习神化,它和以前出现的很多学科和方向一样,都只是计算机科学用于解决问题的一个方法,没有那么难也没有那么遥不可及;另一方面,做理论的也没必要去鄙视深度学习调参的做法,这本来就是一个偏应用的学科。最后,先飞的鸟儿有虫吃,对深度学习有兴趣的不妨早点出发。

【roylyly的回答(10票)】:

学科之间的断层,基础数学/应用数学/物理学/大科学计算/计算机系/业界程序员之间长期积累的断层迎来了总爆发,造成了现在的AIA(AI Administrator,类似DBA)紧缺。

当数学系退化到基础数学/应用数学老死不相往来、物理系退化到Mathematica和Matlab、统计系退化到Python和R、CFD退化到FORTRAN和ANSYS,各自方言不通的时候,计算机系和业界程序员除了调参还能得到多少理论支持?现在这一天迟早会发生,没想到这么快就发生了。

不仅Google有新玩具,SpaceX也有新玩具

欧拉方程求解是否比N-S方程更加困难?如果是,为什么? - 浪客的回答

而且与以往情况不同,深度学习需要大工业级别的物质基础才能良好运行。物理系转行程序员通过选修双学位和自学,进行工匠和游侠式单打独斗的历史结束了。

火药和机床发明之后,中世纪经院哲学和小作坊过时了、搞科举的王朝被彻底击溃。深度学习这一代兼具软件复杂度和数学高深度的的大型算法发明之后,现有大学制度(和App小公司?)也过时了。

这是真正的第四次工业革命,人类却接受不了,像当年最后的工匠和武士一样把它当妖魔鬼怪。一面拼命找“第四次工业革命”、“工业4.0”的项目投资,一面担心被AI淘汰,而不能利用其机遇。

现在怎么办?估计在大学反应过来之前,各个互联网巨头会像十几年前DBA紧缺的时候搞MCSE、CCNA一样搞出一套认证和教材,再结合数学物理的MOOC课程搞出一套商业模式,连服务器算力和课程一起打包收费。当年的名牌大学可以不鸟这些技校生的认证,这次做不到了。

人类根本的竞争力要靠自己、靠教育。

无论AI的挑战还是中产阶级生养不起、民族出生率不平衡之类社会问题,都属于这个问题的衍生物。至于把教育当作阶层划分和流动的工具而牺牲教育本身的效率,更加在作死。解决了教育效率问题的社会,冲出地球开垦太阳系。解决不了教育问题的社会,在停滞中走向半封建半殖民地、族群撕裂和战乱。

【烟雨江南的回答(5票)】:

深度学习本身不懂╮(╯_╰)╭只能从宏观角度说说看了。

乃们这些老板啊!不要总说人才难得!

乃们这些老板啊!不要总说人才难得!

乃们这些老板啊!不要总说人才难得!

人才是不是需要时间精力财力去培养的?你们哪个认真培养人才了?想起来了什么玩意赚钱赶紧满大街找,找不到就挖墙脚,挖不到又感叹你国定体问!当买大白菜啊?!随手一把就能抓来?

搬砖党们自己想想看,你所在的公司有多少定向培养?公司内部培训制度认真贯彻的有多少?是不是大把的机会都被工作忙,没时间给顶掉了。本来晋升这个事儿就是领导说了算,制度说了算。

制度说,你必须学习这个那个,结果领导说现在项目紧张啊,你去参加培训,活儿谁干?小李那边一大摊子事情,小张整天加班到八九点,你把活儿给人家?要不我帮你干?你去培训?

有人才,也因为各种死板制度给坑死了。HR说非211.985毕业不给机会。话说每年你们HR能招几个进来?三年后还在的有几个?刚上手掉头就走的占多大比例?其他人呢?因为若干年前一纸学历终生只能在那个岗位做。就算兢兢业业也是干到科员基本就到头了。若是哪个车间出来的,一路靠自己努力运气登上中层,也要被大书特书。

你看!我们不是没有晋升管道,是你不努力!我嘞个去!那个管道怎么运作的好意思说吗?要不是半年多HR招不到相应的人,能外招改内招?能从内招改提名?要不是提名时候刚好就剩真么一个资历老的,同一批走的七七八八轮得着他?隔壁赵经理小舅子盯了好久了好吧?

你再看那个所谓关键岗位。需要行业五年工作经验,985.211毕业研究生,最好有留学经历,流利外语水平可直接和外国专家交流,处理实际问题。

尼玛!这要求在你公司一个月6K不管吃住你以为谁愿意来?就你这要求人家早就做经理去了好吧?真以为老子天下第一,福利堪比谷歌,工资堪比微软,遍地美女成家立业完全不是问题?

补药碧莲!

强推一发公众号:

【MC等灯邓的回答(14票)】:

我觉得难点目前还不到数学,因为我们连模型为啥能工作的直觉都不靠谱,更不用谈数学上的。 深度学习新进的技巧或多或少都同以前的某些理论工作相联系,如果以前的理论都有瓶颈,后期移植到深度学习也是昙花一现。 还有一些技巧是针对某类问题,数据提出的,这种技巧,个人觉得硬要抽取其数学或者本质,可能带有狭隘性。

至于为何缺乏人才,大抵,深度学习的学习过程目前很难像普通程序员一样在野完成升级,这个行业需要相当的资源和环境才能过门槛。

直白点这么说吧,即便我拥有500x 酷睿,80x k20gpu的vip权限,提交任务从来不用排队,以及5年粒子物理的数学功底,3年计算物理的数值经验,开源软件,计算化学训练出来的代码能力,我也不认为我能1年内能转行,获得这方面较好职位的基本要求。

做下去,就知道复现高手的结果都相当费功夫和经验的,论文定方向就要时间熬,还不说大量细碎的benchmark测试。

其余转行的,可以参考一下其难度,压根不是数学上会不会,难不难的问题。我目前都不敢在简历写熟悉两字。除非,节操都不要了。

新闻聚焦
热门推荐
  • 低俗靡乱!喜宴竟充斥惊艳脱衣舞表演

    中新网12月7日电 据台湾《联合报》报道,桃园县内喜宴、庙会、社团、晚会充斥钢管、清凉秀、脱衣舞,县议员舒翠玲以自己参加的场合为证,当场看见辣妹和客人磨蹭,甚至指导单位是“桃园县政府”、“公所”的活动也如......

    01-13 来源:未知

    分享
  • 《我是特种兵之霹雳火》崔华盾扮演者张进个人资料及照

    《我是特种兵之霹雳火》崔华盾扮演者 本篇电视资讯由未必孤独网(www.vbgudu.com)独家整理,如有转载请注明出处。 曾经同是“特警小虎队”一员的李飞和张进这次将重新在《霹雳火》中集结,并且再度并肩作战。 由李......

    01-13 来源:未知

    分享
  • 郎永淳老婆吴萍患肿瘤赴美疗养 郎永淳近况

    郎永淳温馨全家福 央视新闻主播郎永淳虽然在电视上天天与观众见面,因播报新闻成了公众人物,并拥有了很多的粉丝。但生活中的郎永淳却十分很低调,不仅从未谈及过自己的私生活,就连他的另一半及孩子也未被曝光过。......

    01-13 来源:未知

    分享
  • 《我是特种兵之霹雳火》王星扮演者李飞个人资料及照片

    《我是特种兵之霹雳火》王星扮演者李飞 本篇电视资讯由未必孤独网(www.vbgudu.com)独家整理,如有转载请注明出处。 《我是特种兵之霹雳火》作为刘猛导演特种兵系列的第四部作品,自筹划以来就备受网友关注。承继着......

    01-13 来源:未知

    分享
  • 梦鸽:为孩子做什么都不为过 李案会造成世界影响

    梦鸽(资料图) 李某某等涉嫌强奸案从2月份发酵至今,持续半年,热度不减。作为被告李某某的监护人,梦鸽放下红色明星、部队歌唱家的尊严,发布声明、反诉、上访,走进长枪短炮的包围圈,代替独子站在第一线。 为了......

    01-13 来源:未知

    分享
  • 雷!彪悍美女竟在大街上做超不雅动作

    ......

    01-13 来源:未知

    分享
  • 孙俪微博拍卖老公邓超的爱裤,邓超与孙俪感情好不好

    今天我们来盘点一下娱乐圈的模范夫妻。孙俪和邓超是娱乐圈有名的模范夫妻,两人相爱至今都没有穿过其他的绯闻,而在邓超走向逗比之路的过程中,娘娘孙俪也开始受到影响,近日邓超在网上晒了一张与孙俪的另类合影,网......

    01-12 来源:

    分享
  • 巩俐与孙红雷谈过恋爱吗?巩俐孙红雷主演的电影是哪部

    从绯闻女友巩俐、左小青,到王骏迪,孙红雷绯闻伴随走红。在《窈窕绅士》发布会上,孙红雷大晒幸福,并直言,“我现在还不会和女友公开亮相,以免被人说我在炒作。”被问及是否有意结婚,他说,“谈婚论嫁对我来说不......

    01-12 来源:

    分享
  • 曝盛一伦喜欢骂人成瘾,盛一伦同性恋是真的吗?

    子妃升职记不仅火啦张天爱,也让男主盛一伦踏进拉娱乐圈。盛一伦被曝骂人成瘾 骂人聊天记录图片,近日,盛一伦将东家乐漾影视诉至法院,索片酬1051.5万元,朝阳法院已受理此案。12月12日,盛一伦发长文回应解约风波称......

    01-12 来源:

    分享
  • 北京学生卡坐地铁打折吗?北京现在有几条地铁?

    北京的物价使出拉名的贵,许多北漂为啦省钱想尽办法。近日,在北京部分地铁站周边,出现贩卖“”的卡贩子,100元就能办一张大,还送学生证。新京报记者探访发现,从卡贩子手中购得的,能顺利充值并可享受2.5折优惠。......

    01-12 来源:

    分享
返回列表