当前位置:主页 > AI智能 > 人工智能的缺憾

AI智能:人工智能的缺憾
作者:星鸿彩  发布日期:2018-12-18   浏览:155

对于人工智能的发展最近一直有一些思考,抽空整理下来,算是抛砖引玉吧。欢迎指教讨论。

人工智能的缺憾

图源:图虫创意

人工智能的崭新范式

  人工智能的研究范式和数理科学截然不同。这种范式数据导向,非常工程化,方法论发达而认识论不足。首先我们谈数据导向。李飞飞老师的ImageNet项目是一个非常典型的例子。海量图片的收集,整理和标注,有巨大的工作量。在这些高质量数据基础上进行了世界范围的图像识别竞赛,参赛队通过构建规模更大的深度学习网络,表现迅速超过了传统算法,这也成为深度学习标志性的成就。其基本的工作流程是积累大规模数据,得到更深的网络模型,实现更好的表现。虽然现在我们有了更多不同种类的深度网络应对不同任务,但这一基本框架并没有本质的改变。在该框架中,数据收集几乎占据了最为重要的位置,若数据质量不过关,很容易造成所说的garbage in - garbage out。而数据集大小是影响深度学习效能的重要因素,一般认为,当数据集较小时,深度学习不一定优于传统机器学习方法。而随着数据集规模的增大,传统机器学习算法的表现很容易饱和,深度学习的表现却可以随着网络规模的增大而更加优异。

  在传统数理科学领域,我们并没有如此依赖数据来进行模型构建。可能由于人脑思维能力的限制,人们更习惯于从简单假设出发,利用逻辑演绎或者公式推导来构建一套模型系统,用以解释实际数据。数理科学存在利用大量数据的情形:比如开普勒从第谷得观测数据中也找到了特定的结构,不过这种结构不是用神经网络的方式来描述的,而是采取了数学上更为简洁的形式。而该规律只有纳入牛顿力学的框架的时候才成为一个自然的结果。现在观测手段更加进步,据说LHC每秒可以产生100万亿字节的对撞数据。但这些数据不是为了导出模型,而主要是为了验证只有几十个参数的人为构建的标准模型,其包含的信息量也没有超过这个模型。在很多时候,理论的提出或者发展,可以用到很少的数据,甚至几乎不用数据。伽利略构建其运动学的时候,应该只依据很少的观测。而泰勒斯提出原子理论的时候我相信是没有什么观测数据的。理论的魅力在于可以从人的经验,思维或者直觉中生产,具有内在的简洁性却能解释大量的现实观测。

  对数据的内在追求,导致人工智能研究中有很多重劳力的部分。和产业的结合,资本的进入进一步放大了这一效应。国内人工智能创业公司不断涌现,数据标注俨然已经成为一种新的职业。已经有不少相关的报道,比如可以参考甲子光年的《那些人工智能背后的人工》一文。这些人每个月拿着4000左右的工资,在电脑前机械的点着鼠标做图片标注,得到的数据最终用于无人驾驶项目。还有很多下到村里收集人脸识别数据的,报酬是洗衣粉或者豆油。即使是科学研究逐渐资本化的今天,也很难想象一门学科可以像这样直接催生新的劳动关系。这也部分由于我们要谈的第二个问题,也就是人工智能研究非常工程化。

  如果上过吴恩达老师的深度学习课程,就会发现,深度学习在工程上非常先进,具有一套非常清晰的工作模式。对于一个深度网络模型,那些参数具有最大的影响,如何通过表现判断调节参数的方向,人们有着丰富的经验。最终决定表现的还是数据质量,规模,以及特征(feature)选取。这就导致了人工智能领域的工作,非常容易scale-up,也就是规模化。这也是硅谷最喜欢的发展模式--通过资本催化迅速实现技术飞越和革新。类似的模式造就了我们熟悉的facebook,amazon,现在的互联网移动互联网世界。

  在数理科学领域,我们不能简单通过积累用户或者数据获得革新。一般情况下,理论的发育程度对应了工程范畴的发展程度。新的工程实践可能要求理论的创新,而理论的进步又可以拓展人们进行工程化创造的能力。没有爱因斯坦的质能方程,我想人们试再多年,有再多数据也不会造出原子弹。所以人工智能可以算是一朵奇葩,感谢计算能力的巨大发展,它工程的发展程度已经可以跟理论脱节。这种缺乏理论或者认识论会带来比较严重的后果,我们后面会有所述及。

人工智能没有催生理念的进步

AI智能 大数据 物联网 新科技 城市资讯
Copyright © 2012-2018 版权所有  亚洲城娱乐_亚洲城国际娱乐_ca88亚洲城游戏官网 网站首页 | 网站地图1 | 网站地图2