谈及计算机视觉领域的青年领袖,中国直播网,应该没有人比李飞飞更有代表性。作为斯坦福大学计算机系终身教授、Google Cloud首席科学家,李飞飞已然引领着学术界和产业界密切结合的探索新方向;而其作为一位女性的角色,又让她在人工智能多样性的探索中有着自己崭新且不同的视角。
在1月15日,未来论坛2017年会暨首届未来科学大奖颁奖典礼上,李飞飞作为人工智能领域的代表,发表了题为《视觉智能探索(The Quest for Visual Intelligent)》的主题演讲。演讲中,李飞飞从生物领域视觉的出现开始娓娓道来,进而阐述了计算机视觉探索过程中的四大视角:从孩子成长、大脑发展、技术从业者、教育者和母亲的角度,如何看待计算机视觉和人工智能。
演讲的最后一个部分,李飞飞提出了这样的问题:人工智能AI会改变世界,但这里真正的问题是,谁会改变AI?由此,她鼓励人工智能多样化的发展,让更多人更多元的文化参与到相关研究和产业中来,这样我们会看到技术发现上的大爆炸,使我们的世界变得更好。
以下内容基于李飞飞演讲(原演讲为英文),在不改变原意的情况下部分有删改:
今天我想跟大家分享一下计算机视觉方面最新的进展。
大概5亿年前,一些非常简单的生物生活在海洋中,捕获猎物、或者成为别人的食物。动物世界在当时非常简单,只有一些简单的物种存在,后来可能是出于偶然或者“上帝之手”,某种生物衍化出了第一双真正意义上的“眼睛”,这时的眼睛还很简单,就像我们最初最简单的照相机一样。
视觉的出现让生物世界大不一样:生物物种变得更加有活力和积极,捕猎者可以自发进攻,被捕猎的生物也会寻找更隐蔽的地方躲藏起来,避免自己成为它人的食物。
在很短的时间内,生物物种数量以惊人的速度增加,这也是视觉发展的一个结果——寒武纪大爆发。寒武纪大爆发之后,视觉就在动物中发挥着非常重要的作用,帮助它们寻找食物、帮助它们躲避敌人等。作为人,我们也是一样的,我们也用视觉支持我们的生活、我们的工作、我们的交流,让我们更好地了解世界。
人类社会还处于“失明”状态
事实上,在5亿年的进化之后,视觉已经成了我们人最重要的感知系统,我们的大脑中有一半的功能都是和视觉系统联系在一起的,动物们大概在5.3亿年前就看到了世界的光明,而对于我们的机器和计算机来说,整个世界还是黑暗一片。
尽管,目前到处都是监控器,但是当一个孩子在泳池溺水时,机器并不能提醒人类;目前每一分钟我们都有成百上千万小时的视频上传到YouTube或者Facebook的服务器上,但是我们仍然无法根据内容进行视频搜索;现在无人机可以在非常广的范围航行,但我们还无法根据无人机拍摄的图景标记出地球环境。总而言之,人类社会还处于“失明”状态,因为即便是最智能的机器,目前还没有视觉能力。
一个小目标:让计算机视觉 为数字世界带来光明
作为计算机视觉的科学家,我们希望使用能够学习视觉世界的人工智能算法来识别图像和视频,我们有这样一个小目标,让计算机视觉为数字世界带来光明。
为了实现这样一个目标,首先我们要教计算机识别物品,也即世界最基本的组成部分。简单来说,给计算机看某个物品的训练图片:比如说我们可以把一只猫放到电脑中去,让它识别,然后我们会建立一些数学模型,人可以为猫写出一组公式来,中国直播网 ,让电脑识别它,这就是我们最初做的尝试。
我们想要把一个物品的不同部分分离出来,然后用非常简单的几何模型,数字模型,模拟模型来做“cat model”,很直接的把它变成一些圆形、三角形等,让电脑更好识别出放在它面前的是什么样的东西。
但是不同的猫在不同的图片中都有所不同,所以是否每次都要重新设计一个模型,让电脑能够识别出不同姿势的猫?为了让不同的猫都能被计算机识别出来,我们需要设计无数的模型。所以很多年来我们都想找到一个非常神奇的数字模型,它能够满足不同的猫的变形体。
孩子学习的启发:从大量数据中学习
八年前,一个很简单但重要的事情然我的思维得到了非常大的改变,那就是从孩子学习的过程中得到了灵感,因为我们并没有告诉一个孩子你要怎样认出一只猫,我们没告诉他猫是这个样子,哪里是三角形、圆形,他们只是靠经验学习。如果我们把孩子的眼睛看作一对最简单的生物照相机,他们每秒钟可以拍照5次,到3岁的时候,孩子们已经看过了成百上千万张世界各样的照片。所以,在我们找到更好的算法之前,我们需要给计算机进行像孩子们大脑发育时期一样的训练,也即是给计算机比目前领域内所使用得多得多的训练数据集。
我们花了很多时间来做这项研究。我和普林斯顿的同事一起在网络上找到了很多图片、很多数据,我们用了成百上千的图片构建这套系统。在三年的辛勤研究后,2009年我们终于做出了这样一个体系,其中包括1500万张图片和22000个不同的单词门类,都是我们日常见到的,从数量和质量来说,这个系统在计算机视觉和机器学习方面都是前所未有的,我们也因此在解决计算机物体识别这个问题上,比以往任何时候都准备充分。
从孩子的角度,我们获取了宝贵的第一课,从大量数据中学习。
来自大脑的灵感:卷积神经网络
这一图片库提供的丰富资料也完美适配卷积神经网络,这是最初由70、80年代代科学家们开拓的一个领域,其灵感来自大脑。
就像我们的大脑一样,卷积神经网络有成百上千个“类神经元”单位互相连接在一起。
这是一个非常经典的放在电脑上的神经系统,它大概有2400万个节点,1.4亿个参数和150亿个接口。
拥有这么庞大的信息的图片库,卷积神经网络算法以难以预料到的速度迅速发展了起来,也在物品识别上给我们带来了一些非常振奋人心的结果。
电脑告诉我们这张照片里有一只猫,这个猫在那里;这边是计算机告诉我们,小孩拿着他的泰迪熊。我们看到的物体都比较小,但电脑还是能够识别出来。
截止到目前,我们都一直专注于教电脑怎样识别物体,就像小孩学最简单的单词一样,这只是第一步,小孩很快会进入下一阶段的发展,那就是用句子交流。
所以要教电脑看懂图片,并且用一句话来描述它,我们其实需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一句具有意义的句子。
又经过一个阶段的努力研究,大概是一年半以前,我们成为了第一批通过深度学习让电脑在看到图片后告诉我们一些信息的实验室。
#p#分页标题#e#
之后我们把图片获取的能力和视觉识别结合起来,我们发现针对一张图片,计算机其实可以生成很多句不同的话,能够提供给我们更多信息。这是我们最近的一项工作,大概是一年半之前出版发表的,电脑能够在一幅画中整理出非常多的句子。
我们也在近期提交了另外一篇论文,这篇论文中提到,计算机能够用算法生成出完整的自然段。
得到大脑的启发之后,我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测,
这是从人脑这个视角得到的启发。
特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.zhibotv.com.cn。