Facebook 正在研究新型 AI 系统,以自我视角与世界进行交互
编译 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
你是否能想象 AI 以第一人称视角来理解世界是什么样的呢?
未来,以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍且有用。
想象一下,你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒,知道你完成一个食谱;帮助你找到丢失的钥匙,或是像全息图一样在你的记忆中重现。
为了构建这些新技术,人工智能需要像我们一样,可以从第一人称的角度理解世界并进行互动。在研究界,通常称为以自我为中心的感知。
然而,今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习,而相机只是动作的旁观者。
Facebook AI 推出 Ego4D
近日,Facebook AI 宣布推出 Ego4D,这是一个雄心勃勃的长期项目,为的就是解决以自我为中心的感知领域的研究挑战。
研究者汇集了一个由 9 个国家的 13 所大学和实验室组成的联盟,他们在野外收集了 700 多名参与者的日常生活,超过 2,200 小时的第一人称视频。
Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员,以大幅提高公开的以自我为中心的数据规模,使其在录像时间方面比任何其他数据集都大20倍以上。
AI 也可以体验第一视觉
Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示,今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。
就像是,将计算机视觉系统绑在过山车上,即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的,但是它也不知道它在看什么。
为了让人工智能系统能够像我们一样的方式与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式,”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下,通过人眼理解日常生活活动。”
Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。
例如,“我把钥匙放哪儿了?”“手机在哪里?”“有看到我的充电线吗?”这种场景别提有多熟悉了,几乎每天都会上场。
Ego4D 的第一个基准挑战是情景记忆(Episodic memory)。
关键就是什么时候发生的?AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。
你可以问 AI 助手各种各样的问题,例如:我把孩子最喜欢的泰迪熊放哪儿了?
下一步就是进行预测:接下来可能会做什么?
人工智能可以理解佩戴者的行为会如何影响这个人未来的状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会从事什么活动。预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这样AI系统就可以在当下提供有用的指导。
例如,就在你想要再次准备向锅里加盐时,你的人工智能助手会赶紧通知你“等等,您已经加盐了”
第三个挑战基准就是手-物之间的互动(Hand and object manipulation)也是难点和关键的一步,因为AI需要理解在做什么,如何做?
学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互,识别抓取,并检测物体状态变化。这种推动力也受到机器人学习的推动,机器人可以通过视频中观察到的人们的经验间接获得经验。
因此,当你在烹饪一份食谱时,AI 助手可以指导你需要哪些配料,需要先做什么,了解你已经做了什么,指导你完成每一个关键步骤。
人类可以用声音来理解世界,未来的人工智能也要学会这种视听记录(Audio-visual diarization)。
如果你正在上一堂重要的课,但因收到的信息而分了心,你可以问AI:“教授把我们的试卷收上去之后,课堂讨论的主要话题是什么?”
这个就是第四个挑战基准 - 视听分类
我正在与谁互动,如何互动?例如“如何在嘈杂的地方更好地听到别人说话的声音”
社会互动(Social interaction)是 Ego4D 的最后一个方向。
除了识别视觉和声音提示外,理解社交互动是智能 AI 助手的核心。一个社交智能的 AI 会理解谁在和谁说话,谁在关注谁。
所以,下次参加晚宴时,即使再嘈杂,AI 助手可以帮助你专注于桌子对面和你说话的人在说什么。
以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块,这将让 AI 不仅可以在现实世界中理解和互动,还可以在元宇宙中进行理解和交互,构成更有用的 AI 助手和其他未来创新的基础。
解开真实数据集
基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的 CV 系统几乎可以识别图像中的任何对象,它是建立在数据集和基准(例如 MNIST、COCO 和 ImageNet)之上的,它们为研究人员提供了一个用于研究真实世界图像的试验台。
但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。
为了构建这个数据集,每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器,以便他们能够捕捉第一人称、无脚本视频。日常生活。
参与者从日常场景中录制大约8分钟的视频片段,例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。
Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容,用手或是面前的物体做了什么,以及他们如何以第一人称视觉与其他人进行互动。
与现有数据集相比,Ego4D 数据集提供了更大的场景、人物和活动的多样性,这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。
Ego4D 及以后的下一步是什么?
Facebook AI 试图通过 Ego4D 项目打造一条全新的道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。
随着人工智能对人们正常生活方式有了更深入的理解,它可以开始以前所未有的方式对交互体验进行情境化和个性化。
Grauman表示:“Ego4D 使人工智能有可能获得根植于物理和社会世界的知识,这些知识是通过生活在其中的人的第一人称视角收集的。”“由此开始,人工智能不仅会更好地了解周围的世界,有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯,或者为你的下一次家庭旅行指引路线。”
有了 Ego4D 的基准支持,配合上在全新数据集中的训练,AI 助手有可能以非常独特和有意义的方式提供很多的价值,例如,帮助回忆起最近与同事交谈中的关键信息,或者指导制作新的晚餐食谱,新的宜家家居等。
Facebook 表示,从这一系列工作中获得的价值将推动我们走向未来的现实。
玛丽皇后大学的人工智能研究员Mike Cook认为,“从积极的角度来说,至少就目前而言,这是一个非常棒的大型数据集。”
“但,这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但是......他们向它注入资金并不意味着它一定会变得重要。”
参考链接:
https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/
https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/
本文由AI科技大本营翻译,转载请注明出处。
在评论区留言你对本文的观点
AI科技大本营将选出两名优质留言
携手【北京大学出版社】送出
《机器学习入门:基于数学原理的Python实战》一本
截至10月25日14:00点
往
期
回
顾
大会
腾讯、阿里、字节是这么做数据的?
资讯
微软、英伟达联手推出最大语言模型
大赛
API 大赛决赛名单出炉!
技术
ST-GCN 实现人体姿态行为分类
分享
点收藏
点点赞
点在看
相关文章:

docker-2-简单使用docker-ce
安装请看docker-ce安装文档 docker命令合集 参考docker --help 选项 -D 使用debug模式-l 日志级别(有debug|info|warn|error|fatal),默认info-v 显示版本管理命令config 管理docker配置container 管理容器image 管理镜像network 管理网络service swarm 常用命令atta…

Apache启用mod_expires模块
mod_expires可以减少10%左右的重复请求,让重复的用户对指定的页面请求结果都CACHE在本地,根本不向服务器发出请求。 在使用之前,首先要确认一下”mod_expires”模组是否有启用.如果是自己安装Apache来架设网页主机的话,这里我们可以透过编辑Apache的”ht…

用 Pyecharts 制作炫酷的可视化大屏
作者 | 俊欣来源 | 关于数据分析与可视化前两篇Pyecharts的文章来帮我们简单的梳理了一下可以用Pyecharts来绘制哪些图表之后,本篇文章我们用pyecharts里面的一些组件,将绘制的图表都组合起来首先Grid组件首先介绍Pyecharts模块当中的Grid组件࿰…

compass安装使用960 Grid System
960 Grid System 是一个CSS的页面布局框架 demo: http://960.gs/demo.html 前提:安装Ruby 、NodeJS 步骤1:在命令行下安装css插件: gem install compass-960-plugin 步骤2:创建my_project项目: compass create -r nin…
C语言竟成TIOBE年度编程语言候选!苹果iPhone 7卖得最好!
每年这个时候,都是TIOBE榜单评选年度编程语言的时候。今年,Kotlin成为竞争的热门,让人意外的是,C语言居然也成为了候选编程语言之一。自从被Java摘走王者桂冠,C语言几乎是处于持续下滑状态,没想到2017年竟然…

奇怪吸引子---QiChen
奇怪吸引子是混沌学的重要组成理论,用于演化过程的终极状态,具有如下特征:终极性、稳定性、吸引性。吸引子是一个数学概念,描写运动的收敛类型。它是指这样的一个集合,当时间趋于无穷大时,在任何一个有界集…

简介+原理+绘制,详解 Python「瀑布图」的整个制作流程!
作者|黄伟呢来源|数据分析与统计学之美简介瀑布图,由麦肯锡顾问公司所独创的图表类型,因为形似瀑布流水,所以被大家称之为瀑布图(Waterfall Plot),在企业经营分析、财务分析中使用较多,用以表示企业成本的构成、变化等…

Ubuntu 忘记root登录密码的解决办法
2019独角兽企业重金招聘Python工程师标准>>> 之前做了个虚拟机,最近需要用到,密码忘记了,下面是在忘记密码的情况下登录系统休修改密码,需要进入GRUB修改kernel镜像启动参数 1、重启电脑长按shift键直到进入下图进入GR…

10月21日!API 大赛决赛暨移动云开发者论坛邀您见证数字创新的力量
2021年7月,移动云API应用创新开发大赛正式启动,历时近两个月的时间,共计报名889人,最终提交作品166项。经过前期初审、初赛、复赛等环节,最终企业、移动和高校赛道共29个目团队成功问鼎移动云API应用创新开发大赛决赛榜…

负载均衡环境中和如何设置Expires和Etag
在负载均衡环境中(LVS, LoadBalance)为了减少浏览器数据的重复请求操作,一般需要设置 Http Header 的 Etage 和 Expires 告诉浏览器请求数据是否已过期。以下内容主要考虑Apachesquid 环境 ETag Header是文件修改时间、文件大小和inode号生成…

C++之typedef 小记
2019独角兽企业重金招聘Python工程师标准>>>  以前曾不知道为何要用typedef,随着开发的深入,真正感受到了其内涵所在: 1.如:typedef int DataType 接下来项目中的几万行代码中,如果…

Android Go初探
Android Ore(Go edition) 简介: Android Go并不是一个独立的操作系统,它只是Android O的一种轻量级配置方案,专为1GB以下内存的机型设计, 在这种设置下,一些消耗大量资源的功能将被关闭,同时预装的应用也是…

Apache HTTP Server Version 2.2 文档中文版
模块索引 | 指令索引 | 常见问题 | 词汇表 | 站点导航 Apache HTTP Server 版本2.2 Apache > HTTP Server > 文档 > 版本2.2致谢 | 本篇译者:金步国(其他作品) | 本页最后更新:2006年10月20日[查看最新版本] 电信镜像 网通镜像Apache HTTP Ser…

归一化变换 Normalizing transformations
归一化变换包含两个部分,图像坐标的平移和尺度的缩放。进行归一化的变换不但能够提高处理结果的精确度,而且通过选择一个标准的坐标系预先的消除了图像尺度和坐标原点的选择对算法最终结果的影响。 归一化变换的步骤: 对点进行平移࿰…

Arm 通过虚拟硬件与新的解决方案导向的产品 带动物联网经济转型
Arm物联网全面解决方案通过一套全栈式解决方案,大幅加速产品开发进程并提高投资回报率;Arm虚拟硬件使得开发无需基于实体芯片进行,促成软件与硬件的共同设计,让产品开发时间最多缩短两年;Project Centauri作为Arm新的生…

数据库设计 之设计 表字段类型
2019独角兽企业重金招聘Python工程师标准>>> 数据库设计 之设计 表字段类型 博客分类: sql 之前没有 数据库设计的一些经验。 这次数据库设计。由于需求原因和没经验原因。 一些数字类型的字段设计成了varchar2 一些日期类型的字段也设计成了varchar2 一…

Apache关掉Etag和Last-Modified的方法
Apache关掉Etag和Last-Modified的方法,可能也只有我这种无聊的人才会做这种事情.哈哈,关掉etag和last-modified会出现什么样的情况。做一个这样的测试. 不要问我这二个参数是做什么的。。。。。在我的blog中有写. Etag关掉的方法如下,加一个none FileETag none …

P2P最易遭受的DDoS***以及防御手段
从07年的爱沙尼亚DDoS信息战,到2009年广西南宁30个网吧遭受到DDoS勒索,再到新浪网遭受DDoS***无法提供对外服务500多分钟。DDoS愈演愈烈,***事件明显增多,***流量也明显增大,形势十分严峻,超过1G的***流量频…
从飞天到倚天 阿里云底层自研技术大爆发
10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥、灵杰等多款重磅产品,阿里云“做深基础”成果浮出水面,底层自研技术迎来大爆发。 阿里云智能总裁张建锋表示,过去十二年,阿里云打造出中国…

CSS vs. JS Animation: 哪个更快
CSS vs. JS Animation: 哪个更快? CSS vs. JS Animation: 哪个更快? 基于JavaScript的动画竟然已经默默地比CSS的transition动画快了?而且,Adobe和 Google竟然一直在发布可以媲美原生应用的富媒体移动站点? 这篇文章将会逐点讲解基于JavaSc…

Squid下Http头信息优先级
no-cache>Expires>refresh_pattern>Last-Modified 也就是讲,最前面的最重要,前面的生效后,后面的基本就失效了. 另外squid本身就能对比Last-Modified,但根据我的测试,Etag还是会要向源服务器发送请求头,来确认etag的. ETag默认是需要向源网站…

阿里云PolarDB数据库将云原生进行到底!业内首次实现三层池化
10月20日,在2021云栖大会上,阿里云宣布自研云原生关系型数据库PolarDB重磅升级,实现内存池化、多主架构、HTAP实时分析等创新功能,进一步引领云原生数据库技术的持续创新。 阿里云智能数据库事业部总负责人李飞飞表示,…

zencoding实践
2019独角兽企业重金招聘Python工程师标准>>> .container<div class"container"></div>.wrap>ul>.list>.site <div class"wrap"><ul><li class"list"><div class"site"></…

第三期 OSI七层中第一层 物理层
物理层1、信号1)信息2)数据3)信号:信息传递的媒介 4)信号的分类:模拟信号:连续变化的物理量。数字信号:不连续的物理量,信号参数也不连续变化,高低固定。5&am…

Squid的refresh_pattern配置
refresh_pattern 大概是 squid 最有意思但最不好懂的配置参数了。 记住refresh_pattern 只对后端没设置Expires过期时间的页面起作用,比如论坛页面;而对类似apache mod_expires 设置过的页面不起作用。 说明之前,先将个概念LM,L…
阿里云发布第四代神龙架构云计算首次进入5微秒时延时代
10月20日,2021云栖大会上,阿里云宣布推出第四代神龙架构,这是飞天云操作系统新一代虚拟化技术,首次搭载全球唯一的大规模弹性RDMA加速网络,网络延迟整体降低80%以上。神龙4.0带来的计算架构革新,将云计算首…

【微服务】Spring-Boot整合Consul (自定义服务配置及健康检查)
为什么80%的码农都做不了架构师?>>> 目的 上文提到仅使用discovery包自带的注册功能进行服务注册,但是由于监控的是 /health,使用actuator实现自由度不够,并且有些低级异常可能不完全影响服务运行,但状态依…

Apache URL重定向避免网址结尾斜线问题
结尾斜线问题描述: 每个网主都曾受到结尾斜线问题的折磨,若在URL中没有结尾斜线,服务器就会认为URL无效并返回错误,因为服务器会根据/~quux/foo去寻找foo这个档案,而非显示这个目录。其实很多时候,这问题应留待用户自己…

16:00面试,16:08就出来了 ,问的实在是太...
从外包出来,没想到算法死在另一家厂子自从加入这家公司,每天都在加班,钱倒是给的不少,所以也就忍了。没想到8月一纸通知,所有人不许加班,薪资直降30%,顿时有吃不起饭的赶脚。好在有个兄弟内推我…

提前了解客户背景很有必要
2019独角兽企业重金招聘Python工程师标准>>> 最近,公司与某电商展开了合作,我司将为该电商提供提供一套广告解决方案。我有幸参与到这个项目,了解该电商的需求,思考公司的产品是否能够和如何满足这些需求。近日&#x…