当前位置：首页 > 编程日记 > 正文

超酷炫！Facebook用深度学习和弱监督学习绘制全球精准道路图

编程日记 2024-12-28 13:40:00

640?wx_fmt=png

作者 | Saikat Basu等

译者 | 陆离

责编 | 夕颜

出品 | AI科技大本营（ID: rgznai100）

导读：现如今，即使可以借助卫星图像和绘制软件，创建精确的道路图也依然是一个费时费力的人力加工过程。许多地区，特别是在发展中国家也仍是空白。为了缩小这一差距，Facebook 的人工智能研究人员和工程师们开发了一种新的方法，该方法通过深度学习和弱监督学习，根据商用高分辨率卫星图像来预测道路网络。由此产生的模型为精确程度设定了一个新标准，因为它能够较好地适应道路网络中的地区差异，有效地预测全球范围内的道路。

我们现在正与 Map With AI（一套新的专用道路图编辑服务和工具）分享我们模型的具体细节，并向全球的绘制机构提供数据。Map With AI 包含一个编辑器界面 —— RapiD，它让道路图专家可以根据自己的需要很方便地查看、校验和调整道路图。

我们使用了 Map With AI 系统在 Facebook 的 OpenStreetMap（OSM）中绘制了泰国所有此前未曾绘制过的道路（超过了 30 万英里），这是一项基于社会机构的工作，旨在创建免费的、可编辑的世界道路图。我们仅仅花了一年半的时间就完成这个项目—— 这比有 100 个绘图专家的团队手工完成这项任务花费的时间减少一半多。

准确的绘制数据有助于我们更好地为世界各地的人们提供 Facebook Marketplace 和 Facebook Local 等技术产品。Map With AI 与 Facebook 人工智能的 population density maps 项目一样，这些道路图将为灾难响应、城市规划、开发项目和许多其他任务提供资源保障。例如，在 2018 年印度喀拉拉邦遭受洪水灾害时，Facebook 利用 Map With AI 快速地绘制出了该地区的道路图，协助了救灾工作。

640?wx_fmt=png

要使用 RapiD，用户可以在道路图上选择一条道路，在提交给 OSM 系统之前，可以根据实际需要对其进行进一步的编辑。白线表示现有的 OSM 道路，紫红线则表示 RapiD 的预测结果。选用 Maxar 卫星的图像作为背景。

利用新技术实现更高效、更精确的绘图功能

我们已经在几个方面往前推进绘制道路图的研究。在 2018 年的 CVPR 大会上，我们帮助组织了 DeepGlobe 卫星挑战赛（DeepGlobe Satellite Challenge），通过提供数据集和竞赛平台来组织和评估计算机视觉和机器学习的解决方案，推进了卫星图像分析的最高水平。我们还正在开发新的适合遥感问题空间的学习技术和架构，并研究弱监督学习技术，以在全球范围内应用我们的道路绘制工作，还在与绘制团队进行合作，在全球范围内测试这些用于设计比例和构造方面的工具。

道路分割

在从卫星图像中选取道路的过程中，我们利用了最近在使用完全卷积神经网络（Fully Convolutional Neural Networks）进行语义分割，同时结合大规模弱监督学习方面的发展成果。道路检测是语义分割方面的应用，其中道路是前景，图像的其余部分作为背景。如下图所示，过程的输出是一个栅格化的道路图，显示了模型如何预测输入的卫星图像的每个像素是否属于某个道路。对于道路分割，我们使用了 D-LinkNet 架构的修订版本，它在 DeepGlobe 卫星道路获取挑战赛（the DeepGlobe Satellite Road Extraction Challenge）中获胜。向量化和后处理技术可以获取这些输出并转化为与地理空间数据库（如 OSM 系统）兼容的道路向量。

640?wx_fmt=png 左边是分割模型每个像素的预测结果；紫红色意味着像素有更高的概率属于道路。右边：合并的向量化道路与现有的 OSM 道路（白色），卫星图像由 Maxar 提供

用弱监督学习模式在全球范围绘制道路图

作为上述泰国道路绘制项目的一部分，我们请一些专家检查并修正人工智能系统识别的道路网络。然后，我们使用这些手动更正的道路图作为模型的训练数据。这个项目绘制了整个泰国的公路网络，因此我们对数据的准确性和完整性充满了信心。我们发现，数据集训练在泰国获得了高精度的验证结果，但在其它地区准确性却急剧下降。由于该项目的目标是能够绘制全球的道路图，因此我们研究了如何使用其它地区增加的 OSM 数据来训练一个新的模型。

但是，许多其它国家的道路图仍然存在着巨大差距。因此，我们探索了获取高质量的、地理多样性的训练数据的新方法。我们借鉴了以往关于弱监督图像分类和基于 OSM数据训练建筑检测模型的工作，尝试将这些弱监督学习的思想从分类转换为语义分割。这项实验需要识别具有足够的、准确的数据覆盖率的区域，然后将 OSM 数据库的道路向量转换为栅格化的语义分割标签。对于这两个挑战，我们采取了一种直接的方法，即首先生成带有噪音的、不太完美的训练数据。

我们收集了一组像素为 2048 x 2048 的训练数据，分辨率约为每像素 24 英寸。我们放弃了道路图上少于 25 条路的区域，因为我们发现地图上通常只包括一些主要的道路（通常没有可以正确标注较短道路的先例）。对于剩余的区域，我们将道路向量进行栅格化，并使用结果标识作为训练标签。为了达到与 DeepGlobe 数据集相同的分辨率，我们随机将每个图像的像素剪裁到 1024 x 1024，从而生成了能覆盖到 70 多万平方英里地理范围的大约 180 万个区域，这个结果是 DeepGlobe 数据集覆盖的约 630 平方英里的区域的 1000 倍。

为了从这些道路向量中创建分割标识，我们只需将每个道路向量栅格化为 5 个像素。语义分割标签往往是趋向于像素的，但我们用这种探索式的方法所创建的标签却不是这样的。由于道路的宽度和外形各不相同，这些栅格化了的向量无法完全获取这些信息。此外，全球不同地区的道路是根据不同的卫星图像源绘制的，因此并不总与用于训练数据的图像完全一致。

640?wx_fmt=png 用于 OSM 道路分割模型的训练数据的地理分布可视化图。由于实验的时候卫星图像是不可用的，因此一些区域并未在图中出现

仅使用在数据收集过程中产生的噪声标签，我们就能够产生与许多 DeepGlobe 挑战赛参与者不相上下的结果。通过对 DeepGlobe 挑战数据集中训练数据的微调，我们的模型取得了最好的结果。

比这些微调的结果更值得注意的是，即使只在 OSM 数据上进行训练，模型在全球范围内运行的结果也非常不错。大多数可用于训练道路分割模型的数据集严重地偏向于特定的区域或发展水平的地区。例如，DeepGlobe 道路数据集仅包含来自印度、印度尼西亚和泰国的数据，而 SpaceNet 道路获取挑战赛（the SpaceNet Road Extraction Challenge）的数据集仅关注于一些主要的城市。我们创建的数据集跨越了六大洲和各种发展水平的地区，提供的训练数据比其它可用的替代数据要多得多。

为了评估更大的、更多样化的数据集对模型的标准化有多大的影响，我们评估了 OSM 训练模型和 DeepGlobe 模型（在 DeepGlobe 数据上训练）。我们在其它几个数据集（拉斯维加斯、巴黎、上海等城市，请查阅论文获取详情）上对这两个模型进行了评估，这些数据集均不在 DeepGlobe 数据集的地理分布范围内。在这些测试集中，DeepGlobe 模型的平均联合交叉（IoU，the mean Intersection over Union)得分为0.218，而 OSM 训练模型的平均 IoU 得分为 0.355。相比之下，这些分数相对改善 62%，绝对改善 13.7%。

640?wx_fmt=png

乌干达的坎帕拉，在一个道路图相对绘制较好的地区进行道路获取。从左到右：Maxar 卫星图像、OSM（手动绘制）、THA/IND/IDN 训练模型、全球 OSM 训练模型。在 DeepGlobe 上训练的模型在房屋之间绘制出许多本来不存在的道路，而在全球数据上训练的模型表现不错

能有效创建全新道路图的AI工具

一旦模型识别出潜在的道路，我们就需要对其进行验证并提交给 OSM。将这些数据提供给社区是一个重要环节，我们模型的结果虽然很好，但并不完美。地区的差异会影响道路分类的结果。一些结果错误地跟踪了卫星图像中的其它特征，如干涸的河床、狭窄的海岸线和运河。此外，模型可能无法找到一个区域内的所有道路，或者可能会忽略连接点和潜在的道路，因此，我们的下一步是将模型的结果与有经验的绘图人员结合。为此，我们利用了道路图绘制社区里已经熟悉的工具(iD, JavaOpenStreetMap, 和 Tasking Manager)。

我们的工作重点是构建 RapiD，它是一个应用广泛的基于 Web 的 iD 道路图编辑器的开源扩展。此外，我们构建了一个系统，将模型的结果与 OSM 中已有的数据结合，这一过程称为合并，它既可以为如何将新道路加入到现有的数据提供建议，又可以防止模型建议的道路覆盖现有道路数据。我们希望 RapiD 能够让道路图绘制社区中的人们根据自己的实际情况来改进并利用这些工具。

RapiD 编辑器允许通过可视化的方式展现合并的道路，并高亮显示新修改的地方，还为最常见的数据清理任务使用新的命令和快捷方式，例如调整道路的分类来适应周围的环境。因为我们扩展了现有的编辑工具 iD，绘图人员能够使用熟悉的工具来处理新的数据。为了确保向 OSM 提交高质量的数据，我们采用了完整性校验来捕获模型结果可能出现的潜在问题。

道路图绘制社区的前期反馈结果令人鼓舞:

“这个工具在建议的机器生成功能和手动绘制方式之间取得了良好的平衡。它能让道路图绘制者对图上的内容有最后决定权，这有助于发现绘制过程中出现的问题。它的优势是绘图人员可以以更具互动性的方式开始绘图。对 iD 的调整和添加的快捷键会使其功能更强大，足以满足绘制人员的需要，”长期致力于 OSM 研究的 Martijn van Exel 说道， “这必然是 OSM 未来的一个关键点。没有机器的帮助，我们无法绘制道路图，更谈不上绘制全世界。诀窍是找到那个点。OSM 是一个全人类的项目，道路图反映了绘制者的兴趣、技能、偏好等。”

“在我看来，RapiD 最独特的优势在于它可用于世界上最复杂的地理环境，这些地区对自动化的需求最为迫切。大多数现代的算法、训练数据集和相关技术都是为那些基础设施高度发达的地区而发明的。在发展中国家，例如非洲、东南亚、拉丁美洲，这些地方的道路没有很好的命名、维护或是开发，即使是最专业的人眼也很难识别和正确地进行道路特征的分类，”一位共享车辆地域经理 Dimitry Kuzhanov 说道。

“RapiD 是向前迈出的重要一步，因为它将人工智能的能力与人类天生具有的智慧和对关联性的理解力结合了起来。”Mapillary 的战略合作伙伴经理 Edoardo Neerhut 这样说道。

总之，好的工具可以增强道路图绘制人员的能力，减少基于卫星数据绘制道路的繁琐和耗时的工作，提高道路形状的准确性，并为识别建议道路提供选项，即使绘制者选择不使用这些建议。能提供不受专业绘制者能力和判断限制的工具很重要。我们将根据这些绘制者的反馈不断改进 RapiD，让它的使用过程更加顺畅。我们相信，由此产生的生产能力提高了卫星图像在道路图绘制方面的效率。

Map With AI 服务和使用体验：Facebook Tech@ blog post

机器学习道路预测效果/RapiD 绘制道路操作：mapwith.ai

原文链接：

https://ai.facebook.com/blog/mapping-roads-through-deep-learning-and-weakly-supervised-training/

(*本文为 AI科技大本营编译文章，转载请联系微信 1092722531)

◆

精彩推荐

◆

640?wx_fmt=jpeg

“只讲技术，拒绝空谈！”2019 AI开发者大会将于9月6日-7日在北京举行，这一届AI开发者大会有哪些亮点？一线公司的大牛们都在关注什么？AI行业的风向是什么？2019 AI开发者大会，倾听大牛分享，聚焦技术实践，和万千开发者共成长。大会早鸟票倒计时最后一天，速抢进行中......

推荐阅读

数十篇推荐系统论文被批无法复现：源码、数据集均缺失，性能难达预期
SpanBERT：提出基于分词的预训练模型，多项任务性能超越现有模型！
百度、快手、商汤、旷视、图森等重磅嘉宾确认出席AI ProCon 2019
抢程序员饭碗？自动写代码的Deep TabNine真如此神奇？
华为收入超过阿里腾讯总和！等等，先把鸿蒙说清楚！
扎克伯格再谈Libra：为十亿人打造“金融梦”（全文）
漫画 | Kubernetes带你一帆风顺去远航
“对不起，我就是传说中的 10 倍工程师”

你点的每个“在看”，我都认真当成了喜欢

https://www.dkcj.cn/info/33810.html

超酷炫！Facebook用深度学习和弱监督学习绘制全球精准道路图

数十篇推荐系统论文被批无法复现：源码、数据集均缺失，性能难达预期

SpanBERT：提出基于分词的预训练模型，多项任务性能超越现有模型！

百度、快手、商汤、旷视、图森等重磅嘉宾确认出席AI ProCon 2019

抢程序员饭碗？自动写代码的Deep TabNine真如此神奇？

华为收入超过阿里腾讯总和！等等，先把鸿蒙说清楚！

扎克伯格再谈Libra：为十亿人打造“金融梦”（全文）

漫画 | Kubernetes带你一帆风顺去远航

“对不起，我就是传说中的 10 倍工程师”

相关文章：

npm包发布记录

设计模式之单例模式(Singleton)摘录

关于知识蒸馏，这三篇论文详解不可错过

设计模式之建造者模式(生成器模式、Builder)摘录

[置顶] webservice系列2---javabeanhandler

AI教育公司物灵科技完成战略融资，商汤科技投资

Python之父发文，将重构现有核心解析器

全面支持三大主流环境｜百度PaddlePaddle新增Windows环境支持

设计模式之原型模式(Prototype)摘录

NFS共享服务挂载时出现“access denied by server while mounting”的解决方法

设计模式之桥接模式(Bridge)摘录

原360首席科学家颜水成正式加入依图科技，任首席技术官

分布式存储fastdfs安装使用

Hibernate学习（九）———— 二级缓存和事务级别详讲

超详细中文预训练模型ERNIE使用指南

linux内核SMP负载均衡浅析

结构体中最后一个成员为[0]或[1]长度数组(柔性数组成员)的用法

超全！深度学习在计算机视觉领域的应用一览

SHAREPOINT2010数据库升级2013

设计模式之简单工厂模式(Simply Factory)摘录

别得意，你只是假装收藏了而已

Exchange2003-2010迁移系列之四，配置第一台Exchange CAS/HUB服务器

设计模式之适配器模式(Adapter)摘录

JAVA方法中的参数用final来修饰的效果

2019世界机器人大赛圆满落幕，荆州中学等15支队伍获「全能奖」

在任何设备上都完美呈现的30个华丽的响应式网站

设计模式之装饰模式(Decorator)摘录

解决流程自动化“最后一公里问题”，达观数据发布智能 RPA

利用脚本生成GUID

设计模式之组合模式(Composite)摘录