本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

时间:2017-05-05 07:54来源:118图库 作者:本港台直播 点击:
参与:李泽南、晏奇 谷歌地图的街景功能拥有 800 亿张高分辨率图片,而且这个数字还在以每天百万的速度不断增加。街景图片是获取准确地理信息的绝佳渠道,而利用深度学习从图

参与:李泽南、晏奇

谷歌地图的街景功能拥有 800 亿张高分辨率图片,而且这个数字还在以每天百万的速度不断增加。街景图片是获取准确地理信息的绝佳渠道,而利用深度学习从图片中获取信息,并实时更新地图地址内容正是谷歌研究团队努力的目标。

每一天,谷歌地图都会为数百万人指路,并提供相应的实时路况信息和商店推荐。为了向用户提供最好的体验,这些信息必须随着不断变化的世界实时更新。谷歌街景车每天都会收集数百万张图片,而人工分析这超过 800 亿张高分辨率图片中的信息,试图找出其中的新变化是一个不可能完成的任务。谷歌 Ground Truth 团队正在研究如何让计算机自动将图片中的内容转变为谷歌地图需要的信息。

在最近的一篇论文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者讨论了使用深度神经网络在多个国家收集到的街景图中读取街道名的任务。谷歌的算法在「French Street Name Signs(FSNS)」数据集中达到了 84.2% 的准确率,表现大大超过了此前表现最好的系统。更重要的是,新系统除了可以读取街道名称,还可以自动读取图片中的商户名,以及其他信息。谷歌近日已将这一模型开源

  Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr

报码:【j2开奖】业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

  在 FSNS 数据集中的街道名被谷歌的系统成功转录,这个路标提供了四张不同图片。

在自然环境中识别文字对于计算机视觉和机器学习而言是一个非常具有挑战性的任务。传统的光学字符识别(OCR)系统主要适用于从文件中扫描信息,而从自然视角中获取文字则面临更多麻烦,失真、遮蔽、方向模糊、复杂背景和不同视角都会对识别产生影响。谷歌应对这一挑战的研究从 2008 年就开始了,他们曾使用神经网络来模糊结晶图片中的人脸与车牌以保护隐私。在先前阶段的研究中,研究人员逐渐意识到经过足够已标记数据的训练后,机器学习不仅可以用来保护用户隐私,还可以自动为谷歌地图进行实时信息的更新。

在 2014 年,谷歌 Ground Truth 团队发布了当时最好的读取街景门牌(SVHN)数据集中门牌号的方法。这一应用是由 Ian Goodfellow 等人提出的,它不仅引起了学界的关注,也切实改变了谷歌地图的面貌。今天,全球大约 1/3 的地址都是由这一系统提供的。在一些国家如巴西,Goodfellow 等人的算法为谷歌地图提供了超过 90% 的地址,极大地增强了地图的可用性。

在门牌号之后,atv,最合情理的下一步就是将这些技术延展到街道名称上了。为了解决这一问题,谷歌团队首先发布了法国街道路标数据集(French Street Name Signs,FSNS),一个拥有超过一百万街道名称的训练数据集。FSNS 数据集是多年努力的成果,旨在帮助所有开发者提升自己的 OCR 模型在实际应用中的性能。FSNS 数据集比 SVHN 数据集更大,也更具挑战性,准确识别一张街道标识可能需要对于同一个标识不同角度的图片进行合并处理。

  SVHN 数据集:

  FSNS 数据集:https://github.com/tensorflow/models/blob/master/street/README.md

报码:【j2开奖】业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

  这是一些具有挑战性的标识,它们由谷歌的系统通过选择或结合对图像的理解而恰当地进行了转录。第二个例子就更具挑战性了,但是由于模型提前学习了一个语言模型,这使得它能够去除模糊而正确的认读街道的名字。

2016 年,使用这个训练集,谷歌实习生 Zbigniew Wojna 用整个夏天开发出了一个深度学习模型架构,该架构可以自动对街景图像进行标记。新模型的其中一个有趣的功能是它可以将文本规范成与我们日常命名习惯一致的方式。

报码:【j2开奖】业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

  例:从来自巴西的数据中习得的文本规范化。在这里,系统将「AV.」改成了「Avenida」,并且将「Pres.」改成了「Presidente」,这正是我们想要的。

报码:【j2开奖】业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

  在本例中,模型并没有因为图中有两个街道名而晕头转向,它很好的将「Av」转换成了「Avenue」,同时它也正确地忽略了数字「1600」。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容