能看懂图片内涵的视觉识别图像分类器

2016-12-20 11:26:21来源:智能电子集成

[摘要] IBM 近日迈出了重要一步，对 Watson 视觉识别图像分类器( Watson Visual Recognition)的处理能力进行了更新，它能让用户理解图像或者是视频中的内容。

　　IBM 近日迈出了重要一步，对 Watson 视觉识别图像分类器( Watson Visual Recognition)的处理能力进行了更新，它能让用户理解图像或者是视频中的内容。这一系统内置数万视觉标签，使其常用词汇量比之前的模式大2.5倍。内置词汇量的扩大，使其识别特殊视觉概念的能力大大提高。

　　新植入的视觉标签涵盖了很多种类的视觉概念，其中包括物体、人、地点、活动、场景以及其它一些关于细致特点类型的词汇，比如特定的颜色。

　　每一类词汇的涉及深度都有所增加，也增加了很多特定的视觉描述词汇。这使得新植入的分类器能够对典型图片进行更加精确详细地分类。同时，它也以分类等级为基础，对图片增加了一般性描述——比如知道马是一种动物。

　　该服务也能通过识别细小差别来对图片进行详细描述。比如图片显示“人们在愉快地就餐”，那么它能够识别出，该场景不只是在餐馆吃饭，而是能根据视觉形象更加详细地描述出这是在啤酒园里。比如图片显示这是 GAIR 全球人工智能与机器人峰会的会场，机器也能识别出背景图上的雷锋网 Logo。

　　视觉识别能达到这么精确的水平，是因为它现在能够平均为每个图像至少贴上九个描述性标签——之前平均只有两到三个。

　　IBM 机器视觉负责人 Matthew Hill 表示：“我们之所以能取得这么大的进步，是因为我们用各种各样的摄影镜头获得的大量图片进行了实验，并且采用了图形处理器(GPUs)的分布式网络。 Watson 将所有这些信息都融合到具有数万标签的卷积神经网络。我们也研发出新的推论方法：利用语义推理优化该服务对图片的描述，使其更加特殊、突出、准确。”

　　当然，有些企业有自己的自定义数据，他们想为这些数据创造自己的分类器。 Watson 视觉识别也有自定义开发和分类的特点。当需要该服务需要为某一领域学习一套新的图像标签时(像产品组合)，开发者可以进行快速开发，通过提供示例图片植入新的自定义模型。然后，应用程序可以利用自定义模型，结合最基本的服务，用一般描述词汇和特定领域的描述词汇对图片进行描述。自定义分类器也可以通过加入新的示例图片来进行升级。

　　Hill 表示，视觉识别的发展是 IBM 持续提高 Watson 认知领域能力的重要一步。它是基于世界范围内对视觉理解的不断研发。视觉理解取得了一系列突破性进展，包括利用图像分析改善对皮肤癌患者的治疗，改进图像自动生成字幕技术以及突破人工智能和创造性的限制，制作世界上第一步认知电影预告片等。

[责任编辑：何佩蓉]

a&s作者专栏开通指南

《安防知识网》一个服务号二个订阅号微信服务全面升级

不得转载声明： 凡文章来源标明“安防知识网”的文章著作权均为本站所有，禁止转载，除非取得了著作权人的书面同意且注明出处。违者本网保留追究相关法律责任的权利。

聚合阅读

视觉识别图像分类器 Watson

: NEC的多模图像融合技术运用AI提高视觉识别度

NEC公司最近宣布，和日本东京工业大学共同开发了“多模图像融合技术”，通过人工智能(AI)技术，能将一般摄像头拍摄的可见光图像与热成像相机拍摄的非可见光图像进行自动高效合成，且提高了单个图像拍摄时的视觉识别度。

方案案例调研报告

可取代汽车浪涌抑制器件高压IC方案

LTC3895 是一款非隔离式同步降压型开关稳压器控制器，驱动全 N 沟道 MOSFET 电源级。其 4V 至 140V (绝对最大值为 150V) 输入电压范围允许用高压输入电源或者用具有高压浪涌的输入电源运行，因此无需外部浪涌抑制器件。LTC3895 在输入电压降至 4V 时，以高达 100% 的占空比连续运行，从而非常适合汽车以及重型设备应用。[详细]
WISE无线数据采集解决方案
蓝牙BLE技术应用于智慧医疗领域解决方案
思科为延锋安道拓部署视频和数据融合的通信解决方案