计算机视觉的进步推动交通自治

自动驾驶汽车正在识别路标。计算机视觉和人工智能 …[+] 概念。

盖蒂

视觉是一种强大的人类感官输入。它使我们认为理所当然的复杂任务和流程成为可能。随着从交通运输和农业到机器人和医学等各种应用中 AoT™（物联网）的增加，相机、计算和机器学习在提供类人视觉和认知方面的作用变得越来越重要。计算机视觉作为一门学科在 1960 年代开始兴起，主要是在从事新兴人工智能 (AI) 和机器学习领域的大学中。随着半导体和计算技术的重大进步，它在接下来的四年中取得了巨大的进步。深度学习和人工智能的最新进展进一步加速了计算机视觉的应用，以提供对环境的实时、低延迟感知和认知，从而在各种应用中实现自主、安全和高效。交通运输是受益匪浅的领域之一。

LiDAR（光探测和测距）是一种主动光学成像方法，它使用激光来确定物体周围的 3D 环境。这是计算机视觉解决方案（纯粹依赖环境光，不使用激光进行 3D 感知）试图颠覆的技术之一。共同的主题是人类驾驶员不需要激光雷达来进行深度感知，机器也不需要。目前的商用 L3 自动驾驶功能（在特定地理和天气条件下完全自主，驾驶员可以在几秒钟内完成控制）产品今天使用激光雷达. 纯粹基于视觉的技术仍然无法在商业上提供这种能力。

广告投放

特斯拉TSLA
是使用基于被动摄像头的计算机视觉来提供乘用车自主性的主要支持者。在公司最近的 AI Day 活动中，Elon Musk 和他的工程师提供了令人印象深刻的演示其人工智能、数据管理和计算能力，除其他举措外，还支持多款特斯拉车型的全自动驾驶 (FSD) 功能。 FSD 要求人类驾驶员始终从事驾驶任务（这与 L2 自主性一致）。目前，该选项适用于美国和加拿大客户购买的 160,000 辆汽车。每辆车上的一套 8 个摄像头可提供 360° 占用地图。来自这些车辆的摄像头（和其他）数据用于训练其神经网络（使用自动标记）来识别物体、绘制潜在的车辆轨迹、选择最佳轨迹并激活适当的控制动作。在过去的 75 个月中，随着不断收集新数据并检测到标记错误或操纵错误，神经网络发生了约 12K 更新（每 1 分钟更新约 7 次）。训练有素的网络通过专用计算电子设备的板载冗余架构执行规划和控制操作。特斯拉预计 FSD 最终将导致自动驾驶汽车 (AV)，它在某些操作设计领域提供完全自主，无需人工参与（也称为 L4 自主）。

其他公司，如 Phiar、Helm.ai 和 NODAR 也在追求计算机视觉的道路。 NODAR 旨在通过获得专利的机器学习算法学习调整相机错位和振动效应，从而显着扩大立体相机系统的成像范围和 3D 感知。它最近筹集了 12 万美元用于其旗舰产品 Hammerhead™ 的产品化，该产品利用“现成的”汽车级相机和标准计算平台。

除了成本和尺寸之外，反对使用 LiDAR 的一个常见论点是，与相机相比，它的范围和分辨率有限。例如，目前可以使用具有 200 m 范围和 5-10 M 点/秒（PPS 类似于分辨率）的 LiDAR。在 200 m 处，砖块或轮胎碎片等小障碍物将记录很少的点（垂直方向可能 2-3 个，水平方向可能 3-5 个），使物体识别变得困难。在更长的范围内事情变得更加粗糙。相比之下，以 30 Hz 运行的标准百万像素相机每秒可产生 30 万像素，即使在远距离也能实现出色的物体识别。更先进的相机（12 万像素）可以进一步提高这一点。问题是如何利用这些海量数据并产生具有毫秒级延迟、低功耗和劣化照明条件的可操作感知。

广告投放

认出一家总部位于加利福尼亚的公司正试图解决这个问题。根据首席执行官 Mark Bolitho 的说法，其使命是“为全自动驾驶汽车提供超人的视觉感知。” 该公司成立于 2017 年，迄今已筹集 75 万美元，拥有 70 名员工。 RK Anand 是瞻博网络的校友，也是联合创始人和首席产品官之一。他认为，使用具有 > 120 dB 动态范围、以高帧速率运行的更高分辨率相机（例如 OnSemi、Sony 和 Omnivision）可以提供创建高分辨率 3D 信息所需的数据，这对于实现 AV 至关重要。促成这一点的因素是：

定制设计的 ASIC 可高效处理数据并生成准确的高分辨率 3D 汽车环境地图。它们采用 TSMC 7 nm 工艺制造，芯片尺寸为 100 mm²，工作频率为 1 GHz。
专有的机器学习算法离线处理数百万个数据点以创建经过训练的神经网络，然后可以高效运行并持续学习。该网络提供感知，包括对象分类和检测、语义分割、车道检测、交通标志和红绿灯识别
最大限度地减少片外存储和乘法运算，这些运算是功率密集型的并会产生高延迟。 Recogni 的 ASIC 设计针对对数数学进行了优化并使用了加法。通过在训练有素的神经网络中对权重进行最佳聚类，可以进一步提高效率。

在训练阶段，商用 LiDAR 被用作地面实况来训练高分辨率、高动态范围的立体相机数据，以提取深度信息并使其对未对准和振动效应具有鲁棒性。根据 Anand 先生的说法，他们的机器学习实施非常高效，可以推断出超出校准 LiDAR 提供的训练范围的深度估计（它提供了 100 m 范围内的地面实况）。

广告投放

图 1：绿色框显示 Recogni 感知堆栈在 3 训练数据上的 100D 性能 …[+] 米范围。蓝色箭头显示在 130 m 训练数据之外的距离处的深度感知。

认出

上面的训练数据是在白天使用一对 8.3 兆像素的立体相机以 30 Hz 帧速率（每秒约 0.5B 像素）运行的。它展示了经过训练的网络能够在超出其训练范围的 3 m 范围内提取场景中的 100D 信息。 Recogni 的解决方案还可以将其对白天数据的学习推断为夜间性能（图 2）。

图 2：根据白天数据训练的 Recogni 感知堆栈也在较低光照水平下表现出色 …[+] 夜间条件

认出

广告投放

根据 Anand 先生的说法，距离数据的准确度在 5% 以内（远距离）和接近 2%（近距离）。该方案提供1000 TOPS（每秒万亿次操作），6 ms延迟和25W功耗（40 TOPS/W），行业领先。使用整数数学的竞争对手在这个指标上要低 10 倍以上。 Recogni 的解决方案目前正在多家汽车一级供应商进行试验。

先知 （“预测并查看行动在哪里”）总部位于法国，将其基于事件的摄像头用于 AV、高级驾驶辅助系统 (ADAS)、工业自动化、消费者应用和医疗保健。成立于2014年，公司最近完成了 50 万美元的 C 轮融资，迄今为止共筹集了 127 亿美元。领先的手机制造商小米是投资者之一。 Prophesee 的目标是模拟人类视觉，其中视网膜中的受体对动态信息作出反应。人脑专注于处理场景中的变化（尤其是驾驶）。基本思想是使用相机和像素架构来检测超过阈值（事件）的光强度变化，并仅将这些数据提供给计算堆栈以进行进一步处理。像素以异步方式工作（不像常规 CMOS 相机那样成帧）并且速度要快得多，因为它们不必像传统的基于帧的相机那样集成光子，并在读取数据之前等待整个帧完成。优点是显着的——更低的数据带宽、决策延迟、存储和功耗。该公司首款基于事件的商用级 VGA 视觉传感器具有高动态范围 (>120 dB)、低功耗（传感器级别为 26 mW 或 3 nW/事件）的特点。还推出了具有行业领先像素尺寸（< 5 μm）的高清（高清）版本（与索尼联合开发）。

图 3：联合开发的 5 um 像素间距的基于事件的高清格式成像传感器 …[+] 与索尼

先知

广告投放

这些传感器构成了 Metavision® 传感平台的核心，该平台使用 AI 为自动驾驶应用程序提供智能高效的感知，并正在受到交通领域多家公司的评估。除了 AV 和 ADAS 的前向感知外，Prophesee 还积极与客户合作，对 L2 和 L3 应用的驾驶员进行车内监控，见图 4：

图 4：基于受人类启发的神经形态视觉的 XPERI 车内驾驶员监控

先知

汽车领域的机会是有利可图的，但设计周期很长。在过去的两年中，Prophesee 对工业应用的机器视觉领域产生了极大的兴趣和吸引力。其中包括高速计数、表面检测和振动监测。

广告投放

图 5：使用基于事件的相机的高计数

先知

Prophesee 最近宣布合作与机器视觉系统的领先开发商合作，利用工业自动化、机器人技术、汽车和物联网（物联网）领域的机会。其他直接机会是用于手机和 AR/VR 应用的图像模糊校正。与用于长期 ADAS/AV 机会的传感器相比，这些传感器使用的传感器格式更低，功耗更低，运行延迟显着降低。

以色列是高科技领域的领先创新者，拥有大量风险投资和活跃的创业环境。自 2015 年以来，在技术领域发生了大约 70B 美元的风险投资. 其中一部分是在计算机视觉领域。 Mobileye 在 1999 年引领了这场革命，当时希伯来大学领先的 AI 研究员 Amnon Shashua 创立了该公司，专注于 ADAS 和 AV 的基于摄像头的感知。公司于2014年申请IPO，被英特尔收购INTC
2017 年为 $15B。今天，它很容易成为计算机视觉和 AV 领域的领先者，最近宣布有意申请首次公开募股并成为一个独立的实体。 Mobileye 的收入为每年 1.4B 美元，亏损不大（75 万美元）。它为 50 家汽车 OEM 提供计算机视觉功能，这些 OEM 将其部署在 800 种汽车模型中以实现 ADAS 功能。未来，他们打算利用这种计算机视觉专业知识和基于英特尔硅光子学平台的激光雷达功能，引领 L4 级车辆自动驾驶（无需驾驶员）。 Mobileye 最终上市时的估值估计约为 50B 美元。

广告投放

尚佩尔资本总部位于耶路撒冷，在投资开发基于计算机视觉的产品的公司方面处于领先地位，这些产品适用于从运输和农业到安全和安全的各种应用。 Amir Weitman 是联合创始人和管理合伙人，于 2017 年创办了他的风险投资公司。第一只基金向 20 家公司投资了 14 万美元。他们的一项投资是 Innoviz，该公司于 2018 年通过 SPAC 合并上市，并成为 LiDAR 独角兽。由 Omer Keilaf（来自以色列国防军情报局技术部门）领导，如今，该公司已成为 ADAS 和 AV 激光雷达部署的领导者，并在宝马和大众汽车赢得了多项设计大奖。

Champel Capital 的第二只基金（Impact Deep Tech Fund II）于 2022 年 30 月发起，迄今已筹集 100 万美元（到 2022 年底目标为 12 亿美元）。主要关注点是计算机视觉，在五家公司部署了 XNUMX 万美元。其中三个将计算机视觉用于运输和机器人技术。

坦克U， 总部位于海法，于 2018 年开始运营，并筹集了 10 万美元的资金。丹·瓦尔德霍恩 (Dan Valdhorn) 是首席执行官，毕业于 8200 部队，这是以色列国防军内负责信号情报和代码解密的精英高科技团队。 TankU 的 SaaS（软件即服务）产品在复杂的户外环境中为车辆和司机提供服务，实现流程自动化和安全保护。车队、私家车、加油站和充电站的车主使用这些产品来防止自动金融交易中的盗窃和欺诈。车辆燃料服务每年在全球产生约 $2T 的收入，其中私人和商用车队所有者消耗 40% 或 $800B。由于盗窃和欺诈（例如，将车队加油卡用于未经授权的私家车），零售商和车队所有者每年损失约 100B 美元。 CNP（无卡）欺诈和篡改/窃取燃料是额外的损失来源，尤其是在移动应用程序中使用被盗卡详细信息进行支付时。

广告投放

该公司的 TUfuel 产品可促进一键式安全支付，阻止大多数类型的欺诈行为，并在怀疑存在欺诈行为时提醒客户。它基于一个 AI 引擎来执行此操作，该引擎对来自这些设施中现有闭路电视的数据和数字交易数据（包括 POS 和其他后端数据）进行了训练。车辆轨迹和动态、车辆 ID、行驶时间、里程、加油时间、燃料数量、燃料历史和驾驶员行为等参数是一些用于检测欺诈的属性。这些数据还可以帮助零售商优化站点运营、提高客户忠诚度并部署基于视觉的营销工具。根据首席执行官 Dan Valdhorn 的说法，他们的解决方案可以检测到 70% 的车队、90% 的信用卡和 70% 的与篡改相关的欺诈事件。

图 6：TUfuel 使用来自加油站闭路电视摄像机的实时数据和来自 …[+] 服务点和移动应用活动

坦克U

索诺尔是一家能源服务公司，在以色列拥有并运营着由 240 个加油站和便利店组成的网络。 TUfuel 部署在他们的站点上，并展示了增强的安全性、欺诈预防和客户忠诚度。与全球领先的加油站和便利店设备供应商合作，正在美国进行产品试验。类似的举措也在非洲和欧洲进行。

广告投放

位于特拉维夫 国际贸易中心 由本古里安大学的机器学习学者于 2019 年创立。 ITC 创建 SaaS 产品 “在拥堵开始形成之前，通过智能操纵交通信号灯来测量交通流量、预测拥堵并缓解拥堵。” 与 TankU 类似，它使用来自现成摄像头（已安装在许多交通路口）的数据来获取实时交通数据。分析来自整个城市的数千个摄像头的数据，并通过应用专有的人工智能算法提取车辆类型、速度、运动方向和车辆类型（卡车与汽车）的顺序等参数。模拟可提前 30 分钟预测交通流量和潜在的交通拥堵情况。使用这些结果调整交通信号灯以平滑交通流量并防止拥堵。

图 7：来自数千个摄像头的数据由城市交通控制中的 VMS 编译 …[+] 房间。 ITC 服务器通过训练有素的 AI 算法处理这些数据以控制交通信号灯

国际贸易中心

训练人工智能系统需要一个月的整个典型城市的视觉数据，并且涉及监督和非监督学习的结合。 ITC 的解决方案已经部署在特拉维夫（在 25 年全球最拥堵城市中排名第 2020 位），在数百个由红绿灯控制的十字路口部署了数千个摄像头。 ITC 的系统目前管理 75 辆汽车，预计将继续增长。该公司正在安装一个类似的能力卢森堡，并正在美国主要城市开始试验。在全球范围内，其解决方案管理着 300,000 辆汽车，在以色列、美国、巴西和澳大利亚设有运营基地。首席技术官 Dvir Kenig 热衷于解决这个问题 - 让人们恢复个人时间，减少温室气体排放，提高整体生产力，最重要的是，减少拥挤交叉路口的事故。根据 Kenig 先生的说法， “我们的部署表明交通拥堵减少了 30%，减少了非生产性驾驶时间、压力、燃料消耗和污染。”

广告投放

室内机器人 是成立于2018 和最近筹集了 18 万美元的资金. 该公司总部位于以色列特拉维夫附近，开发和销售用于室内安保、安全和维护监控的自主无人机解决方案。首席执行官兼联合创始人 Doron Ben-David 在 IAI 积累了丰富的机器人技术和航空经验IAI
（主要国防主承包商）和 MAFAT（以色列国防部内的高级研究机构），类似于美国的 DARPA。对智能建筑和商业安全市场的投资不断增长，推动了对能够在小型和大型内部商业空间（办公室、数据中心、仓库和零售空间）使用计算机视觉和其他感官输入的自主系统的需求。 Indoor Robotics 通过使用配备现成摄像头以及热和红外范围传感器的室内无人机来瞄准这个市场。

图 8：Indoor Robotics 的自主无人机机队可以通过安装在天花板上的方式自行供电 …[+] 对接瓷砖。 Tando 控制桥处理数据并控制飞行路径

室内机器人

Ofir Bar-Levav 是首席商务官。他解释说，缺乏 GPS 阻碍了室内无人机在建筑物内定位（通常 GPS 被拒绝或不准确）。此外，缺乏便捷高效的对接和供电解决方案。 Indoor Robotics 通过四个安装在无人机上的摄像头（上、下、左、右）和简单的距离传感器来解决这个问题，这些传感器可以准确地映射室内空间及其内容。摄像头数据（摄像头提供定位和地图数据）和热传感器（也安装在无人机上）由人工智能系统分析，以检测潜在的安全、安全和维护问题并提醒客户。无人机通过安装在天花板上的“对接板”为自己供电，这节省了宝贵的地面空间，并允许在充电时收集数据。在招聘、保留和培训方面人力复杂且成本高昂的情况下，将这些平凡的流程自动化的财务优势是显而易见的。与地面机器人相比，使用空中无人机在资金和运营成本、更好地利用地面空间、在不遇到障碍物的情况下自由移动以及相机数据捕获的效率方面也具有显着优势。根据 Bar-Levav 先生的说法，到 80 年，Indoor Robotics 在室内智能安全系统中的 TAM（总可寻址市场）将达到 2026B 美元。今天的主要客户位置包括全球领先公司的仓库、数据中心和办公园区。

广告投放

计算机视觉正在彻底改变自主游戏——在运动自动化、安全、智能建筑监控、欺诈检测和交通管理方面。半导体和人工智能的力量是强大的推动力。一旦计算机以可扩展的方式掌握了这种令人难以置信的感官模式，可能性就无穷无尽。

资料来源：https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/