在资源有限、数据成本高昂的现实情况下,盲目扩充数据不仅不可持续,也难以实现高效利用。因此,如何精准识别关键数据缺口,提升数据利用效率,实现数据驱动下的持续优化闭环,正成为推动自动驾驶技术安全落地的核心挑战。
针对这一难题,2025年3月19日,在第六届软件定义汽车论坛暨AUTOSAR中国日上,Foretellix中国工程部技术经理吴兆勇介绍了一项创新性的解决方案——数据驱动的自动驾驶开发工具链Foretify。
在深入了解Foretify之前,不妨通过以下视频先对其核心功能有一个初步了解。视频展示了Foretellix与NVIDIA Omniverse联合解决方案的最新进展:该方案支持物理级高精度传感器仿真场景的自动生成,可广泛应用于自动驾驶算法的训练与测试验证。
Foretify解决方案的核心技术聚焦于数据评估与数据生成(Foretify Generate)两个方面。通过先进的数据评估能力,工具链能够深入分析测试数据,衡量其覆盖度,识别现有数据集中的薄弱环节。基于此,数据生成技术进一步自动化地生成针对性数据,有效填补覆盖盲区,提升数据的多样性与完整性。
Foretellix中国工程部技术经理
以下为演讲内容整理:
无论是算法的训练过程,还是其测试验证环节,均无法脱离数据的支撑。企业和客户通常掌握着源自多种渠道的海量数据,这些数据包括仿真数据以及实际道路测试数据等,挑战之处在于如何迅速地从这些海量数据中挖掘出真正具有价值的信息。对于算法训练或测试验证而言,如何从数据中分析评估自动驾驶系统的安全性及其表现是一个重要课题。
如何以量化指标和数据支撑生成安全评估报告,也是我们客户最为关注的核心问题之一。我们迫切希望明确,现有海量数据在训练和验证过程中是否具备足够的充分性,数据覆盖是否全面,是否存在关键缺口亟待补充。在识别这些不足后,如何高效地优化并填补数据。这些都是我们当前面临的重要挑战。然而,我们拥有的资源是有限的,尤其在中国这样竞争激烈的环境下,无论是人力资源、算力资源、还是上市时间窗口,都显得尤为紧迫。
针对上述挑战,Foretellix提出了一套以数据为中心的解决方案,核心在于构建一条高效、可量化的闭环流程,专为自动驾驶系统的开发与验证而设计。该方案由两项关键技术组成:数据评估与数据生成(Foretify Generate)。Foretify Evaluate能深入分析现有测试数据,生成详尽的评估报告,精准识别数据覆盖度与潜在缺口;随后,Foretify Generate 针对性地生成补充数据,填补不足,最终实现评估与生成闭环,持续优化数据体系。
图源:演讲嘉宾素材
我们的工具链平台名为Foretify,集成了多个功能模块,围绕“数据驱动”这一核心理念构建。首先,我们从数据出发,面对用户已积累的大量路测或仿真数据,Foretify能高效提取其中的关键信息,为后续的数据分析与评估提供有力支撑。我们的一位北美客户是一家专注于 L4 级无人配送小车的企业,他们亟需了解当前采集数据的具体内容、所覆盖的场景类型,以及在不同场景下自动驾驶系统的实际表现。
为满足这一需求,我们的平台子模块logIQ可接收原始道路采集数据,并自动识别、标注用户关心的关键场景片段。例如,自动检测每一次车辆通过十字路口的场景。logIQ 不仅能实现精准的场景切分与分类,还能为每个场景提取相关参数与行为指标,进而构建结构化的数据集。
基于这些数据集,我们便能够开展更深入的分析与诊断工作——包括识别异常、评估ODD覆盖度、分析系统在特定场景中的行为表现等,从而为系统优化提供可靠的数据支撑。
图源:演讲嘉宾素材
在提取出结构化数据后,我们可借助Foretify Manager——一套专为大规模数据分析设计的平台工具,对全量数据进行统一汇总与深入分析。该平台基于统计方法呈现各项关键指标在目标测试空间中的分布情况,从中提取有价值的信息与洞见。
图源:演讲嘉宾素材
在上图可视化图表中,右侧标记绿色的区域表示已有数据覆盖的指标区间,即场景中存在对应的测试数据落在该范围内;红色区域则标识覆盖盲区,代表当前数据尚未触达该指标区间,也即我们需要关注与补充的覆盖漏洞。
图示左侧展示了对测试需求的追踪情况,包括目标覆盖项与关键性能指标等内容,所有数据均可在Foretify Manager中实现统一整合与追踪,助力高效决策与数据闭环优化。
我们还提供了名为Triage的问题分类与诊断模块,专为从海量测试数据中快速识别和归类自动驾驶系统中的潜在问题而设计。Triage 支持用户基于特定指标自定义规则,并自动执行筛选与分类。
用户可灵活设定规则以捕捉关键场景,例如所有发生碰撞或接近碰撞的案例,或 TTC低于某一阈值的事件等。一旦规则设定完成,系统将自动筛选匹配案例,大幅提升问题定位效率。
此外,对于某些关键失效案例,平台还提供深入分析与可视化回放功能,支持用户对问题根因进行详细研判,助力闭环优化与系统迭代。
通过 Evaluation模块,我们能够识别测试数据中的不足、缺口与覆盖盲区。为了有针对性地补全这些漏洞并提升数据质量,我们引入了另一项核心技术能力——Generation。
在数据生成方面,我们采用两条技术路径。第一条路径基于 实际路测数据,从中提取具有代表性和分析价值的场景,并在此基础上进行场景扩展。为此,我们开发了 Smart Replay功能,它可在真实驾驶场景基础上引入多样化变化,实现智能化的数据生成。
例如,在自动驾驶车辆左转的场景中,若原始数据中行人在车辆通过后才开始通行,Smart Replay 可通过微调行人穿行时机,使场景更具挑战性。此外,我们还可以动态调整NPC的行为参数,如车速、车道位置等,甚至修改环境条件,如天气、时间等因素。
借助 Smart Replay,我们能够对真实场景进行 二次泛化,在保持真实性的前提下生成丰富、具代表性的测试样本,从而显著扩充数据集。这是我们数据生成的第一条核心技术路径。
第二条技术路线则采用相对传统的方式,即通过正向设计场景并进行随机泛化。然而,我们在此基础上引入了关键创新:基于 OpenSCENARIO DSL 的抽象场景,实现更智能、更可控的场景泛化。
OpenSCENARIO DSL 是我们与 ASAM 共同推进的最新行业标准。下图所示为其典型用例——一个抽象场景的定义示例。不同于传统以轨迹或具体行为为核心的场景创建方式,抽象场景从更高层级描述行为逻辑与交互关系,聚焦于场景意图和本质特征。这种表达方式不仅更具通用性,也极大提升了自动化泛化的效率与质量。
图源:演讲嘉宾素材
例如,假设我们希望通过抽象场景描述一个cut in并道场景,其场景本质可描述为:一辆 NPC 车辆从邻近车道并入,最终驶入我方车辆前方的同一车道。我们可通过简洁的几行 OpenSCENARIO DSL 代码定义该场景的起始与结束状态,并设定关键约束条件——如场景开始时两车位于不同车道、同向行驶,场景结束时 NPC 车位于我方车辆前方的同一车道。
至于具体发生在哪段道路、以何种速度切入、从哪个方向变道等细节,无需在抽象层级中定义,因为这些均属于该抽象场景所涵盖的参数空间,可由平台在后续场景生成阶段进行实例化泛化生成。借助 OpenSCENARIO DSL,我们能够准确表达行为的本质特征行为,而后通过 Foretify 平台进行随机泛化求解,自动生成大量不同的并道场景。
抽象场景的优势在于其巨大的表达空间,尤其适用于大规模场景空间探索,发现未知风险。它已广泛应用于 Vamp;V 验证流程中的海量测试,以及 AI 算法训练所需的合成数据生成,为自动驾驶开发带来更高效、更系统化的场景支撑。
此外,抽象场景天然具备模块化特性,允许我们基于一组基础模块灵活构建出更复杂的场景组合。同时,抽象场景的定义与地图是解耦的:在编写抽象场景时,无需指定其所属的具体地图或位置。这使得同一个抽象场景可适配于多个地图环境,并在所有符合约束条件的位置上自动生成具体实例。如下图所示:当路口右转遇行人这样一个抽象场景与一张包含多种交叉路口元素的地图搭配使用时,Foretify 将自动在所有满足约束条件的路口位置上,生成多种变化形式的具体路口场景,实现场景的大规模、多样化自动生成。
图源:演讲嘉宾素材
这种设计不仅提升了生成效率,更具备强大的未知风险发现能力。例如,对于“两车交汇”这一常见场景,人工正向设计时往往局限于十字路口等典型区域。而通过 Foretify,系统能够在如加油站捷径这类非常规道路上,自动识别并生成潜在交汇与碰撞场景,揭示出工程师可能遗漏的高风险区域。
这些“意料之外”的特殊情境,正是提高测试覆盖度、暴露系统脆弱点的关键所在。抽象场景与地图的解耦性,为我们提供了更广泛、更系统的场景探索能力,是面向规模化验证与安全分析的重要技术手段。
综上所述,Foretify 以数据为核心,构建了由 Evaluation与 Generation(生成) 驱动的高效开发闭环。通过 Evaluation,我们能够系统识别测试或训练数据中的覆盖盲区与代表性不足;借助 Generation,结合抽象场景建模与智能泛化能力,平台可自动补全数据缺口、扩展多样化的场景样本,不仅提升Vamp;V验证效率和测试覆盖率,也可为 AI 算法训练提供高质量、具挑战性的合成数据。未来,我们还将持续推进更多创新功能,敬请大家持续关注。