基于多摄像头和混合疏导模型的驾驶行为评分系统
作者:牛浩懿、王惠生、相良儒 所属院系 自动化系
指导老师:胡坚明 所属院系 自动化系
关键词:车辆重识别、深度强化学习、博弈论
摘要
我们利用路测设备中的多摄像头感知数据,对视频数据在仿真系统中进行重建,并作为评分系统的输入。评分系统分为直道和交叉口环境下两部分,直道上采用改造的DQN算法,输出的Q值函数定义在动作空间当中,对所有动作有着天然的评分属性;在交叉口处采用解决交叉口拥堵冲突能力强的博弈论方法,并采用博弈论中的支付函数作为输出。对每一步的Q值或者支付函数值都进行归一化处理并根据现实中驾驶员选择的动作形成实时分数,根据评分对驾驶员反馈奖励,可优化驾驶习惯,提升行车安全。
图 1:整体架构
多摄像头感知
我们先利用YOLO-v3算法进行车辆物体的目标检测,之后利用基于时空连续性的跟踪算法进行多车辆目标的跟踪。利用ResNet网络结构和Triplet Loss方法提取车辆特征并进行车辆重识别,从而实现跨摄像头车辆的跟踪。
图 2:多摄像头感知模块流程
交叉口评分决策
从车辆个体的决策行为出发,路口形成一个博弈。由于车辆时刻决策,因此是一个动态博弈。车辆具有不同排队优先级,每次做出决策时,车辆的状态均与上一次做出决策时不同,是结构不同的序贯博弈。车辆只关注眼前几次的效用,越远处的效用对当前决策影响越小,引入动态k级模型。以支付函数值为交叉口环境下的评分依据。
图 4:交叉口环境评分演示
路段评分决策
改造的DQN方法采用柔性可变的状态空间,以最紧密的数据组织形式高效地筛选交通状态信息,可以适应任何的路段拓扑结构。除此之外在状态空间中加入了速度适应项以根据车速调整视野,加入前车是否做出避让性质的动作这一信息,深化DQN智能体对前车动作的理解。使用连续奖励函数对智能体进行密集刺激,提高了学习效果。最终用Q值函数作为路段环境下的评分依据。
图 5:路段决策模块算法
图 6:路段环境评分演示