文章
  • 文章
搜索
详细内容

AI算法丨数据驱动的序贯决策在智能物流中的应用

时间:2022-08-25     

近日极智嘉副总裁AI研究院院长谭文哲博士受邀出席中国物流科技年度盛会2022全球物流技术大会运筹学物流应用论坛上发表主题演讲分享运筹学在智能物流机器人中的应用并在圆桌讨论环节与阿里巴巴华为及顶尖高校专家学者共探运筹学在企业应用中的经验

2022全球物流技术大会由中国物流与采购联合会主办作为业内前沿技术创新的风向标本届大会云集了全球的学术泰斗和专家共话最新技术成果和未来研发方向

在运筹学论坛上普林斯顿大学荣誉退休教授Warren B. Powell和清华大学工业工程系赵磊教授均强调运筹学中的序贯决策模型(Sequential Decision Model)已成为当前物流管理中一种有效的建模与分析手段随后极智嘉谭文哲博士着重展开介绍了序贯决策模型在机器人智能物流中的应用并且通过数据驱动的方式不断提升系统决策的智能性有效助力客户降本增效

▲ 极智嘉谭文哲博士分享运筹学在智能物流中的应用

序贯决策在极智嘉的应用

基于机器人的智能仓可以建模成典型的序贯决策模型(图1)每个时刻系统都可以收集诸如订单工作站库存机器人等信息同时基于这些信息做出诸如派单命中任务分派路径规划调度等系列决策而下一时刻的环境信息又是基于这些决策产生新的变化

▲ 图1 智能仓中的序贯决策问题

这个过程不断循环最终完成智能仓储系统功能每个时间片都面临着海量的信息需要做出非常复杂的涉及各个系统的决策极智嘉将系统解耦成几个关键的步骤分步攻克

任务分派和派单命中是其中最典型的两个问题任务分派(如图2)指的是仓库中货架搬运任务与机器人之间的分配问题旨在建立多任务与多机器人的映射关系这是一个非常经典的运筹优化问题

▲ 图2 任务分派示意图

第二种是智能仓中面临的派单命中问题旨在建立订单-工作站-库存三者之间的决策匹配关系(如图3)这两个典型问题以往的决策现场往往仅考虑当时的情况并基于人工设定规则如果考虑决策对后续过程带来的影响是否有更好的决策表现呢?在谭文哲博士的报告中展开介绍了极智嘉对任务分派序贯决策的系列探索

▲ 图3 派单命中示意图

探索一历史数据驱动的任务分派

▲ 图4 任务分派

任务分派是极智嘉无人仓运行的基础任务分配决策的好坏直接决定了现场的订单完成时间机器人利用率等效率指标(图4)为了兼顾各方面的需求极智嘉通常考虑现场交通订单优先级货架热度等多重因素进行分配在不断落地的实践中极智嘉也持续在思考一个问题仓库现场面临着时刻不同的不确定性不同仓库不同工作站排队情况甚至不同的拣货速度下任务的价值是否也应该不同

▲ 图5 使用贝尔曼方程为智能仓任务分派问题建模

极智嘉通过丰富的场景落地和持续的技术创新提出了数据驱动的全局智能任务分派模型(图5)算法首先收集了不同仓库不同时刻不同场景的大量历史数据并对其当时的情形进行回顾性挖掘分析生成预期价值函数而在实时运行过程中算法又将实时计算当前时刻的即时价值并综合考虑通过预期价值函数生成的预期价值最后的匹配中使系统奖励值最大的方案将被采用

运行数据将积累入历史数据库中更新训练价值函数形成算法优化的闭环且不需要实施人员专门针对特定仓库进行预先的规则设定完全由数据驱动自适应仓库的特点大幅减少了项目的实施周期新的综合价值综合考虑了当前的状态与预期的影响有助于更好地感知不同时刻任务状态与时序预期状态在抽样场景中实现了相同条件下效率15%以上的提升(图6)

▲ 图6 抽样场景中相同条件下效率提升15%以上

探索二自适应价值函数驱动的任务分派算法

探索1成功带来了可观的效率提升同时引发了极智嘉进一步的思考任务的价值函数是否可感知订单和机器人密度等环境信息并随着系统运行自适应改变

针对上述问题极智嘉提出了全新的自适应价值函数驱动的任务规划算法算法在任务分配过程中进一步考虑路径规划的影响使用在线强化学习(Online Reinforcement Learning)方法挖掘订单需求特点并自适应调整任务分配策略实现对全局效率瓶颈的精准感知使优化过程更具有针对性实时性从而提高了AMR的运行效率

如图7所示整个算法流程分为四个步骤信息收集模型训练任务选择路径规划首先算法收集拣货员AMR和货架的时空信息(例如拣货员的拣货时间货架的任务预计完成时间AMR的位置信息等)收集完成后自适应规划模块基于马尔可夫决策过程模型(Markov Decision Process, MDP)对时空信息建模并使用强化学习中的Q-Learning方法训练价值函数之后算法基于价值函数选择合适的任务分配给AMR最后基于选择方案为AMR规划路径

▲ 图7 完整算法流程图

其中序贯决策模型中的状态定义中综合考虑了货架和拣货员的工作状态该建模方法有助于让强化学习智能体(Agent)更好地感知从搬运到拣货全流程中的效率瓶颈此外采用在线学习的方法及时更新状态-动作价值函数进一步提高了算法的自适应性

▲ 图8 效率瓶颈随时间在不同阶段变化的现象

一直以来极智嘉都在积极探索在任务分派模型的算法上的创新目前同场景数字孪生环境下已带来20%以上的提升未来极智嘉将坚持初心不断优化提升更好地为智慧物流赋能



技术支持: 建站ABC | 管理登录
seo seo