论文部分内容阅读
按需服务平台,例如滴滴出行、货拉拉等,为人们的生活带来了巨大的便利。其工作流程为:首先平台客户将其需求提交到平台,平台再根据自己的需求分配策略将需求分配给相应的服务提供者,其后接收到需求的服务提供者决定是否接受该需求并进行服务。平台客户往往希望其需求被尽快接受,同时按需服务平台也希望平台中需求的应答率尽可能的高。然而,不同的服务提供者对不同需求的偏好程度不同,若服务提供者接收到了其不感兴趣的需求,平台将允许其拒绝该需求,这使得如何将需求分配给服务提供者以同时满足平台客户和按需服务平台的利益变得相当困难。此外,需求和服务提供者的分布还具有时空动态性,导致原本就困难的需求分配问题变得更具挑战性。已有的需求分配模型以数据驱动的思想解决了此类平台中的需求分配问题,其将需求一轮一轮地进行分配,并于每轮分配开始时基于历史数据预测此轮分配中服务提供者对需求的偏好,再根据该偏好进行需求分配。在该模型中,每个服务提供者在一轮分配中可以接收到一个需求,每个需求在一轮分配中被推送给多个服务提供者以增加该需求在此轮分配中被接受的可能性。然而,当平台中的服务提供者数量不足时,此需求分配方案在一轮分配并不能将所有需求推送给服务提供者,挂起的需求将等待多轮才能被推送给服务提供者,造成需求的应答时间(需求被服务提供者接受的时间)过长。为了解决这个问题,本文提出了一种多对多需求分配模型。在该模型中,每个服务提供者在一轮分配中可以接收到多个需求,同时每个需求仍然可以被推送给多个服务提供者,如此每个需求的应答时间将会有更大的可能变短。该模型首先基于历史需求应答数据中需求和服务提供者的特征,学习到服务提供者对需求应答时间的概率分布函数;随后将该学习结果输入到需求分配的最优化问题中,其优化目标为最小化需求的平均期望应答时间;最终通过解该最优化问题生成需求分配方案。在真实数据集上进行的实验表明,本文提出的多对多需求分配模型在需求应答率和需求平均应答时间上均优于已有的需求分配模型。以单轮的视角,多对多需求分配模型所产生的需求分配结果是较好的分配方案;但在多轮的角度下,由于需求和服务提供者分布的时空动态性,其分配结果可能并非最优。为了解决这个问题,本文进一步提出了基于强化学习的多对多需求分配模型。在该模型中,每个需求都被认为是一个智能体,每个智能体的动作为将自己推送给哪些服务提供者。考虑到每个智能体的动作空间较为巨大,且智能体需要彼此合作,该模型在每一轮需求分配中都通过基于状态价值函数的组合优化确定每个智能体的动作。基于真实数据集的实验表明,该基于强化学习的多对多需求分配模型在需求取消率和需求平均应答时间上均优于原多对多需求分配模型。