论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD
1 intro
1.1 背景
- 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域
- 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送

- 除了对客户满意度至关重要外,最后一公里配送还是整个运输过程中最昂贵和最耗时的部分
- 路线规划
- 预计到达时间(ETA)预测
- 路线预测
- 这些研究的一个关键前提是高质量、大规模数据集的可用性。
- 然而,在最后一公里配送研究领域,虽然已经开发了大量算法,但仍缺乏广泛认可的、公开可用的数据集
- 因此,这一领域的研究主要集中在少数工业研究实验室中,限制了透明度并阻碍了研究进展。
1.2 论文思路

- 提出了LaDe,这是由菜鸟收集的首个综合性最后一公里配送数据集
- 包含了包裹的取件和配送数据
- Cainiao-AI/LaDe · Datasets at Hugging Face
- LaDe具有以下几个优点:
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 这是目前最大规模的公开数据集
- (2) 全面,提供了有关包裹、位置、任务事件和快递员的详细信息
- (3) 多样性,收集了来自不同城市的取件和配送过程的数据
- ——>凭借这些优势,LaDe可以用于评估与最后一公里相关的广泛任务
- (1) 大规模,涵盖了21,000名快递员在6个月内配送的10,677k个包裹
- 论文通过三个任务来研究其特性,包括路线预测、预计到达时间预测和时空图预测
2 相关工作
2.1 数据集视角
- 目前没有公开可用的最后一公里配送数据集同时包含包裹取件和配送数据
- 最接近的相关工作来自亚马逊[21](本文称为AmazonData)
- 这是一个由亚马逊提出的快递员执行的序列数据集,旨在为亚马逊主办的最后一公里路线研究挑战提供数据支持
- 包含了2018年亚马逊快递员在美国五个大都市区执行的9,184条历史路线
- D. Merchán, J. Arora, J. Pachon, K. Konduri, M. Winkenbach, S. Parks, and J. Noszek, “2021 amazon last mile routing research challenge: Data set,” Transportation Science, 2022.
- 存在三个局限性:
- 1) 没有取件数据,仅包含包裹配送过程中的数据;
- 2) 在时空范围和轨迹数量方面规模较小;
- 3) 缺乏与快递员及任务事件相关的信息,无法惠及有不同研究兴趣的更广泛研究群体

2.2 应用视角
- 广义上,最后一公里物流有四个分支
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
- 快递员路线及到达时间预测
- A deep learning method for route and time prediction in food delivery service
- Graph2route: A dynamic spatial-temporal graph neural network for pick-up and delivery route prediction
- 自助技术
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 无人机辅助配送
- What’s in the parcel locker? exploring customer value in e-commerce last mile delivery
- 快递员路线及到达时间预测
- 2) 与最后一公里相关的数据挖掘,旨在从现实世界运营产生的数据中挖掘潜在的知识模式,以改进物流管理
- “Discovering actual delivery locations from mis-annotated couriers’ trajectories
- 3) 运营优化,主要关注优化最后一公里运营并做出更好的运营决策
- 车辆路径问题
- Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- Appointment scheduling and routing optimization of attended home delivery system with random customer behavior
- 配送调度
- “Last-mile delivery made practical: An efficient route planning framework with theoretical guarantees
- 设施选址选择
- “Solution of two-echelon facility location problems by approximation methods
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 车辆路径问题
- 4) 供应链结构,关注为最后一公里物流设计结构,例如网络设计[30]
- “Locating collection and delivery points for goods’ last-mile travel: A case study in new zealand
- 1) 新兴趋势和技术,重点研究最后一公里物流中的技术解决方案和创新
3 数据
3.1 数据收集
3.1.1 包裹运输流程
- 该数据集由菜鸟网络收集.包裹运输的典型过程包括以下步骤:
- 1,客户(发件人)通过在线平台下单取件。
- 2,平台将订单分派给合适的快递员。
- 3,快递员在指定时间窗口内取件并返回配送站(这构成了包裹的取件过程)。
- 4,包裹从配送站出发,通过物流网络运输至目标配送站。
- 5,在目标配送站,配送快递员取出包裹并送达收件人(称为包裹配送过程)。
- 在这些步骤中,第3步和第5步被称为最后一公里配送,快递员从/向客户取件/送件。
3.1.2 取件和配送场景异同 & LaDe的两个子数据集
- 取件和配送场景之间存在显著差异。
- 在包裹配送过程中,分配给某快递员的包裹在快递员离开配送站前就已确定。
- 而在取件过程中,分配给快递员的包裹并不是一开始就确定的,而是随着时间推移逐步揭示的,因为客户可以随时请求取件。
- 取件过程的动态性给研究领域带来了巨大挑战。
3.1.3 LaDe数据集
——>LaDe包含了两个子数据集,分别针对取件和配送场景,命名为LaDe-P和LaDe-D
- 收集了在中国不同城市中产生的数百万条取件/配送数据,数据涵盖6个月的时间

- 一个城市包含不同的区域,每个区域由多个AOI(感兴趣区域)组成,供物流管理使用
- 快递员负责在若干指定AOI内取件或送件

- 为了收集每个城市的数据,论文首先随机选择该城市中的30个区域。
- 随后,论文在每个区域中随机抽取快递员,并收集所有选定快递员在6个月内的取件/配送包裹数据
3.2 数据集详情
- 每条记录包含与取件或配送包裹相关的信息,主要涉及“谁、何地、何时”等方面。
- 具体来说,记录中说明了哪位快递员取件或送件、包裹的位置及相应的时间。
- 记录的信息大致可分为四类:
- 包裹信息,记录包裹ID及时间窗口要求
- 站点信息,如坐标、AOIID和AOI类型;
- 快递员信息,记录快递员的ID,每位快递员都配备了个人数字助理(PDA),该设备会持续向平台报告快递员的状态(例如GPS);
- 任务事件信息,记录包裹接受、取件或配送事件的特征,包括事件发生时间和快递员的位置信息。
- 包裹信息,记录包裹ID及时间窗口要求
3.3 数据集统计
- a——快递员工作时间
- b,c——包裹空间分布
- d——数据中前五大AOI类型的分布
- e——随机选择的10位快递员的实际到达时间
- f——数据集中两位快递员的工作概况
3.4 数据集特征与挑战
3.4.1 大规模
- LaDe数据集总共包含10,667k个包裹和619k条轨迹,这些轨迹由21,000名快递员生成,涵盖16,755k个GPS定位点,覆盖5个城市,跨越6个月的时间。
- 单次取件和配送场景中,快递员一次最多可处理的包裹数分别达到95个和121个
- 如此大规模的数据给最后一公里配送算法带来了显著挑战。
3.4.2 全面性
- LaDe旨在提供与最后一公里配送相关的丰富信息,涵盖了各种数据类型
- 详细的包裹信息
- 任务事件日志
- 快递员轨迹详细信息
- 上下文特征
- 如何有效利用这些综合特征来改进现有任务或启发新任务,仍然是不同领域研究人员面临的一个开放性问题。
3.4.3 多样性
- 场景多样性——我们通过收集代表取件和配送两个场景的子数据集引入场景多样性。
- 任务动态性(仅针对LaDe-P)。与LaDe-D不同,LaDe-P中的快递员任务在一天的开始时并未确定,而是随着取件过程的进行逐步揭示,因为客户可以随时下单。
- 这种快递员任务的动态性在多个研究领域中带来了显著的技术挑战,动态路线优化便是一个典型例子
4 任务
4.1 路线预测


4.2 ETA


4.3 时空图 (STG) 预测
计算出特定区域在一定时间段内的包裹数量


4.4 其他应用

相关文章:
论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry
2023 KDD 1 intro 1.1 背景 随着城市化进程的加快和电子商务的发展,最后一公里配送已成为一个关键的研究领域 最后一公里配送,如图1所示,是指连接配送中心和客户的包裹运输过程,包括包裹的取件和配送除了对客户满意度至关重要外…...
无用的知识又增加了-静态二值贝叶斯滤波
静态二值贝叶斯滤波 静态二值贝叶斯滤波(Static Binary Bayes Filter)是一种用于处理二值状态(例如,目标存在或不存在)的简单贝叶斯滤波器。这种滤波器通常应用于目标检测、传感器融合等场景,其中状态空间…...
cesium相机(camera)控制
camera基础属性: Cesium 中的相机通过 viewer.camera 来获取和操作。 position:相机的位置,用 Cartesian3 坐标表示,表示的是相机在世界坐标系中的绝对位置。 viewer.camera.position Cesium.Cartesian3.fromDegrees(longitude, latitude, height);dir…...
Java 反射
一、基本概念 Java反射机制是Java语言的一种动态特性,允许程序在运行时检查和操作类、接口、字段和方法。反射机制使得Java程序可以在运行时获取关于类的详细信息,并且可以动态地调用类的方法、访问类的字段等。反射机制主要涉及以下几个核心类和接口&a…...
【目标检测01】真实框、预测框、锚框和交并比IoU
文章目录 1. 任务定义2. 基本概念2.1 边界框(bounding box)2.2 真实框、预测框和锚框2.3 交并比 (IoU)2.4 代码实现 1. 任务定义 目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框&#x…...
青少年编程能力等级测评CPA C++五级试卷(2)
青少年编程能力等级测评CPA C++五级试卷(2) 一、单项选择题(共15题,每题3分,共45分) CP5_2_1.下列有关类的重用方法的叙述中,不正确的是( )。 A.类的继承可以实现类的重用 B.类的组合可以实现类的重用 C.类的封装可以实现类的重用 D.类的继承和类的组合都可…...
SATA数据线
SATA 数据线(Serial ATA 数据线)是一种用于连接计算机主板与存储设备(如硬盘、固态硬盘和光驱)的线缆。它的主要作用是传输数据,允许计算机与这些设备之间进行高效的数据交换。 主要作用 数据传输:SATA 数…...
《云原生安全攻防》-- K8s攻击案例:权限维持的攻击手法
在本节课程中,我们将一起深入了解K8s权限维持的攻击手法,通过研究这些攻击手法的技术细节,来更好地认识K8s权限维持所带来的安全风险。 在这个课程中,我们将学习以下内容: K8s权限维持:简单介绍K8s权限维持…...
回溯算法-Java【力扣】【算法学习day.14】
前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴&am…...
从本地到云端:跨用户请求问题的完美解决方案
对于某些单个请求或响应中含有多个用户信息的服务,SDK提供了一套基于统一的UCS拆分和聚合的解决方案供开发者使用。 请求拆分 对于跨用户服务的请求,我们提供了两个处理方案: 【1】根据用户信息拆分请求: 场景:请求内…...
leetcode day4 409+5
409 最长回文串 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的 回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串。 示例 1: 输入:s "abccccdd" 输出:7 解…...
英语语法学习框架(考研)
一、简单句 英语都是由简单句构成,简单句共有五种基本句型:①主谓;②主谓宾;③主谓宾宾补;④主谓宾间宾(间接宾语);⑤主系表; 其中谓语是句子最重要的部分,谓…...
基于neo4j的学术论文关系管理系统
正在为毕业设计头疼?又或者在学术研究中总是找不到像样的工具来管理浩瀚的文献资料?今天给大家介绍一款超实用的工具——基于Neo4j的学术论文关系管理系统,让你轻松搞定学术文献的管理与展示!🎉 系统的核心是什么呢&a…...
C#中的委托、匿名方法、Lambda、Action和Func
委托 委托概述 委托是存有对某个方法的引用的一种引用类型变量。定义方法的类型,可以把一个方法当作另一方法的参数。所有的委托(Delegate)都派生自 System.Delegate 类。委托声明决定了可由该委托引用的方法。 # 声明委托类型 委托类型声…...
IDEA关联Tomcat——最新版本IDEA 2024
1.链接Tomcat到IDEA上 添加Tomcat到IDEA上有两种方式: 第一种: (1)首先,来到欢迎界面,找到左侧的Customize选项 (2)然后找到Build、Execution、Deployment选项 (3&am…...
【如何获取股票数据18】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股解禁限售数据获取实例演示及接口API说明文档
最近一两年内,股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步,就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息,这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任…...
NVR小程序接入平台/设备EasyNVR多品牌NVR管理工具/设备的多维拓展与灵活应用
在数字化安防时代,NVR批量管理软件/平台EasyNVR作为一种先进的视频监控系统设备,正逐步成为各个领域监控解决方案的首选。NVR批量管理软件/平台EasyNVR作为一款基于端-边-云一体化架构的国标视频融合云平台,凭借其部署简单轻量、功能多样、兼…...
GPT-4o 和 GPT-4 Turbo 模型之间的对比
GPT-4o 和 GPT-4 Turbo 之间的对比 备注 要弄 AI ,不同模型之间的对比就比较重要。 GPT-4o 是 GPT-4 Turbo 的升级版本,能够提供比 GPT-4 Turbo 更多的内容和信息,但成功相对来说更高一些。 第三方引用 在 2024 年 5 月 13 日࿰…...
gin入门教程(10):实现jwt认证
使用 github.com/golang-jwt/jwt 实现 JWT(JSON Web Token)可以有效地进行用户身份验证,这个功能往往在接口前后端分离的应用中经常用到。以下是一个基本的示例,演示如何在 Gin 框架中实现 JWT 认证。 目录结构 /hello-gin │ ├── cmd/ …...
Python 基础语法 - 数据类型
顾名思义,计算机就是用来做数学计算的机器,因此,计算机程序理所当然的可以处理各种数值。但是,计算机能处理的远远不止数值,还可以处理文本,图形,音频,视频,网页等各种各…...
C++初阶-list的底层
目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...
从零实现富文本编辑器#5-编辑器选区模型的状态结构表达
先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...
测试markdown--肇兴
day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
现代密码学 | 椭圆曲线密码学—附py代码
Elliptic Curve Cryptography 椭圆曲线密码学(ECC)是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础,例如椭圆曲线数字签…...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...
springboot整合VUE之在线教育管理系统简介
可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生,小白用户,想学习知识的 有点基础,想要通过项…...





