2025年4月16日,由清华大学计算社会科学与国家治理实验室主办的“清华交叉学科研究能力提升计划——2024年秋季清华大数据与因果推断研讨班”第十七期讲座在线举行。本次讲座邀请清华大学经济管理学院管理科学与工程系副教授梁湧老师,作题为《Online (Learning while Doing) Joint Assortment-Inventory Optimization under Multinomial Logit (MNL) Choices》的学术报告。梁湧老师的研究领域包括数据驱动的供应链与运营管理决策优化、能源与数据中心等新供应链、动态机制设计等。讲座由陈思丞副教授主持,研讨班1500余名学员通过B站同步参与直播。
在当前快速变化的零售业态中,无论是电商平台还是实体零售商,都面临着两个关键运营决策难题:商品选择(Assortment)和库存确定(Inventory)。特别是在缺乏历史数据和消费者偏好信息不完整的动态环境下,这一决策过程变得尤为复杂。
梁老师以快时尚行业典型案例(如Zara、Shein等)说明,在商品迭代迅速、爆款预测困难的现实场景中,传统的静态决策方法已难以满足实际需求。其团队采用多项Logit(Multinomial Logit,MNL)选择模型作为理论基础,该模型能够有效刻画消费者在有限选择集中的概率选择行为,为在线优化问题提供了坚实的建模框架。
本研究从一个具体的线下便利店场景出发,设定商品为同类可替代品,在每个库存周期开始时商家需做出商品组合及库存决策。随着顾客陆续到店选购,库存状态实时变化,当某些商品售罄时会产生需求数据的截断现象(Censored Demand),这使得消费者偏好参数的准确估计面临重大挑战。梁湧老师指出,解决该问题的难点主要在于:在多项Logit(MNL)选择模型下,如何动态优化每期的品类和库存?如何将近似优化方法融入在线算法以缩小学习差距?在库存限制导致需求数据截断的情况下,如何准确估计产品吸引力参数?
为应对上述挑战,梁老师团队提出了一种基于“置信上界”(Upper Confidence Bound, UCB)机制的探索—利用算法。该算法将库存周期划分为多个决策时段(epoch),在每个时段内保持商品组合不变以确保数据收集的充分性。当上架商品获得至少一次购买记录后,系统即可更新消费者偏好参数的估计,进而优化后续决策。
与传统UCB算法扩展方案相比,新算法通过调高已知利润率,强制促进对数据稀缺商品的探索。通过引入动态调整利润的机制,并结合置信区间估计,所提出的算法有效避免了部分商品因初期信息不足而被永久忽略的问题。
此外,梁老师还介绍了如何引入近似最优解法器(approximate oracle)以解决实际场景中难以精确求解的问题,并探讨了算法在库存可结转、动态到达率学习等场景下的扩展空间。
梁老师在讲座最后总结指出,本研究通过创新性的利润调节机制、合理设计的置信区间构建与近似优化融合策略,在联合选品-库存优化领域实现了理论上近乎最优的学习效果,并具备良好的工程应用前景。他认为未来的研究方向包括探索商品特征降维建模、定制化选品策略设计等,以进一步提升大规模系统下的学习与决策效率。
本次讲座展示了管理科学与运筹学领域的前沿研究成果,其严谨的理论推导与切实的应用价值相得益彰,为与会学者提供了宝贵的方法论启示和研究思路借鉴。
撰稿人
湖南工商大学 讲师 周莎
中国社会科学院拉丁美洲研究所 助理研究员 何丙姿