如何实现超时未支付订单自动取消

精练回答

最优的解决方案是使用 RabbitMQ、Pulsar 等消息队列的延时投递机制。消息队列可以提供每秒十万以上的吞吐量，并且可以动态扩缩容满足更大业务量需求。消息队列的 ACK 机制可以在操作失败的情况下进行重试，保证可靠性。

最简单的方案是定时查询数据库，通过 SQL 找出需要取消的订单。在合理设计了索引的情况下，扫描数据库可以应付中小规模的业务量。且无需引入新的中间件，整体简单可靠。

如果业务量更大一些，且没有延时消息队列可用的情况下可以使用Redis 的 ZSet 数据结构来模拟延时消息队列，比如 redisson delayqueue。这种方案可以在 Redis 没有故障的情况下提供可靠的延时消息功能，但若遇到 Redis 崩溃可能会遗失消息。

Redis 的键空间监听理论上可以收到订单超时的消息，但是 Redis 官方手册明确指出键空间通知会存在分钟级的延迟。此外键空间通知采用的是发送即忘(fire and forget)策略，并不像消息队列一样保证送达。当监听服务器遇到网络抖动或者变更重启时极易丢失数据。所以，绝不应该使用 Redis Keyspace Notifications 来实现超时自动取消。

扩展分析

1. 使用消息队列的延时投递机制（如RabbitMQ、Pulsar）

使用支持延时消息的队列，如RabbitMQ（需安装rabbitmq_delayed_message_exchange插件）、Apache Pulsar（原生支持延迟消息）或RocketMQ（支持延迟级别）。

流程：

用户下单时，创建订单（记录create_time和status=未支付），并发送一条延时消息到消息队列，消息包含订单ID，延迟时间为超时时间（如30分钟）。
消息队列在指定延迟时间后将消息投递到消费者。
消费者查询订单状态，若仍为“未支付”，则更新为“已取消”，并执行相关逻辑（如释放库存）。

优点：

高吞吐量：支持每秒十万以上消息处理，适合高并发场景。
动态扩展：消息队列支持水平扩展，可通过增加消费者节点应对业务增长。
可靠性：ACK机制确保消息投递可靠，失败可重试。
精确延时：延迟投递时间精确，适合对超时时间要求严格的场景。

缺点：

复杂度增加：需引入消息队列中间件，增加系统维护成本。
依赖外部组件：消息队列故障（如网络抖动、队列堆积）可能导致延迟或消息丢失。
开发成本：需要开发消费者逻辑，并处理消息重复投递的幂等性问题。
部署成本：消息队列集群的部署和运维需要额外资源。

适用场景：

高并发、订单量大的系统（如电商平台日订单量>10万）。
对实时性和可靠性要求高的场景。

优化建议：

使用分布式锁（如Redis）或乐观锁确保并发安全。
配置死信队列（Dead Letter Queue）处理无法消费的消息。
监控消息队列的堆积情况，及时扩容或优化消费者性能。

2. 定时查询数据库

实现方法：

流程：

订单创建时，记录create_time和status=未支付。
定时任务（每分钟或每5分钟）执行SQL查询，找出status=未支付且create_time < 当前时间 - 超时时间的订单。
更新订单状态为“已取消”，并释放库存。

SQL示例：

UPDATE orders
SET status = 'CANCELED'
WHERE status = 'UNPAID'
AND create_time < DATE_SUB(NOW(), INTERVAL 30 MINUTE);

为orders表的status和create_time字段创建复合索引，可以极大的提升上述扫描的效率：

CREATE INDEX idx_status_create_time ON orders(status, create_time);

优点：

简单可靠：无需引入额外中间件，开发和维护成本低。
易实现：适合快速开发和原型验证。
数据库优化后性能可接受：合理索引可支持中小规模业务（日订单量<10万）。

缺点：

性能瓶颈：高并发场景下，频繁扫描数据库可能导致性能问题。
实时性不足：定时任务间隔（如1分钟）导致取消时间不精确。
扩展性差：在大规模分布式系统中，单点定时任务可能成为瓶颈，需引入分布式任务调度框架。
数据库压力：高频查询可能影响数据库性能，特别是在订单量大时。

适用场景：

中小型系统，订单量较小（日订单量<10万）。
对实时性要求不高，开发资源有限的场景。

3. 使用Redis ZSet模拟延时消息队列

使用Redis的ZSet数据结构，结合score表示触发时间，通过 ZRangeByScore 命令扫描已到时间的消息，交给worker 去进行取消操作。

为了提升性能，我们可以引入一个名为 Ready 的 list 数据结构。首先通过 lua 脚本原子性的将已到超时时间的订单移动到 Ready 中，每个 worker 都可以通过 LPop 命令从 ready 中拿到一个超时订单进行处理。这种方案相对于每个 worker 直接扫描 pending, 在有 N 个订单 M 个 worker 的情况下计算量就由 O(M*logN) 降低到了了 O(logN + M)。

我们可以再引入一个名为 Running 的 ZSet, 它的 score 是任务执行的 Deadline。同样用一个 lua 脚本定时扫描 Running 将超时任务放回 Pending 即可实现任务的重试功能，进一步提升可靠性。

redisson 的 RDelayedQueue 等工具对这一思路提供了完善的实现，包括 ACK 和重试机制，可以在 Redis 没有崩溃的情况下提供可靠消息服务。

优点：

轻量级：无需引入复杂消息队列，Redis部署简单。
高性能：Redis ZSet操作效率高，适合中小规模场景。
灵活性：可通过调整score实现动态超时时间。

缺点：

可靠性不足：Redis故障（如崩溃或主从切换）可能导致数据丢失，需扫描数据库作为兜底。
扩展性有限：Redis 单点的吞吐量不如专业消息队列，难以应对超大规模场景。
轮询开销：需要定时任务轮询ZSet，增加系统复杂度和资源消耗。

适用场景：

中等规模系统，无消息队列但有Redis可用。
对实时性要求较高，但可以接受一定程度的数据丢失风险。

4. 使用Redis Keyspace Notifications（不推荐）

利用Redis的键空间通知（Keyspace Notifications）监听键过期事件。

流程：

订单创建时，设置一个带有TTL（如30分钟）的Redis键（如order:timeout:{orderId}）。
启用Redis键空间通知，监听键过期事件。
通过 PubSub 机制，订阅相应 channel 获得键过期时间。监听到过期事件后，触发订单取消逻辑。

缺点：

不可靠：Redis键空间通知采用“fire and forget”策略，不保证消息送达，网络抖动或服务重启可能导致消息丢失。
延迟问题：官方文档指出通知可能有分钟级延迟，无法满足高实时性需求。
资源消耗：开启键空间通知增加Redis性能开销，可能影响其他功能。

学习交流

如果你在编程面试、技术提升的路上苦苦摸索，别错过牛哥的公众号牛牛码特，定期更新系列知识，帮你精准攻克面试难关。点个关注👆，优质内容不错过!

关注牛哥公众号：牛牛码特，回复：1，即可获得秋招大礼包

面经统计表/Java Top100面试题/秋招企业投递表