What is event-driven architecture and when should I use it?

Event-driven architecture (EDA) is a software design pattern where state changes are captured as immutable events and propagated asynchronously between loosely coupled services. Use EDA when you need temporal decoupling between producers and consumers, high throughput and scalability, real-time data processing, audit trails, or when multiple downstream services need to react to the same business event independently.

What is the difference between Apache Kafka and RabbitMQ?

Kafka is a distributed log designed for high-throughput event streaming with persistent storage, consumer groups, and replay capability. RabbitMQ is a traditional message broker optimized for flexible routing, message acknowledgment, and complex exchange patterns. Use Kafka for event sourcing, stream processing, and high-volume data pipelines. Use RabbitMQ for task queues, RPC-style communication, and scenarios requiring complex routing logic with exchanges.

What is event sourcing and how does it differ from traditional CRUD?

Event sourcing stores every state change as an immutable event in an append-only event store, rather than overwriting the current state in a database. The current state is derived by replaying events. This provides a complete audit trail, enables temporal queries, supports event replay for debugging, and allows building multiple read-optimized projections. Traditional CRUD only stores the latest state and loses change history.

What is CQRS and why combine it with event sourcing?

CQRS (Command Query Responsibility Segregation) separates write operations (commands) from read operations (queries) into distinct models. When combined with event sourcing, commands produce events that are stored in the event store, and projections consume these events to build read-optimized views. This allows independent scaling of reads and writes, optimized query models, and eventual consistency between write and read sides.

What is the saga pattern for distributed transactions?

The saga pattern manages distributed transactions across multiple microservices by breaking them into a sequence of local transactions, each paired with a compensating action for rollback. Orchestration uses a central coordinator to direct the saga steps. Choreography uses events where each service listens for events and triggers the next step. Use orchestration for complex workflows with many steps, and choreography for simpler flows with fewer services.

How do I handle schema evolution in event-driven systems?

Use a schema registry (Confluent Schema Registry) with serialization formats like Avro or Protobuf that support schema evolution. Follow compatibility rules: backward compatibility allows new consumers to read old events, forward compatibility allows old consumers to read new events. Always add optional fields with defaults, never remove required fields, and version your event schemas. Use the schema registry to enforce compatibility checks at publish time.

How do I test event-driven systems effectively?

Use contract testing to verify event schemas between producers and consumers. Use embedded brokers (EmbeddedKafka, TestContainers) for integration tests. Implement event replay testing by storing known event sequences and verifying projections produce correct state. Use consumer-driven contract testing with tools like Pact. For resilience, apply chaos engineering to simulate broker failures, network partitions, and consumer lag.

How do I monitor and observe event-driven architectures?

Monitor consumer lag (difference between latest offset and consumer offset) as the primary health indicator. Use distributed tracing (OpenTelemetry) to propagate correlation IDs through event headers across service boundaries. Set up dead letter queue monitoring with alerts for poison messages. Track end-to-end latency from event production to final consumption. Use tools like Kafka Manager, Grafana with Prometheus exporters, and Jaeger for trace visualization.

事件驱动架构完全指南：Kafka、RabbitMQ、事件溯源、CQRS、Saga 与流处理

全面掌握事件驱动架构 — Apache Kafka 深入剖析、RabbitMQ 模式、事件溯源（投影与快照）、CQRS 命令/查询分离、Saga 编排与协调、异步消息模式、Schema 演进（Avro/Protobuf）、无服务器事件处理、Kafka Streams 和 Flink 流处理、测试策略及分布式追踪监控。

TL;DR — 60 秒速览事件驱动架构

事件是不可变的事实记录，描述"已经发生的事情"
Kafka 用于高吞吐事件流和持久化日志，RabbitMQ 用于灵活路由和任务队列
事件溯源存储每次状态变更为不可变事件，通过重放推导当前状态
CQRS 分离读写模型，允许各自独立优化和扩展
Saga 模式处理分布式事务 — 编排式用于复杂工作流，协调式用于松耦合
使用 Avro/Protobuf + Schema Registry 管理事件 Schema 演进
Kafka Streams / Flink 实现有状态流处理（窗口、聚合、Join）
监控消费者延迟、死信队列和端到端延迟作为核心健康指标

核心要点

事件驱动架构通过异步通信实现服务间的时间和空间解耦
Kafka 的分区和消费者组模型天然支持水平扩展和消息重放
RabbitMQ 的交换器类型（direct/topic/fanout/headers）提供灵活的消息路由
事件溯源 + 投影 = 完整审计日志 + 多视图读取优化
Schema 演进需要向后兼容规则：只添加可选字段，从不删除必需字段
使用合约测试、嵌入式代理和事件重放确保系统正确性
分布式追踪（OpenTelemetry）+ 消费者延迟监控是可观测性的两大支柱

1. 事件驱动架构基础

事件驱动架构（EDA）是一种软件设计范式，系统通过产生和消费事件来进行通信。事件代表状态的变化——"已经发生的事实"。与请求-响应模型不同，EDA 中的生产者不知道也不关心谁消费了事件。

核心概念

概念	描述	示例
事件	不可变的事实记录，描述过去发生的状态变更	OrderPlaced, UserRegistered
命令	请求执行某个操作的意图（可能被拒绝）	PlaceOrder, RegisterUser
查询	请求数据但不修改状态	GetOrderById, ListUsers
事件总线	事件的传输通道，连接生产者和消费者	Kafka, RabbitMQ, NATS
生产者	发布事件的服务或组件	Order Service, Payment Service
消费者	订阅并处理事件的服务或组件	Notification Service, Analytics

// Event interface — the foundation of EDA
interface DomainEvent {
  eventId: string;           // Unique event identifier (UUID)
  eventType: string;         // e.g., "OrderPlaced"
  aggregateId: string;       // ID of the entity that produced the event
  aggregateType: string;     // e.g., "Order"
  timestamp: string;         // ISO 8601 timestamp
  version: number;           // Schema version for evolution
  payload: Record<string, unknown>;
  metadata: {
    correlationId: string;   // Traces a request across services
    causationId: string;     // ID of the event/command that caused this
    userId?: string;
  };
}

// Example: OrderPlaced event
const orderPlaced: DomainEvent = {
  eventId: "evt-a1b2c3d4",
  eventType: "OrderPlaced",
  aggregateId: "order-12345",
  aggregateType: "Order",
  timestamp: "2026-02-28T10:30:00Z",
  version: 1,
  payload: {
    customerId: "cust-67890",
    items: [
      { productId: "prod-001", quantity: 2, price: 29.99 },
      { productId: "prod-002", quantity: 1, price: 49.99 },
    ],
    totalAmount: 109.97,
    currency: "USD",
  },
  metadata: {
    correlationId: "corr-xyz-789",
    causationId: "cmd-place-order-456",
    userId: "user-abc",
  },
};

提示： 事件名称使用过去时（OrderPlaced 而非 OrderPlace），因为事件描述的是已经发生的事实。命令使用祈使句（PlaceOrder），因为命令表达的是意图。

2. Apache Kafka 深入剖析

Apache Kafka 是一个分布式事件流平台，设计用于高吞吐量、持久化和可重放的事件处理。Kafka 将数据组织为主题（Topics），每个主题分为多个分区（Partitions），实现并行处理和水平扩展。

主题、分区和消费者组

// Kafka producer — Node.js with kafkajs
import { Kafka, Partitioners } from "kafkajs";

const kafka = new Kafka({
  clientId: "order-service",
  brokers: ["kafka-1:9092", "kafka-2:9092", "kafka-3:9092"],
});

const producer = kafka.producer({
  createPartitioner: Partitioners.DefaultPartitioner,
  idempotent: true,            // Enable exactly-once semantics
  maxInFlightRequests: 5,
  transactionalId: "order-producer-txn",
});

async function publishOrderEvent(order: Order): Promise<void> {
  await producer.connect();

  // Key determines partition — same orderId always goes to same partition
  await producer.send({
    topic: "orders.events",
    messages: [
      {
        key: order.id,
        value: JSON.stringify({
          eventType: "OrderPlaced",
          payload: order,
          timestamp: new Date().toISOString(),
        }),
        headers: {
          "correlation-id": order.correlationId,
          "event-type": "OrderPlaced",
          "schema-version": "1",
        },
      },
    ],
  });
}

// Kafka consumer with consumer group
const consumer = kafka.consumer({
  groupId: "inventory-service-group",
  sessionTimeout: 30000,
  heartbeatInterval: 3000,
  maxBytesPerPartition: 1048576, // 1MB
});

async function startConsumer(): Promise<void> {
  await consumer.connect();
  await consumer.subscribe({
    topics: ["orders.events"],
    fromBeginning: false,
  });

  await consumer.run({
    eachMessage: async ({ topic, partition, message }) => {
      const event = JSON.parse(message.value!.toString());
      const correlationId = message.headers?.["correlation-id"]?.toString();

      console.log(
        `[Partition \${partition}] Processing \${event.eventType}`,
        `offset=\${message.offset}, key=\${message.key}`
      );

      switch (event.eventType) {
        case "OrderPlaced":
          await reserveInventory(event.payload);
          break;
        case "OrderCancelled":
          await releaseInventory(event.payload);
          break;
        default:
          console.warn(`Unknown event type: \${event.eventType}`);
      }
    },
  });
}

Kafka 精确一次语义

Kafka 通过幂等生产者和事务 API 实现精确一次语义（EOS），确保消息在生产者重试时不会重复写入，并且消费者可以在事务提交后才看到消息。

// Exactly-once: transactional produce + consume
async function processAndForward(inputTopic: string, outputTopic: string) {
  const transaction = await producer.transaction();

  try {
    // Read from input topic
    const messages = await consumeBatch(inputTopic);

    for (const msg of messages) {
      const enriched = await enrichEvent(msg);

      // Write to output topic within the same transaction
      await transaction.send({
        topic: outputTopic,
        messages: [{ key: msg.key, value: JSON.stringify(enriched) }],
      });
    }

    // Commit offsets and produced messages atomically
    await transaction.sendOffsets({
      consumerGroupId: "enrichment-group",
      topics: [{ topic: inputTopic, partitions: messages.map(m => ({
        partition: m.partition,
        offset: (parseInt(m.offset) + 1).toString(),
      }))}],
    });

    await transaction.commit();
  } catch (err) {
    await transaction.abort();
    throw err;
  }
}

3. RabbitMQ 消息模式

RabbitMQ 是一个功能丰富的消息代理，通过交换器（Exchange）和队列（Queue）提供灵活的路由模式。它支持多种交换器类型，每种适用于不同的消息路由场景。

交换器类型	路由方式	使用场景
Direct	精确匹配 routing key	任务分发、日志分级
Topic	通配符模式匹配 routing key	多租户事件、地理路由
Fanout	广播到所有绑定的队列	通知、缓存失效
Headers	基于消息头属性匹配	复杂路由规则、内容类型路由

// RabbitMQ with amqplib — Topic exchange + Dead Letter Queue
import amqp from "amqplib";

async function setupRabbitMQ() {
  const connection = await amqp.connect("amqp://localhost:5672");
  const channel = await connection.createChannel();

  // Dead letter exchange for failed messages
  await channel.assertExchange("dlx.events", "fanout", { durable: true });
  await channel.assertQueue("dlq.events", {
    durable: true,
    arguments: { "x-message-ttl": 86400000 }, // 24h retention
  });
  await channel.bindQueue("dlq.events", "dlx.events", "");

  // Main topic exchange
  await channel.assertExchange("domain.events", "topic", { durable: true });

  // Order events queue with DLQ
  await channel.assertQueue("order.processing", {
    durable: true,
    arguments: {
      "x-dead-letter-exchange": "dlx.events",
      "x-dead-letter-routing-key": "order.failed",
      "x-max-retries": 3,
    },
  });

  // Bind queue with topic pattern
  // order.* matches order.placed, order.shipped, etc.
  await channel.bindQueue("order.processing", "domain.events", "order.*");

  // Publish an event
  channel.publish(
    "domain.events",
    "order.placed",
    Buffer.from(JSON.stringify({
      eventType: "OrderPlaced",
      orderId: "order-12345",
      timestamp: new Date().toISOString(),
    })),
    {
      persistent: true,
      messageId: "msg-uuid-123",
      contentType: "application/json",
      headers: { "x-retry-count": 0 },
    }
  );

  // Consumer with manual acknowledgment
  await channel.prefetch(10); // Process 10 messages at a time
  await channel.consume("order.processing", async (msg) => {
    if (!msg) return;
    try {
      const event = JSON.parse(msg.content.toString());
      await processOrderEvent(event);
      channel.ack(msg); // Acknowledge success
    } catch (err) {
      const retryCount = (msg.properties.headers?.["x-retry-count"] || 0) + 1;
      if (retryCount >= 3) {
        channel.nack(msg, false, false); // Send to DLQ
      } else {
        channel.nack(msg, false, true);   // Requeue for retry
      }
    }
  });
}

4. 事件溯源

事件溯源将状态存储为一系列不可变事件，而非仅保存当前状态。当前状态通过按顺序重放事件来推导。这提供了完整的审计日志、时间旅行查询能力，以及从事件流构建多个读取优化视图的能力。

事件存储实现

// Event Store — append-only with optimistic concurrency
interface StoredEvent {
  streamId: string;
  version: number;
  eventType: string;
  payload: Record<string, unknown>;
  metadata: Record<string, string>;
  timestamp: Date;
}

class EventStore {
  constructor(private db: Database) {}

  async appendToStream(
    streamId: string,
    events: StoredEvent[],
    expectedVersion: number
  ): Promise<void> {
    const currentVersion = await this.getStreamVersion(streamId);

    // Optimistic concurrency check
    if (currentVersion !== expectedVersion) {
      throw new ConcurrencyError(
        `Expected version \${expectedVersion}, got \${currentVersion}`
      );
    }

    const transaction = await this.db.beginTransaction();
    try {
      for (let i = 0; i < events.length; i++) {
        await transaction.execute(
          `INSERT INTO events (stream_id, version, event_type, payload, metadata, timestamp)
           VALUES (?, ?, ?, ?, ?, ?)`,
          [
            streamId,
            expectedVersion + i + 1,
            events[i].eventType,
            JSON.stringify(events[i].payload),
            JSON.stringify(events[i].metadata),
            events[i].timestamp,
          ]
        );
      }
      await transaction.commit();
    } catch (err) {
      await transaction.rollback();
      throw err;
    }
  }

  async readStream(streamId: string, fromVersion = 0): Promise<StoredEvent[]> {
    return this.db.query(
      `SELECT * FROM events
       WHERE stream_id = ? AND version > ?
       ORDER BY version ASC`,
      [streamId, fromVersion]
    );
  }
}

投影和快照

// Aggregate with snapshot support
class OrderAggregate {
  private state: OrderState = { status: "draft", items: [], total: 0 };
  private version = 0;
  private uncommittedEvents: StoredEvent[] = [];

  // Rebuild from events with snapshot optimization
  static async load(
    eventStore: EventStore,
    snapshotStore: SnapshotStore,
    orderId: string
  ): Promise<OrderAggregate> {
    const aggregate = new OrderAggregate();

    // Try loading from snapshot first
    const snapshot = await snapshotStore.get(orderId);
    if (snapshot) {
      aggregate.state = snapshot.state;
      aggregate.version = snapshot.version;
    }

    // Replay events after the snapshot
    const events = await eventStore.readStream(orderId, aggregate.version);
    for (const event of events) {
      aggregate.apply(event, false);
    }

    // Take a new snapshot every 100 events
    if (events.length > 100) {
      await snapshotStore.save(orderId, aggregate.state, aggregate.version);
    }

    return aggregate;
  }

  placeOrder(customerId: string, items: OrderItem[]): void {
    if (this.state.status !== "draft") {
      throw new Error("Order already placed");
    }
    this.apply({
      eventType: "OrderPlaced",
      payload: { customerId, items, total: this.calculateTotal(items) },
    } as StoredEvent, true);
  }

  private apply(event: StoredEvent, isNew: boolean): void {
    // State mutation based on event type
    switch (event.eventType) {
      case "OrderPlaced":
        this.state.status = "placed";
        this.state.items = event.payload.items as OrderItem[];
        this.state.total = event.payload.total as number;
        break;
      case "OrderShipped":
        this.state.status = "shipped";
        break;
      case "OrderCancelled":
        this.state.status = "cancelled";
        break;
    }
    this.version++;
    if (isNew) this.uncommittedEvents.push(event);
  }
}

投影（读取模型）

// Projection — build read-optimized views from events
class OrderSummaryProjection {
  constructor(private readDb: Database) {}

  async handle(event: StoredEvent): Promise<void> {
    switch (event.eventType) {
      case "OrderPlaced":
        await this.readDb.execute(
          `INSERT INTO order_summaries
           (order_id, customer_id, status, total, item_count, placed_at)
           VALUES (?, ?, ?, ?, ?, ?)`,
          [
            event.streamId,
            event.payload.customerId,
            "placed",
            event.payload.total,
            (event.payload.items as unknown[]).length,
            event.timestamp,
          ]
        );
        break;

      case "OrderShipped":
        await this.readDb.execute(
          `UPDATE order_summaries
           SET status = ?, shipped_at = ?
           WHERE order_id = ?`,
          ["shipped", event.timestamp, event.streamId]
        );
        break;

      case "OrderCancelled":
        await this.readDb.execute(
          `UPDATE order_summaries
           SET status = ?, cancelled_at = ?
           WHERE order_id = ?`,
          ["cancelled", event.timestamp, event.streamId]
        );
        break;
    }
  }
}

5. CQRS 实现

CQRS（命令查询职责分离）将写操作（命令）和读操作（查询）分为不同的模型。写模型优化数据一致性和业务规则验证，读模型优化查询性能。两个模型通过事件进行同步。

// CQRS — Command side
interface Command {
  type: string;
  payload: Record<string, unknown>;
  metadata: { userId: string; correlationId: string };
}

class CommandBus {
  private handlers = new Map<string, CommandHandler>();

  register(commandType: string, handler: CommandHandler): void {
    this.handlers.set(commandType, handler);
  }

  async dispatch(command: Command): Promise<void> {
    const handler = this.handlers.get(command.type);
    if (!handler) throw new Error(`No handler for: \${command.type}`);
    await handler.execute(command);
  }
}

class PlaceOrderHandler implements CommandHandler {
  constructor(
    private eventStore: EventStore,
    private snapshotStore: SnapshotStore
  ) {}

  async execute(command: Command): Promise<void> {
    const { customerId, items } = command.payload;

    // Load aggregate from event store
    const order = await OrderAggregate.load(
      this.eventStore, this.snapshotStore, command.payload.orderId as string
    );

    // Execute business logic (may throw if invalid)
    order.placeOrder(customerId as string, items as OrderItem[]);

    // Persist new events
    await this.eventStore.appendToStream(
      command.payload.orderId as string,
      order.getUncommittedEvents(),
      order.getVersion()
    );
  }
}

// CQRS — Query side
interface Query {
  type: string;
  params: Record<string, unknown>;
}

class QueryBus {
  private handlers = new Map<string, QueryHandler>();

  register(queryType: string, handler: QueryHandler): void {
    this.handlers.set(queryType, handler);
  }

  async dispatch<T>(query: Query): Promise<T> {
    const handler = this.handlers.get(query.type);
    if (!handler) throw new Error(`No handler for: \${query.type}`);
    return handler.execute(query) as Promise<T>;
  }
}

class GetOrderSummaryHandler implements QueryHandler {
  constructor(private readDb: Database) {}

  async execute(query: Query): Promise<OrderSummary> {
    // Query the read-optimized projection table
    const result = await this.readDb.queryOne(
      `SELECT order_id, customer_id, status, total, item_count,
              placed_at, shipped_at, cancelled_at
       FROM order_summaries WHERE order_id = ?`,
      [query.params.orderId]
    );
    if (!result) throw new NotFoundError("Order not found");
    return result;
  }
}

提示： CQRS 不一定需要事件溯源。可以使用普通数据库作为写模型，然后通过变更数据捕获（CDC）或领域事件将变更同步到读模型。当系统复杂度不高时，先从简单的 CQRS 开始。

6. Saga 模式

Saga 模式用于管理跨多个服务的分布式事务。每个 Saga 步骤是一个本地事务，配有对应的补偿操作用于回滚。Saga 有两种实现方式：编排式（中央协调器）和协调式（事件驱动）。

方面	编排式	协调式
协调方式	中央编排器指挥所有步骤	每个服务监听事件并自行决策
耦合度	编排器了解所有步骤	服务只知道自己的事件
可见性	集中状态跟踪	分散，需要链路追踪工具
适合场景	复杂多步工作流（5+ 步骤）	简单流程（2-4 步骤）

编排式 Saga 实现

// Orchestration Saga — Order fulfillment
type SagaStep = {
  name: string;
  execute: (context: SagaContext) => Promise<void>;
  compensate: (context: SagaContext) => Promise<void>;
};

class OrderSaga {
  private steps: SagaStep[] = [
    {
      name: "ReserveInventory",
      execute: async (ctx) => {
        ctx.inventoryReservationId = await inventoryService.reserve(
          ctx.orderId, ctx.items
        );
      },
      compensate: async (ctx) => {
        await inventoryService.cancelReservation(ctx.inventoryReservationId);
      },
    },
    {
      name: "ProcessPayment",
      execute: async (ctx) => {
        ctx.paymentId = await paymentService.charge(
          ctx.customerId, ctx.totalAmount
        );
      },
      compensate: async (ctx) => {
        await paymentService.refund(ctx.paymentId);
      },
    },
    {
      name: "ArrangeShipping",
      execute: async (ctx) => {
        ctx.shipmentId = await shippingService.createShipment(
          ctx.orderId, ctx.shippingAddress
        );
      },
      compensate: async (ctx) => {
        await shippingService.cancelShipment(ctx.shipmentId);
      },
    },
  ];

  async run(context: SagaContext): Promise<void> {
    const completedSteps: SagaStep[] = [];

    for (const step of this.steps) {
      try {
        console.log(`Executing step: \${step.name}`);
        await step.execute(context);
        completedSteps.push(step);
      } catch (error) {
        console.error(`Step \${step.name} failed:`, error);
        // Compensate in reverse order
        for (const completed of completedSteps.reverse()) {
          try {
            console.log(`Compensating step: \${completed.name}`);
            await completed.compensate(context);
          } catch (compError) {
            console.error(`Compensation failed for \${completed.name}:`, compError);
            // Log to dead letter queue for manual intervention
            await deadLetterQueue.publish({
              sagaId: context.sagaId,
              failedStep: completed.name,
              error: compError,
            });
          }
        }
        throw new SagaFailedError(step.name, error);
      }
    }
  }
}

7. DDD 中的领域事件

在领域驱动设计（DDD）中，领域事件代表业务领域中有意义的状态变化。聚合根在执行命令后产生领域事件，事件处理器在同一限界上下文或跨限界上下文中响应这些事件，实现最终一致性。

// Domain Events in DDD — Aggregate producing events
abstract class AggregateRoot {
  private domainEvents: DomainEvent[] = [];
  protected version = 0;

  protected addDomainEvent(event: DomainEvent): void {
    this.domainEvents.push(event);
  }

  getDomainEvents(): DomainEvent[] {
    return [...this.domainEvents];
  }

  clearDomainEvents(): void {
    this.domainEvents = [];
  }
}

class Order extends AggregateRoot {
  private status: OrderStatus = "draft";
  private items: OrderItem[] = [];

  place(customerId: string, items: OrderItem[]): void {
    // Business rule validation
    if (items.length === 0) throw new Error("Order must have items");
    if (this.status !== "draft") throw new Error("Order already placed");

    this.status = "placed";
    this.items = items;

    this.addDomainEvent({
      eventId: generateUUID(),
      eventType: "OrderPlaced",
      aggregateId: this.id,
      aggregateType: "Order",
      timestamp: new Date().toISOString(),
      version: ++this.version,
      payload: { customerId, items, total: this.calculateTotal() },
      metadata: { correlationId: generateUUID(), causationId: "" },
    });
  }

  cancel(reason: string): void {
    if (this.status === "shipped") {
      throw new Error("Cannot cancel shipped order");
    }
    this.status = "cancelled";

    this.addDomainEvent({
      eventId: generateUUID(),
      eventType: "OrderCancelled",
      aggregateId: this.id,
      aggregateType: "Order",
      timestamp: new Date().toISOString(),
      version: ++this.version,
      payload: { reason },
      metadata: { correlationId: generateUUID(), causationId: "" },
    });
  }
}

// Event dispatcher — publish domain events after persistence
class DomainEventDispatcher {
  private handlers = new Map<string, DomainEventHandler[]>();

  subscribe(eventType: string, handler: DomainEventHandler): void {
    const existing = this.handlers.get(eventType) || [];
    this.handlers.set(eventType, [...existing, handler]);
  }

  async dispatch(events: DomainEvent[]): Promise<void> {
    for (const event of events) {
      const handlers = this.handlers.get(event.eventType) || [];
      await Promise.all(
        handlers.map(h => h.handle(event))
      );
    }
  }
}

8. 异步消息模式

异步消息模式定义了服务之间交换消息的方式。选择正确的模式取决于消息的语义（事件 vs 命令）、消费者数量和交付保证要求。

模式	描述	消费者	使用场景
Pub/Sub	一对多广播，所有订阅者接收副本	多个	事件通知、缓存失效
Point-to-Point	一对一，消息只被一个消费者处理	一个	任务队列、命令处理
Request-Reply	异步请求-响应，通过临时回复队列	一个	异步 RPC、长时间操作
竞争消费者	多个消费者竞争同一队列的消息	多个（竞争）	负载均衡、水平扩展

// Request-Reply pattern with correlation IDs
class AsyncRequestReply {
  private pendingRequests = new Map<string, {
    resolve: (value: unknown) => void;
    reject: (reason: unknown) => void;
    timer: NodeJS.Timeout;
  }>();

  constructor(
    private channel: MessageChannel,
    private replyQueue: string,
    private timeoutMs = 30000
  ) {
    // Listen for replies on the dedicated reply queue
    this.channel.consume(this.replyQueue, (msg) => {
      if (!msg) return;
      const correlationId = msg.properties.correlationId;
      const pending = this.pendingRequests.get(correlationId);

      if (pending) {
        clearTimeout(pending.timer);
        this.pendingRequests.delete(correlationId);
        const reply = JSON.parse(msg.content.toString());
        if (reply.error) {
          pending.reject(new Error(reply.error));
        } else {
          pending.resolve(reply.data);
        }
      }
      this.channel.ack(msg);
    });
  }

  async request(queue: string, payload: unknown): Promise<unknown> {
    const correlationId = generateUUID();

    return new Promise((resolve, reject) => {
      const timer = setTimeout(() => {
        this.pendingRequests.delete(correlationId);
        reject(new Error("Request timed out"));
      }, this.timeoutMs);

      this.pendingRequests.set(correlationId, { resolve, reject, timer });

      this.channel.sendToQueue(queue, Buffer.from(JSON.stringify(payload)), {
        correlationId,
        replyTo: this.replyQueue,
        expiration: String(this.timeoutMs),
      });
    });
  }
}

9. 事件 Schema 演进

在长期运行的事件驱动系统中，事件 Schema 不可避免地需要演进。Schema 演进的关键是维护向后兼容性，确保新消费者能读取旧事件，旧消费者不会被新事件破坏。

兼容性类型	描述	规则
向后兼容	新消费者可以读取旧事件	新字段必须有默认值
向前兼容	旧消费者可以读取新事件	不删除字段，不改变类型
完全兼容	同时满足向前和向后兼容	只添加带默认值的可选字段

// Avro schema evolution example
// Version 1 — Original OrderPlaced schema
const orderPlacedV1 = {
  type: "record",
  name: "OrderPlaced",
  namespace: "com.example.events",
  fields: [
    { name: "orderId", type: "string" },
    { name: "customerId", type: "string" },
    { name: "totalAmount", type: "double" },
    { name: "currency", type: "string" },
    { name: "timestamp", type: "string" },
  ],
};

// Version 2 — Added optional fields (backward compatible)
const orderPlacedV2 = {
  type: "record",
  name: "OrderPlaced",
  namespace: "com.example.events",
  fields: [
    { name: "orderId", type: "string" },
    { name: "customerId", type: "string" },
    { name: "totalAmount", type: "double" },
    { name: "currency", type: "string" },
    { name: "timestamp", type: "string" },
    // New optional fields with defaults — backward compatible
    { name: "discountCode", type: ["null", "string"], default: null },
    { name: "priority", type: "string", default: "normal" },
    { name: "channel", type: "string", default: "web" },
  ],
};

// Schema Registry client
import { SchemaRegistry } from "@kafkajs/confluent-schema-registry";

const registry = new SchemaRegistry({
  host: "http://schema-registry:8081",
});

// Register schema with compatibility check
async function registerSchema() {
  const { id } = await registry.register({
    type: "AVRO",
    schema: JSON.stringify(orderPlacedV2),
  }, {
    subject: "orders.events-value",
  });
  console.log("Registered schema with id:", id);
}

// Produce with schema validation
async function produceWithSchema(event: OrderPlacedEvent) {
  const schemaId = await registry.getLatestSchemaId("orders.events-value");
  const encodedValue = await registry.encode(schemaId, event);

  await producer.send({
    topic: "orders.events",
    messages: [{ key: event.orderId, value: encodedValue }],
  });
}

10. 无服务器事件处理

无服务器平台天然适合事件驱动架构，因为函数本身就是事件处理器。AWS Lambda + EventBridge 和 Azure Functions + Event Grid 是两种主流的无服务器事件处理方案。

// AWS Lambda + EventBridge — Order event processing
// serverless.yml (Serverless Framework)
// service: order-processor
// provider:
//   name: aws
//   runtime: nodejs20.x
// functions:
//   processOrder:
//     handler: handler.processOrder
//     events:
//       - eventBridge:
//           pattern:
//             source: ["order-service"]
//             detail-type: ["OrderPlaced", "OrderCancelled"]

import { EventBridgeEvent, Context } from "aws-lambda";
import { EventBridgeClient, PutEventsCommand } from "@aws-sdk/client-eventbridge";

const eventBridge = new EventBridgeClient({});

// Producer — publish event to EventBridge
export async function publishOrderEvent(order: Order): Promise<void> {
  await eventBridge.send(new PutEventsCommand({
    Entries: [{
      Source: "order-service",
      DetailType: "OrderPlaced",
      Detail: JSON.stringify({
        orderId: order.id,
        customerId: order.customerId,
        totalAmount: order.total,
        items: order.items,
      }),
      EventBusName: "orders-bus",
    }],
  }));
}

// Consumer — Lambda handler triggered by EventBridge
export async function processOrder(
  event: EventBridgeEvent<"OrderPlaced", OrderPayload>,
  context: Context
): Promise<void> {
  const { orderId, customerId, totalAmount } = event.detail;

  console.log(
    `Processing \${event["detail-type"]} for order \${orderId}`,
    `requestId=\${context.awsRequestId}`
  );

  // Idempotency check — prevent duplicate processing
  const alreadyProcessed = await checkIdempotencyKey(orderId);
  if (alreadyProcessed) {
    console.log(`Order \${orderId} already processed, skipping`);
    return;
  }

  await reserveInventory(orderId);
  await sendConfirmationEmail(customerId, orderId);
  await storeIdempotencyKey(orderId);

  // Chain next event
  await eventBridge.send(new PutEventsCommand({
    Entries: [{
      Source: "fulfillment-service",
      DetailType: "InventoryReserved",
      Detail: JSON.stringify({ orderId, customerId }),
      EventBusName: "orders-bus",
    }],
  }));
}

提示： Lambda 函数可能被重试，因此必须实现幂等性。使用 DynamoDB 条件写入或 Redis SET NX 存储幂等键，确保同一事件不会被处理两次。

11. 流处理

流处理引擎（如 Kafka Streams 和 Apache Flink）可以对无限事件流进行实时的有状态计算，包括窗口聚合、流-流连接和复杂事件处理。

Kafka Streams 示例

// Kafka Streams topology — Java
import org.apache.kafka.streams.*;
import org.apache.kafka.streams.kstream.*;
import java.time.Duration;

public class OrderAnalyticsTopology {

  public static Topology build() {
    StreamsBuilder builder = new StreamsBuilder();

    // Source: read order events
    KStream<String, OrderEvent> orders = builder
      .stream("orders.events",
        Consumed.with(Serdes.String(), orderEventSerde));

    // Windowed aggregation: order count per customer per hour
    KTable<Windowed<String>, Long> hourlyOrderCounts = orders
      .filter((key, event) -> "OrderPlaced".equals(event.getType()))
      .selectKey((key, event) -> event.getCustomerId())
      .groupByKey()
      .windowedBy(
        TimeWindows.ofSizeWithNoGrace(Duration.ofHours(1))
      )
      .count(Materialized.as("hourly-order-counts"));

    // Real-time revenue per product
    KTable<String, Double> revenueByProduct = orders
      .filter((key, event) -> "OrderPlaced".equals(event.getType()))
      .flatMapValues(event -> event.getItems())
      .selectKey((key, item) -> item.getProductId())
      .groupByKey()
      .aggregate(
        () -> 0.0,
        (productId, item, total) -> total + item.getPrice() * item.getQuantity(),
        Materialized.as("revenue-by-product")
      );

    // Stream-stream join: match orders with payments within 5 min
    KStream<String, PaymentEvent> payments = builder
      .stream("payments.events",
        Consumed.with(Serdes.String(), paymentEventSerde));

    KStream<String, OrderWithPayment> matched = orders
      .join(
        payments,
        (order, payment) -> new OrderWithPayment(order, payment),
        JoinWindows.ofTimeDifferenceWithNoGrace(Duration.ofMinutes(5)),
        StreamJoined.with(Serdes.String(), orderEventSerde, paymentEventSerde)
      );

    matched.to("orders.matched",
      Produced.with(Serdes.String(), orderWithPaymentSerde));

    return builder.build();
  }
}

Apache Flink 窗口示例

// Apache Flink — Python (PyFlink) windowed aggregation
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.datastream.window import TumblingEventTimeWindows
from pyflink.common.time import Time
from pyflink.common.watermark_strategy import WatermarkStrategy
import json

env = StreamExecutionEnvironment.get_execution_environment()

# Configure Kafka source
kafka_source = KafkaSource.builder() \
    .set_bootstrap_servers("kafka:9092") \
    .set_topics("orders.events") \
    .set_group_id("flink-analytics") \
    .set_starting_offsets(KafkaOffsetsInitializer.earliest()) \
    .set_value_only_deserializer(SimpleStringSchema()) \
    .build()

orders = env.from_source(
    kafka_source,
    WatermarkStrategy.for_bounded_out_of_orderness(Time.seconds(5)),
    "OrderEvents"
)

# Tumbling window: revenue per minute
revenue_per_minute = orders \
    .map(lambda raw: json.loads(raw)) \
    .filter(lambda e: e["eventType"] == "OrderPlaced") \
    .key_by(lambda e: "global") \
    .window(TumblingEventTimeWindows.of(Time.minutes(1))) \
    .reduce(lambda a, b: {
        "totalRevenue": a["totalRevenue"] + b["payload"]["totalAmount"],
        "orderCount": a["orderCount"] + 1,
    })

revenue_per_minute.print()
env.execute("Order Revenue Analytics")

12. 测试事件驱动系统

测试事件驱动系统需要特殊策略：合约测试验证生产者和消费者之间的 Schema 兼容性，事件重放测试验证投影的正确性，混沌工程测试系统在代理故障时的弹性。

// Contract testing with embedded Kafka (Jest)
import { EmbeddedKafka } from "@testcontainers/kafka";

describe("OrderPlaced event contract", () => {
  let kafka: EmbeddedKafka;

  beforeAll(async () => {
    kafka = await new EmbeddedKafka().start();
  });

  afterAll(async () => {
    await kafka.stop();
  });

  test("producer publishes valid OrderPlaced event", async () => {
    const producer = kafka.producer();
    await producer.connect();

    // Produce event
    await producer.send({
      topic: "orders.events",
      messages: [{
        key: "order-123",
        value: JSON.stringify({
          eventType: "OrderPlaced",
          orderId: "order-123",
          customerId: "cust-456",
          totalAmount: 99.99,
          items: [{ productId: "p1", quantity: 2, price: 49.995 }],
          timestamp: new Date().toISOString(),
        }),
      }],
    });

    // Consume and validate schema
    const consumer = kafka.consumer({ groupId: "test-group" });
    await consumer.connect();
    await consumer.subscribe({ topics: ["orders.events"] });

    const received = await consumeOneMessage(consumer);
    const event = JSON.parse(received.value!.toString());

    // Contract assertions
    expect(event).toHaveProperty("eventType", "OrderPlaced");
    expect(event).toHaveProperty("orderId");
    expect(event).toHaveProperty("customerId");
    expect(event).toHaveProperty("totalAmount");
    expect(typeof event.totalAmount).toBe("number");
    expect(Array.isArray(event.items)).toBe(true);
    expect(event.items[0]).toHaveProperty("productId");
    expect(event.items[0]).toHaveProperty("quantity");
    expect(event.items[0]).toHaveProperty("price");
  });
});

// Event replay testing — verify projections
describe("OrderSummaryProjection", () => {
  test("rebuilds correct state from event sequence", async () => {
    const events: StoredEvent[] = [
      {
        streamId: "order-001",
        version: 1,
        eventType: "OrderPlaced",
        payload: {
          customerId: "cust-1",
          items: [{ productId: "p1", quantity: 2, price: 25 }],
          total: 50,
        },
        metadata: {},
        timestamp: new Date("2026-01-01"),
      },
      {
        streamId: "order-001",
        version: 2,
        eventType: "OrderShipped",
        payload: { trackingNumber: "TRACK-123" },
        metadata: {},
        timestamp: new Date("2026-01-02"),
      },
    ];

    const projection = new OrderSummaryProjection(testDb);
    for (const event of events) {
      await projection.handle(event);
    }

    const summary = await testDb.queryOne(
      "SELECT * FROM order_summaries WHERE order_id = ?",
      ["order-001"]
    );

    expect(summary.status).toBe("shipped");
    expect(summary.total).toBe(50);
    expect(summary.item_count).toBe(1);
  });
});

混沌工程测试

// Chaos engineering — simulate broker failures
describe("Resilience under Kafka broker failure", () => {
  test("consumer recovers after broker restart", async () => {
    const kafka = await new KafkaContainer()
      .withExposedPorts(9092)
      .start();

    // Produce messages
    await produceTestMessages(kafka, 100);

    // Start consuming
    const consumed: string[] = [];
    const consumer = startTestConsumer(kafka, (msg) => {
      consumed.push(msg);
    });

    // Wait for partial consumption
    await waitUntil(() => consumed.length >= 50);

    // Simulate broker crash
    await kafka.stop();
    await delay(5000); // Broker is down for 5 seconds
    await kafka.start();

    // Verify consumer reconnects and processes remaining messages
    await waitUntil(() => consumed.length === 100, 30000);
    expect(consumed.length).toBe(100);

    // Verify no duplicates (idempotent processing)
    const uniqueIds = new Set(consumed.map(m => JSON.parse(m).eventId));
    expect(uniqueIds.size).toBe(100);
  });
});

13. 监控与可观测性

事件驱动系统的可观测性围绕三个关键维度：分布式追踪（跨服务的请求链路）、消费者延迟监控（消息处理速度）、以及死信队列警报（失败消息）。

// Distributed tracing with OpenTelemetry
import { trace, context, propagation, SpanKind } from "@opentelemetry/api";
import { NodeTracerProvider } from "@opentelemetry/sdk-trace-node";
import { JaegerExporter } from "@opentelemetry/exporter-jaeger";

const tracer = trace.getTracer("order-service", "1.0.0");

// Producer — inject trace context into message headers
async function produceWithTracing(
  topic: string,
  event: DomainEvent
): Promise<void> {
  const span = tracer.startSpan(`publish \${event.eventType}`, {
    kind: SpanKind.PRODUCER,
    attributes: {
      "messaging.system": "kafka",
      "messaging.destination": topic,
      "messaging.message_id": event.eventId,
      "event.type": event.eventType,
    },
  });

  // Inject trace context into Kafka headers
  const headers: Record<string, string> = {};
  propagation.inject(context.active(), headers);

  try {
    await producer.send({
      topic,
      messages: [{
        key: event.aggregateId,
        value: JSON.stringify(event),
        headers,
      }],
    });
    span.setStatus({ code: 0 }); // OK
  } catch (err) {
    span.setStatus({ code: 2, message: String(err) }); // ERROR
    throw err;
  } finally {
    span.end();
  }
}

// Consumer — extract trace context from message headers
async function consumeWithTracing(
  message: KafkaMessage
): Promise<void> {
  // Extract parent trace context from Kafka headers
  const parentCtx = propagation.extract(
    context.active(),
    message.headers
  );

  const span = tracer.startSpan(
    "process OrderPlaced",
    { kind: SpanKind.CONSUMER },
    parentCtx
  );

  return context.with(
    trace.setSpan(parentCtx, span),
    async () => {
      try {
        const event = JSON.parse(message.value!.toString());
        await processEvent(event);
        span.setStatus({ code: 0 });
      } catch (err) {
        span.setStatus({ code: 2, message: String(err) });
        throw err;
      } finally {
        span.end();
      }
    }
  );
}

消费者延迟和死信队列监控

// Consumer lag monitoring with Prometheus metrics
import { Counter, Gauge, Histogram } from "prom-client";

const consumerLag = new Gauge({
  name: "kafka_consumer_lag",
  help: "Consumer lag in messages",
  labelNames: ["topic", "partition", "consumer_group"],
});

const messagesProcessed = new Counter({
  name: "messages_processed_total",
  help: "Total messages processed",
  labelNames: ["topic", "event_type", "status"],
});

const processingDuration = new Histogram({
  name: "message_processing_duration_seconds",
  help: "Time to process a single message",
  labelNames: ["topic", "event_type"],
  buckets: [0.01, 0.05, 0.1, 0.5, 1, 5, 10],
});

const dlqMessages = new Counter({
  name: "dlq_messages_total",
  help: "Messages sent to dead letter queue",
  labelNames: ["topic", "error_type"],
});

// Monitor consumer lag periodically
async function monitorLag(admin: KafkaAdmin, groupId: string) {
  const offsets = await admin.fetchOffsets({ groupId });
  const topicOffsets = await admin.fetchTopicOffsets("orders.events");

  for (const partition of offsets) {
    const latest = topicOffsets.find(
      t => t.partition === partition.partition
    );
    if (latest) {
      const lag = parseInt(latest.offset) - parseInt(partition.offset);
      consumerLag.set(
        { topic: "orders.events", partition: String(partition.partition), consumer_group: groupId },
        lag
      );
    }
  }
}

// Alerting rules (Prometheus/Grafana)
// ALERT ConsumerLagHigh
//   IF kafka_consumer_lag > 10000
//   FOR 5m
//   LABELS { severity = "warning" }
//   ANNOTATIONS { summary = "Consumer lag exceeding 10K messages" }
//
// ALERT DLQMessagesIncreasing
//   IF rate(dlq_messages_total[5m]) > 0
//   FOR 1m
//   LABELS { severity = "critical" }
//   ANNOTATIONS { summary = "Messages being sent to DLQ" }

技术选型对比

维度	Kafka	RabbitMQ	AWS EventBridge
吞吐量	极高（百万/秒）	高（万/秒）	中等（受配额限制）
消息持久化	可配置（天/无限）	消费后删除	24 小时重放
消息重放	原生支持（offset 回退）	不支持	有限（事件存档）
路由灵活性	基于 key 的分区	极高（交换器 + 绑定）	基于规则的内容路由
运维复杂度	高（ZooKeeper/KRaft）	中等	低（全托管）
最佳场景	事件溯源、流处理、数据管道	任务队列、RPC、复杂路由	无服务器事件路由、AWS 集成

常见问题

什么是事件驱动架构，什么时候应该使用它？

事件驱动架构（EDA）是一种软件设计模式，状态变化被捕获为不可变事件并在松耦合的服务之间异步传播。当你需要生产者和消费者之间的时间解耦、高吞吐量和可扩展性、实时数据处理、审计追踪，或多个下游服务需要独立响应同一业务事件时，应该使用 EDA。

Apache Kafka 和 RabbitMQ 有什么区别？

Kafka 是分布式日志，专为高吞吐量事件流设计，具有持久存储、消费者组和重放能力。RabbitMQ 是传统消息代理，优化了灵活路由、消息确认和复杂交换器模式。事件溯源和流处理用 Kafka，任务队列和 RPC 场景用 RabbitMQ。

什么是事件溯源，它与传统 CRUD 有什么不同？

事件溯源将每次状态变更存储为追加事件存储中的不可变事件，而不是覆盖数据库中的当前状态。当前状态通过重放事件推导。这提供完整的审计日志、时间旅行查询、事件重放调试，以及从事件流构建多个读取优化投影的能力。

什么是 CQRS，为什么要与事件溯源结合使用？

CQRS（命令查询职责分离）将写操作和读操作分为不同的模型。与事件溯源结合时，命令产生事件存储在事件存储中，投影消费这些事件构建读取优化视图，允许读写独立扩展和最终一致性。

什么是 Saga 模式？它如何处理分布式事务？

Saga 模式通过将分布式事务分解为一系列本地事务来管理跨服务的分布式事务，每个事务配有补偿操作用于回滚。编排式使用中央协调器，协调式使用事件。复杂多步工作流用编排式，简单流程用协调式。

如何处理事件驱动系统中的 Schema 演进？

使用 Schema Registry（Confluent Schema Registry）配合 Avro 或 Protobuf 等支持 Schema 演进的序列化格式。遵循兼容性规则：新字段必须有默认值，从不删除必需字段，在发布时通过 Registry 强制兼容性检查。

如何有效测试事件驱动系统？

使用合约测试验证生产者和消费者之间的 Schema 兼容性，使用嵌入式代理（EmbeddedKafka、TestContainers）进行集成测试，通过存储已知事件序列并验证投影产生正确状态来实现事件重放测试，使用混沌工程模拟代理故障和网络分区。

如何监控和观测事件驱动架构？

监控消费者延迟（最新 offset 与消费者 offset 之差）作为主要健康指标。使用分布式追踪（OpenTelemetry）在服务边界传播关联 ID。设置死信队列监控并对毒消息发出警报。跟踪从事件产生到最终消费的端到端延迟。

总结

事件驱动架构是构建可扩展、弹性和松耦合分布式系统的强大范式。Apache Kafka 和 RabbitMQ 提供了不同场景下的消息传递基础设施。事件溯源和 CQRS 为复杂业务逻辑提供了审计和性能优化。Saga 模式解决了分布式事务的挑战。Schema 演进确保系统长期可维护。流处理引擎支持实时分析。全面的测试和监控策略则保障了生产环境的可靠性。根据你的具体需求选择合适的模式和工具组合，从简单开始，随着复杂性增长逐步引入更多模式。

黄金法则： 不要过早引入复杂模式。先从简单的发布/订阅开始，当遇到具体的可扩展性或一致性问题时再引入事件溯源、CQRS 或 Saga。每增加一个模式都会增加系统的操作复杂度。