1. 31 Mar, 2026 1 commit
    • QTom's avatar
      feat(gateway): Cache-Driven RPM Buffer · 72e5876c
      QTom authored
      
      
      - buffer 公式从 baseRPM/5 改为 concurrency + maxSessions
        保留 baseRPM/5 作为 floor 向后兼容
      - 粘性路径 fallback 新增 [StickyCacheMiss] 结构化日志
        reason: rpm_red / gate_check / session_limit / wait_queue_full / account_cleared
      - session_limit 路径跳过 wait queue 重试(RegisterSession 拒绝无副作用)
      - 典型配置 buffer 从 3 提升至 13,大幅减少高峰期 Prompt Cache Miss
      Co-Authored-By: default avatarClaude Opus 4.6 (1M context) <noreply@anthropic.com>
      72e5876c
  2. 30 Mar, 2026 18 commits
  3. 29 Mar, 2026 5 commits
  4. 28 Mar, 2026 1 commit
    • wucm667's avatar
      fix(billing): 计费始终使用用户请求的原始模型,而非映射后的上游模型 · f5764d8d
      wucm667 authored
      当账号配置了模型映射(如 claude-sonnet-4-6 → glm-5.0)时,系统错误地
      使用映射后的上游模型名计算费用。由于上游模型(如 glm-5.0)在定价系统中
      没有价格配置,导致计费失败后被静默置为 0,用户不被扣费。
      
      修改 forwardResultBillingModel 优先返回请求模型名,并移除 OpenAI 路径
      中 BillingModel 字段对计费模型的覆盖逻辑。
      f5764d8d
  5. 27 Mar, 2026 15 commits