v6.3 EE Release Notes

# 1. 全景图、应用、网络、基础设施、事件

  • AutoMetrics
    • 支持解析 FastCGI 协议
    • 支持解析恒生 T3 协议
    • Dubbo 协议支持解析 event 和 serialization_id 字段
    • 将 SLB 探活中的 RST 断连识别为正常行为
    • 应用聚合指标表中新增 endpoint 字段
    • 支持采集 MySQL 调用的 statement-id,以关联 COM_STMT_EXECUTE 与 COM_STMT_QUERY,从而追踪出 SQL 语句
  • AutoTracing
    • 支持解析听云的 Tracing 字段 X-Tingyun
    • 支持追踪托管 ALB/SLB 服务前后的调用
    • 支持解析 MySQL 语句中的 TraceID
    • 增加 allow_multiple_trace_ids_in_tracing_result 配置项,以允许追踪结果中包含多个 TraceID 的 Span
    • 支持调用 APM 的 Trace API 补充追踪数据
  • AutoTagging
    • 支持自动关联 K8s Annotation 和 Env 标签
    • 增加通过 PID 自动关联 K8s 容器的能力,解决 eBPF 数据中 HostNetwork Pod 的容器资源信息标记问题
  • SQL
    • 指标量新增 count 算子,计算原始数据的行数
  • 全景图
    • 优化服务列表
      • 仅展示服务被调用时的性能指标
      • 支持通过 signal_source 切换信号源
      • 调整默认展示的指标项,并展示表示指标相对大小的柱图
    • 新增服务拓扑
      • 支持定义云上云下一体化的业务访问拓扑
  • 应用
    • 调用链追踪
      • 右滑页面上下分割比例调整时,不对火焰图进行缩放
      • 支持从网络 Span 为起点进行追踪
      • 火焰图中支持显示网络 Span 的采集网卡信息
      • 左侧快速过滤框支持信号源的快速过滤和切换
    • 持续剖析
      • 支持表格和火焰图联动展示
      • 优化火焰图中 Function Stack 的合并逻辑
      • 在 ClickHouse 中压缩存储 Function Stack
      • 支持 eBPF 采集编译型(Golang/Rust 等)和解释型(Java 等)语言的 OnCPU Profile 数据
  • 基础设施
    • 新增主机、容器页面,基于 Prometheus 指标展示
  • 事件
    • 将事件页面拆分为资源变更、文件读写、告警实践三个页面
  • GUI
    • 搜索快照能力增强:支持排序、条件复制等操作
    • 搜索栏支持粘贴 Key: value 搜索条件
    • 搜索栏支持修改已有条件的操作符
    • 简化页面搜索条件、简化右滑页面携带的条件,提升易用性
    • 页面 UI 进行了全面的优化
    • 左侧快速过滤框优化:支持搜索过滤、显示匹配数据量、支持过滤指标取值范围、支持切换查询区域、支持切换数据表
    • 支持连续打开多个右滑页面,并支持在不同右滑页之间跳转
    • 右滑右滑页面中展示的事件数据,可切换单独查看客户端、服务端的事件
    • 查看数据库字段的弹出页面支持展示表名
    • 支持查看当前子视图的搜索条件

# 2. 视图、指标、告警、报表

  • 视图
    • 表格大小支持拖拽修改
    • 优化柱状图的展示细节
    • 增加新的子视图类型:概览图
    • 子视图编辑页面重构
    • 子视图按钮布局优化
    • 合并折线图与 Top 折线图
    • 优化模板变量名称过长时的展示
    • 模板变量列表支持拖动排序
  • 指标
    • 支持输入 PromQL 查询数据
  • 告警
    • 支持直接创建告警策略(无需创建视图)
    • HTTP 推送端点支持使用 Tag 渲染推送内容
    • Email 推送标题支持使用变量
    • 优化系统告警事件的展示
  • GUI
    • 统一子视图编辑页面、指标搜索页面、告警策略编辑页面的搜索条件输入框

# 3. 资源、系统

  • 资源
    • 优化 POD 列表、VPC 列表、可用区列表、区域列表的展示,增加容器节点个数、采集器状态列
    • 支持同步 OpenKruise 中 CloneSet、Advanced StatefulSet 类型的工作负载
    • 不同云平台的同步时间间隔支持独立配置
    • 支持同步 loopback 接口上的 IP 地址(通常为 VIP)
  • Integration
    • Prometheus Integration
      • PromQL 支持 topk、bottomk 函数
      • PromQL API 支持 RFC3339 时间格式
      • 支持获取 RemoteWrite 中的 HTTP Header 作为额外 Label
      • 优化 RemoteWrite 的存储性能,优化 RemoteRead 和 PromQL 的查询性能
    • OpenTelemetry Integration
      • 支持脱离 ClickHouse 运行
  • Agent
    • Plugin
      • 新增 so 插件支持能力,提供 C SDK
      • Wasm Demo: 解析 HTTP Payload 中的错误码,并重新赋值 response_code 和 response_exception
      • Wasm Demo: 解析 Payload 中的 Protobuf 消息
    • 长流的周期上报间隔从绝对 0 秒(每分钟的开始)修改为相对 0 秒(相对于流开始时间的整 60 分钟)
      • 优点:降低了绝对 0 秒发送流日志的压力,避免将生命周期小于 60 秒的流拆分为两条流日志
    • 配置
      • 支持配置 CPU 亲和性和优先级
      • 增加 kprobe-blacklist 配置项,设置 eBPF 采集数据的端口号黑名单,避免产生采集环路
      • 增加流日志忽略统计位置(l4_log_ignore_tap_sides)、调用日志忽略统计位置(l7_log_ignore_tap_sides),以降低采集数据量
    • 适配
      • 支持运行于腾讯 TCE 的 DPDK 母机中
      • 容器采集器去掉 HostNetwork 的要求
      • 支持采集网卡(tap_interface_regex)匹配结果超过 255 个的环境
      • 支持以 Sidecar 模式运行于业务 Pod 内
      • 支持以蓝鲸 Plugin 的方式部署
  • Server
    • 支持在页面上配置系统告警发件箱
    • 异常控制器和数据节点的自动删除时间默认取值 30 天
    • 告警事件统一存储到 ClickHouse 中
    • 检测到资源信息变化时,实时推送至 Agent
    • 支持禁用 K8s 集群自动发现功能,使得可以作为公有云的附属 K8s 集群同步
    • 支持指定(固定)K8s 资源信息同步的 Agent
    • 部署依赖的所有 HostPath 路径增加 deepflow 标识
  • CLI
    • 发布 MacOS 下的 deepflow-ctl