tarsdocs
  • Readme.md
  • CLA
  • LICENSE
  • 基础介绍
    • 简介
    • 基础概念
    • 基础通信协议 Tars
    • 统一通信协议 Tup
    • 开发模式介绍
    • 模板配置
    • 服务市场
    • 服务扩展
    • 框架版本说明
  • 开源版框架介绍
    • 开源版本部署
      • 部署总体介绍
      • Docker环境安装
      • Mysql安装
      • 框架源码部署(Linux/Mac)
      • 框架源码部署(Windows)
      • 框架Docker部署
      • 框架节点部署
      • 业务服务容器化
      • 框架K8SDocker 部署
      • 框架K8STARS 部署
      • 框架K8SFramework 部署(强烈推荐)
      • 框架更新及扩容
      • 调用链升级注意事项
      • TarsWeb-v3.0.3升级说明
    • 开源版管理平台
      • TarsWeb说明
      • web用户体系
      • web管理平台 API
  • 企业版本介绍
    • 企业版说明
    • 框架集群化机制
    • 框架单节点机制
    • 使用二进制包部署
    • 使用容器部署
    • 业务服务一主多备机制
    • 命令行控制终端
    • IP-LIST级联缓存机制
    • 多数据中心管理
    • 多网络支持
    • 第三方服务管理
    • 数据产生和管理机制
    • 密码重置
    • TarsPython介绍
  • 框架关键特性
    • 业务配置
    • 服务监控
    • 无损发布/重启
    • 调用链
    • IDC分组
    • 鉴权功能
  • TarsCPP
    • 编译
    • 快速开发入门
    • 使用指南
    • 开发规范
    • 服务线程说明文档
    • protobuf 协议支持文档
    • 第三方协议支持
    • HTTP1 支持
    • HTTP2 支持
    • TLS 通信支持
    • Push 功能说明
    • PushCallback 功能说明
    • Cookie 支持
    • 队列模式
    • 手动绑定
    • 性能数据
    • 2.x 版本变化
    • 3.x 版本变化
    • 协程版本说明
    • 基础类库说明
    • [案例]
      • 框架快速入门
      • Http 服务示例
  • TarsJava
    • 快速开始
    • 快速开发入门
    • [使用指南]
      • Tars 服务开发与上线
      • HTTP 服务开发与上线
      • 生成接口调用文件
    • [性能测试]
      • tars java 压测代码
  • TarsGo
    • 基本介绍
    • 快速开始
    • 使用指南
    • cmake 管理代码
    • pb2tarsgo
    • 性能数据
    • 使用示例
  • TarsPHP
    • 搭建 php 环境
    • 快速开发入门
    • [快速起步]
      • 搭建 HttpServer
      • 搭建 TimerServer
      • 搭建 TcpServer
      • 搭建 WebSocketServer
      • 弹幕活动实战
    • [框架简介]
      • 简介
      • tars-server
      • tars-client
      • tars-config
      • tars-deploy
      • tars-extension
      • tars-log
      • tars-monitor
      • tars-registry
      • tars-report
      • tars-utils
      • tars2php
    • [高阶应用]
      • PHP 的 Swoole 框架如何接入 Tars
      • 与 thinkphp 结合使用
      • 与 Swoft 结合使用
      • 与 Laravel 结合使用
      • 与 Yii2 结合使用
      • 持续集成方案
    • [其他]
      • 常见问题
      • 如何 Debug
      • changelog
      • 其他外部文档
  • Tars.js
    • 基本介绍
    • 脚手架
    • 快速开发入门
    • @tars/stream
    • @tars/rpc
    • @tars/logs
    • @tars/config
    • @tars/monitor
    • @tars/notify
    • @tars/utils
    • @tars/dyeing
    • @tars/node-agent
    • @tars/winston-tars
    • tars2node
  • K8SFramework
    • [安装和使用说明]
      • 介绍
      • 特性
      • 安装
      • 升级
      • 云原生运维
      • 管理平台
      • 证书
    • [开发环境构建]
      • Dockerfile 说明
      • 服务发布流程说明
      • 制作基础编译镜像
      • 制作业务服务镜像
      • 制作 Helm 包
      • 发布业务镜像到 K8S 集群
      • 服务发布示例
      • 如何调试业务服务
  • 服务扩展
    • 云告警
    • 接口及压测工具
    • 网关服务
    • dcache缓存服务
    • 发送邮件服务
    • 一致性存储服务
    • 一致性存储web管理平台
    • 唯一计数服务
  • 常见问题
    • 安装常见问题
    • Issues
    • Issues-tarscpp
    • Issues-tarsjava
    • Issues-tarsgo
    • Issues-tarsphp
  • 开源合作
    • TarsFramework 项目 Git 合作规范
  • 直播视频
    • B 站 TARS 培训系列课程
  • 相关文章
    • TARS 技术文章
  • 其它资源分享
    • 下载
    • Tars 介绍.pptx
    • TarsPHP 解密.pdf
    • TarsJava 本地调试.pdf
    • 微服务在腾讯的业务实践.pptx
Powered by GitBook
On this page
  • 企业版中的数据构成
  • 监控数据说明
  • 接口调用数据结构
  • 属性上报数据结构
  • notify上报数据结构
  • tarsnode上报数据
  • 节点时间对比数据
  • 硬盘大小监控
  • CPU监控
  • 内存监控
  • 调用链数据说明

Was this helpful?

  1. 企业版本介绍

数据产生和管理机制

企业版中的数据构成

企业版本中, 不同组件会产生不用的组件, 包括如下数据:

  • tarsregistry

tarsregistry主控服务是基于raft实现的, 内部记录了所有框架上部署的服务的元数据信息, 数据目录为:

$install-path/tarsnode/data/tars.tarsregistry/data

当tarsregistry扩容时, 数据会自动迁移扩容到新的节点中.

  • tarspatch

tarspatch发布服务是基于raft实现的, 保存了所有的发布包, 数据目录为:

$install-path/tarsnode/data/tars.tarspatch/data

当tarspatch扩容时, 数据会自动迁移扩容到新的节点中.

当在管理平台删除发布记录时, 也会删除tarspatch中对应的记录.

  • tarscollect tarscollect发布服务是基于raft实现的, 保存了所有采集的监控数据

tarscollect的模板中, 可以修改每类数据的存储时间, 过期的数据会被删除:

  <collect>
    # tarsstat采集的调用数据保留时间(天)
    stat_retain_day=31 
    # tarspropery采集的属性上报数据保留时间(天)
    prop_retain_day=31
    # tarsnotify 采集的异常上报数据的保留条数(每个服务)
    notify_retain_count=1000
    # cpu负载数据保留时间(天)
    load_cpu_retain_day=31
    # 每节点内存数据保留时间(天)
    load_mem_retain_day=31
    # 每节点磁盘空间数据保留时间(天)
    load_disk_retain_day=31
    # 每节点机器时间和tarscollect leader节点时间的差异值, 保存时间
    load_time_diff_retain_day=31
    # 调用链数据的保存时间(天)
    trace_retain_day=7
  </collect>
  • tarsnode

对于tarsnode而言, 会定时删除本节点上业务服务产生的日志文件, 通过在模板中配置保留时间:

  #日志文件保留天数
    retainDayLog=7
  #产生的core文件保留天数
    retainDayCore=7

监控数据说明

在开源版本中, tars的统计监控数据分散在mysql, es中, 为了更好的管理相关的数据, 企业版本tars框架将所有统计监控数据都存在了tarscollect组件中, 该组件基于raft实现了高可用.

收集的数据如下:

  • 接口调用的数据

  • 属性上报数据

  • 节点时间对比数据

  • 硬盘大小监控

  • CPU监控

  • 内存监控

  • 调用链数

接口调用数据结构

采用5个索引表+一个数据表的构成, 每个表对应rocksdb中的一个column, 每条数据会计算一个唯一值uniqueId: md5(masterName + "|" + slaveName + "|" + interfaceName + "|" + masterIp + "|" + slaveIp) 数据表:

  • stat_data, key为: 分钟时间.uniqueId, value为上报每条数据(CollectProp)

索引表:

  • stat_masterName, key为 masterName@分钟时间.uniqueId

  • stat_slaveName, key为 slaveName@分钟时间.uniqueId

  • stat_interfaceName, key为 interfaceName@分钟时间.uniqueId

  • stat_masterIp, key为 masterIp@分钟时间.uniqueId

  • stat_slaveIp, key为 slaveIp@分钟时间.uniqueId

检索时:

  • 根据时间和输入的参数, 分别检索索引表, 解析出每张表的key(分钟时间.uniqueId)做交集

  • 然后根据keys, 去数据表中检索数据

  • 再根据groupby字段做groupby, 得到最终的数据

如何设计分布式

  • 每三台节点一个集群

  • 按照时间+uniqueId, 分布式写入到不同的集群中

  • 查询时, 每个集群都查找一遍keys, 然后合并keys

  • 根据合并的keys查找, 去集群查找数据, 然后再合并数据

  • 再根据合并的数据过groupby, 得到最终的结果

属性上报数据结构

采用4个索引表+一个数据表的构成, 每个表对应rocksdb中的一个column, 每条数据会计算一个唯一值uniqueId: md5(moduleName + "|" + propertyName + "|" + nodeName + "|" + policy) 数据表:

  • prop_data, key为: 分钟时间.uniqueId, value为上报每条数据(CollectProp)

索引表:

  • prop_moduleName, key为 moduleName@分钟时间.uniqueId

  • prop_propertyName, key为 propertyName@分钟时间.uniqueId

  • prop_nodeName, key为 nodeName@分钟时间.uniqueId

  • prop_policy, key为 policy@分钟时间.uniqueId

检索时:

  • 根据时间和输入的参数, 分别检索索引表, 解析出每张表的key(分钟时间.uniqueId)做交集

  • 然后根据keys, 去数据表中检索数据

  • 再根据groupby字段做groupby, 得到最终的数据

notify上报数据结构

根据 时间(可选), application, server_name, node_name(可选) 检索

  • 根据application获取最新的 或者 指定时间范围的

  • 根据application, server_name获取最新的 或者 指定时间范围的

  • 根据application, server_name, node_name获取最新的 或者 指定时间范围的 数据表:

  • notify_data, key为: appliedIndex, value为上报的数据

索引表:

  • notify_application, key为 application@时间_appliedIndex

  • notify_serverName, key为 application.server_name@时间_appliedIndex

  • notify_nodeName, key为 application.server_name.node_name@时间_appliedIndex

检索时:

  • 根据输入参数, 检索对应的索引表, 解析得到appliedIndex

  • 根据appliedIndex, 去数据表中检索数据

tarsnode上报数据

tarsnode 每隔5分钟会上报一次本机的数据, 包括以下数据:

  • 本机的时间(微妙), 用于云端检查机器的时间的一致性

  • 本机的内存使用情况

  • 本机的cpu负载情况

  • 本机的硬盘负载情况

节点时间对比数据

根据节点, 时间范围检索

  • node_time_diff: key: 节点@时间(换成%Y%m%d%H%M%S), value: TimeDiff

硬盘大小监控

数据表:

  • node_disk_device: 节点设备表, key: 节点@deviceName

  • node_disk_info: 设备数据大小, key: 节点@deviceName@时间(换成%Y%m%d%H%M%S), value: FilesystemInfo

CPU监控

数据表:

  • node_cpu_info, cpu负载表, key: 节点@时间(换成%Y%m%d%H%M%S), value: CpuLoad

内存监控

数据表:

  • node_mem_info: 内存负载表: key: 节点@时间(换成%Y%m%d%H%M%S), value: MemInfo

调用链数据说明

tarscollect也收集了调用链相关的数据, 这部分数据结构相对比较复杂, 这里单独重点介绍:

  • 日志记录(每条上报日志一条记录)

日志结构体:

  • trace: traceId, 每个调用链都有唯一的id

  • span: 每次调用都有一个span, 每次调用都有唯一的span

  • parent: 父span, 用来关联调用的关系

  • master: 主调

  • slave: 被调

  • function: 接口名

  • time: 时间(毫秒)

  • type: 类型: cs(客户端发送), cr(客户端接收), ss(服务端发送), sr(服务端接收), ts(调用链开始), te(调用链结束)

  • ret: 返回值

  • data: 调用参数, json格式

存储结构:

  • key: 日期(%Y%m%d) + traceId

  • value: 日志结构体

  • trace记录(一次完整的调用链归集)

  • trace结构体

  • trace: traceId, 每个调用链都有唯一的id

  • tSpan: 调用链第一次触发时的span

  • tMaster: 调用链第一次触发时的主调

  • tsTime: 调用链开始的时间(毫秒)

  • teTime: 调用链结束的时间(毫秒)

  • sHash: 调用链中, 所有调用服务名称取hash, 用来归集服务图

  • fHash: 调用链中, 所有调用的函数名称取hash, 用来归集函数图

  • spans: 数组, 记录了本次调用链中所有的调用

  • span

  • parent

  • master

  • slave

  • csTime

  • srTime

  • ssTime

  • crTime

  • csData

  • srData

  • ssData

  • crData

  • ret

  • children: 子调用的span数组

存储结构:

  • key: 日期(%Y%m%d) + traceId

  • value: trace结构体

  • Graph记录(一种调用链归集成一张图)

  • graph结构体

  • graphId: 图的id, 图的关键字

  • type: server/function, 两种图, 一种是服务图, 一种是函数图

  • vertexes: 顶点数组, 代表调用者

  • vertex: 顶点名称, 如果是服务图则为: application.server_name, 如果是函数图: application.server_name.doHello

  • callCount: 调用次数

  • callTime: 消耗时间

  • edges: 边, 代表调用信息

  • fromVertex: 主调用名称, 如果是服务图则为: application.server_name, 如果是函数图: application.server_name.doHello

  • toVertex: 被调用名称, 如果是服务图则为: application.server_name, 如果是函数图: application.server_name.doHello

  • callCount: 调用次数

  • callTime: 调用时间

  • order

存储结构

  • key: graphId

  • value: graph结构体

  • 其他索引表

除开关键的数据表以外, 还有几张检索的索引的表:

  • function表, key: 服务+日期+接口

  • traceId表, key: 服务+时间+traceId

  • graphId表, key: 服务/接口+日期+graphId

  • 对外暴露的接口

  • listFunction: 根据日期(%Y%m%d), 服务, 查询这个服务的所有接口

  • listTraceSummary: 根据日期(%Y%m%d), 开始时间, 结束时间, 服务, 查询这个范围内所有的 调用链id信息(调用链id, 开始时间, 结束时间)

  • graphFunction: 根据日期(%Y%m%d), 接口名称, 查询服务接口调用链图

  • graphServer: 根据时间, 服务名, 查询服务调用链图

  • graphTrace: 根据日期(%Y%m%d), 调用链id查询, 查询具体某次调用链图

Previous第三方服务管理Next密码重置

Last updated 7 days ago

Was this helpful?