今日聚焦!【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

首页 > 数码 > 内容页

今日聚焦!【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

2023-01-14 11:12:25 来源：51CTO博客

Redis基本简介

Redis是一个开源（BSD 许可）、内存存储的数据结构服务器，可用作数据库，高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合等数据类型。内置复制、Lua 脚本、LRU收回、事务以及不同级别磁盘持久化功能，同时通过 Redis Sentinel 提供高可用，通过Redis Cluster提供自动分区。

Redis监控指标

Redis本身提供的INFO命令会返回丰富的实例运行监控信息，这个命令是Redis监控工具的基础。总体INFO命令的返回信息分成以下5大类。

(资料图)

性能指标：Performance内存指标: Memory基本活动指标：Basic activity持久性指标: Persistence错误指标：Error

Redis基本的监控命令—INFO 命令

INFO命令在使用时，可以带一个参数section，这个参数的取值有好几种，相应的，INFO 命令也会返回不同类型的监控信息。如下图所示：

在监控Redis 运行状态时，INFO命令返回的结果非常有用。如果你想了解 INFO 命令的所有参数返回结果的详细含义。可以根据Redis中文官方文档-Info质量以及Redis官方文档进行介绍说明。这里，我给你提几个运维时需要重点关注的参数以及它们的重要返回结果。

性能指标：Performance指令

无论你是运行单实例或是集群，我建议你重点关注一下stat 、commandstat 、cpu 和 memory 这四个参数的返回结果，这里面包含了命令的执行情况（比如命令的执行次数和执行时间、命令使用的 CPU资源），内存资源的使用情况（比如内存已使用量、内存碎片率），CPU 资源使用情况等，这可以帮助我们判断实例的运行状态和资源消耗情况。

info stats

当执行info stats指令的时候所出现的效果：

分析的大多数结果

total_connections_received：1083173900total_commands_processed：8313824390instantaneous_ops_per_sec：271total_net_input_bytes：1356487222784total_net_output2bytes：2360788536838instantaneous_input_kbps：13.49instantaneous_output_kbps：1.84rejected_connections: 0

基础的相关的数据信息统计

total_connections_received：主要用于统计累计的接收的总体连接数。total_commands_processed：主要用于统计累计的命令的处理指令数量。instantaneous_ops_per_sec：瞬时的每秒的请求数量，主要用于跟踪已处理命令的吞吐量对于诊断Redis实例中高延迟的原因至关重要。total_net_input_bytes：主要用于统计网络输入的总体字节数total_net_output_bytes：主要用于统计网络输出的总体字节数instantaneous_input_kbps：瞬时的较高的输入的kb指。instantaneous_output_kbps：瞬时的较高的输出的kb指。rejected_connections：被总体的拒接的连接数量。

持久性指标: Persistence

当你启用RDB或AOF功能时，你就需要重点关注下 persistence 参数的返回结果，你可以通过它查看到 RDB 或者 AOF 的执行情况。总体介绍一下持久化相关的监控信息，如下图所示：

RDB相关的信息统计

rdb_changes_since_last_save:24455275 - 表明上次RDB保存以后改变的key次数rdb_bgsave_in_progress:0 - 表示当前是否在进行bgsave操作。是为1rdb_last_save_time:1673341911 - 上次保存RDB文件的时间戳rdb_last_bgsave_status:ok - 上次保存的状态rdb_last_bgsave_time_sec:9 - 上次保存的耗时rdb_current_bgsave_time_sec:-1 - 目前保存RDB文件已花费的时间rdb_last_cow_size:11120640 -

AOF相关的信息统计

文件状态监控相关的参数

aof_enabled : 一个标志值，记录了 AOF 是否处于打开状态，1代表打开。aof_rewrite_in_progress : 一个标志值，记录了服务器是否正在创建AOF文件。aof_rewrite_scheduled : 一个标志值，记录了在 RDB 文件创建完毕之后，是否需要执行预约的 AOF 重写操作。aof_last_rewrite_time_sec : 最近一次创建 AOF 文件耗费的时长。aof_current_rewrite_time_sec : 如果服务器正在创建 AOF 文件，那么这个域记录的就是当前的创建操作已经耗费的秒数。aof_last_bgrewrite_status : 一个标志值，记录了最近一次创建 AOF 文件的结果是成功还是失败。

info clients

主要标识已连接客户端的信息，它包含以下域：

connected_clients:406client_recent_max_input_buffer:4client_recent_max_output_buffer:0blocked_clients:40

针对于客户端的相关的结果信息介绍说明：

connected_clients : 已连接客户端的数量（不包括通过从属服务器连接的客户端）client_longest_output_list : 当前连接的客户端当中，最长的输出列表client_longest_input_buf : 当前连接的客户端当中，最大输入缓存blocked_clients : 正在等待阻塞命令（BLPOP、BRPOP、BRPOPLPUSH）的客户端的数量

info commandstats

主要用于统计相关的命令指令的执行速度以及相关的指令执行频率。

部分记录了各种不同类型的命令的执行统计信息，比如命令执行的次数、命令耗费的 CPU 时间、执行每个命令耗费的平均 CPU 时间等等。对于每种类型的命令，这个部分都会添加一行以下格式的信息：

cmdstat_multi:calls=2792,usec=188,usec_per_call=0.07

cmdstat_multi：代表着指令名称：cmdstat_指令名称calls：代表着指令执行次数usec：执行的指令时间（微秒）usec_per_call：每秒的调用次数，用于计算频次

info cpu

cpu 部分记录了 CPU 的计算量统计信息，它包含以下域：

used_cpu_sys : Redis 服务器耗费的系统 CPU时间。used_cpu_user : Redis 服务器耗费的用户 CPU时间。used_cpu_sys_children : 后台进程耗费的系统 CPU时间。used_cpu_user_children : 后台进程耗费的用户 CPU时间。

user_cpu_sys 和user_cpu_sys_children

user_cpu_sys是Redis主进程消耗，user_cpu_sys_children是后台进程消耗（后台包括RDB文件的消耗，master，slave同步产生的消耗等等）

user指的是指令在用户态（User Mode）所消耗的CPU时间sys指的是指令在核心态（Kernel Mode）所消耗的CPU时间。

发现这4个CPU指标是一个统计指标，比如used_cpu_sys是将所有Redis主进程在核心态所占用的CPU时间求和累计起来，所以它会随着Redis启动的时间长度不断累计上升，并在你重启Redis服务后清0。

info memory

memory 部分记录了服务器的内存信息，它包含以下域

used_memory : 由Redis分配器分配的内存总量，以字节（byte）为单位used_memory_human : 以用户可读的格式返回Redis分配的内存总量used_memory_rss : 从操作系统的角度，返回 Redis 已分配的内存总量（俗称常驻集大小）。这个值和 top 、 ps 等命令的输出一致。used_memory_peak : Redis的内存消耗峰值（以字节为单位）used_memory_peak_human : 以用户可读的格式返回 Redis 的内存消耗峰值used_memory_lua : Lua引擎所使用的内存大小（以字节为单位）mem_fragmentation_ratio : used_memory_rss 和 used_memory 之间的比率mem_allocator : 在编译时指定的， Redis 所使用的内存分配器。可以是 libc 、 jemalloc 或者 tcmalloc 。

在理想情况下， used_memory_rss 的值应该只比 used_memory 稍微高一点儿。当 rss > used ，且两者的值相差较大时，表示存在（内部或外部的）内存碎片。内存碎片的比率可以通过 mem_fragmentation_ratio 的值看出。

当 used > rss 时，表示Redis的部分内存被操作系统换出到交换空间了，在这种情况下，操作可能会产生明显的延迟。

当 Redis 释放内存时，分配器可能会，也可能不会，将内存返还给操作系统。如果 Redis 释放了内存，却没有将内存返还给操作系统，那么 used_memory 的值可能和操作系统显示的 Redis 内存占用并不一致。

基本活动指标：Basic activity

如果你在使用主从集群，就要重点关注下 replication 参数的返回结果，这里面包含了主从同步的实时状态。

info replication

主/从复制信息

role : 如果当前服务器没有在复制任何其他服务器，那么这个域的值就是 master ；否则的话，这个域的值就是 slave 。注意，在创建复制链的时候，一个从服务器也可能是另一个服务器的主服务器。

如果当前服务器是一个从服务器的话，那么这个部分还会加上以下域：

master_host : 主服务器的 IP 地址。master_port : 主服务器的 TCP 监听端口号。master_link_status : 复制连接当前的状态， up 表示连接正常， down 表示连接断开。master_last_io_seconds_ago : 距离最近一次与主服务器进行通信已经过去了多少秒钟。master_sync_in_progress : 一个标志值，记录了主服务器是否正在与这个从服务器进行同步。

如果同步操作正在进行，那么这个部分还会加上以下域：

master_sync_left_bytes : 距离同步完成还缺少多少字节数据。master_sync_last_io_seconds_ago : 距离最近一次因为 SYNC 操作而进行 I/O 已经过去了多少秒。

如果主从服务器之间的连接处于断线状态，那么这个部分还会加上以下域：

master_link_down_since_seconds : 主从服务器连接断开了多少秒。

INFO 命令只是提供了文本形式的监控结果，并没有可视化，所以，在实际应用中，我们还可以使用一些第三方开源工具，将 INFO 命令的返回结果可视化。接下来，我要讲的 Prometheus ，就可以通过插件将 Redis 的统计结果可视化。

参考资料