Метрики мониторинга ADPG-кластера
В этой статье описываются доступные метрики мониторинга для кластера ADPG. Для получения информации о системе мониторинга и его установке обратитесь к статьям Мониторинг и Установка мониторинга.
ADPG использует Grafana для визуализации метрик. Чтобы открыть дашборды с метриками, введите адрес хоста, на котором развернута Grafana, и добавьте номер порта — параметр Grafana TCP port (значение по умолчанию — 12012
). Например, http://10.92.6.91:12012. Для входа используйте admin
в качестве имени пользователя и значение параметра Grafana admin’s password в качестве пароля. Параметры Grafana можно найти на вкладке Configuration сервиса Metrics storage.
ПРИМЕЧАНИЕ
|
В интерфейсе Grafana доступны следующие дашборды:
-
Global ADPG dashboard — включает общую информацию о состоянии системы и должен быть первым дашбордом, сигнализирующим о появлении проблемы.
-
ADPG Checkpointer (Bgwriter, Block IO Stats) — отображает статистическую информацию о контрольных точках и процессе bgwriter.
-
ADPG DB overview — содержит графики с характеристиками ноды ADPG.
-
ADPG Health-check — показывает информацию о выбранной ноде кластера.
-
ADPG Replication — отображает параметры репликации.
-
ADPG Sessions overview — содержит графики для анализа параметров сессии.
-
ADPG System metrics — отображает общие системные метрики всех нод кластера.
-
PgBouncer statistics — отображает статистику PgBouncer.
Global ADPG dashboard
Дашборд Global ADPG предоставляет общую статистику базы данных и может предупредить о критических проблемах в кластере.
Дашборд Global ADPG включает следующие показатели:
-
Monitored PRIMARY DB-s.
-
Monitored REPLICA DB-s.
-
Offline nodes.
Он также содержит таблицы, перечисленные ниже:
-
Top N by TPS.
-
Top N by QPS.
-
Top N by TX rollback.
-
Top N by shared buffers hit ratio.
-
Top N by replication lag.
-
Top N by DB size.
-
Top N by idle sessions %.
-
Top N by blocked sessions %.
-
Top N by longest TX time.
-
Top N by WAL rate.
-
Top N by WAL folder size.
-
Top N by longest session duration.
-
Top N by used connections.
-
Top N by CPU utilization %.
-
Top N by waiting time.
-
Top N by temp files.
-
Top N by lowest free disk %.
-
Top N by duration of running autovacuums.
-
Top N by autovacuum warn percent.
-
Top N by checkpoint write and sync duration.
Где Top N
— количество первых значений, размер вывода, который устанавливается фильтром top_limit
, значение по умолчанию — 3
.
ADPG Checkpointer (Bgwriter, Block IO Stats)
Этот дашборд содержит статистику контрольных точек и процесса bgwriter.
ADPG Checkpointer включает следующие графики:
-
Checkpoints. Отображает количество контрольных точек за период агрегации.
-
Checkpointer Write / Sync durations.
-
Bgwriter Stats. Отображает значения
buffers_checkpoint
,buffers_clean
иbuffers_backend
. -
Backend Read / Write times. График основан на представлении
pg_stat_database
, для его построения требуется, чтобы параметрtrack_io_timing
был равенon
. -
Table / Index / Toast Blocks Read. Обратите внимание, что значения Reads также учитывают чтение из кеша файловой системы.
ADPG DB overview
Этот дашборд содержит графики характеристик нод ADPG и помогает анализировать слабые места определённой ноды.
Дашборд ADPG DB overview включает следующие состояния:
-
Instance state — PRIMARY/REPLICA.
-
Instance uptime.
-
TPS — количество транзакций в секунду.
-
QPS — количество запросов в секунду.
-
Query runtime — среднее время выполнения запроса.
-
DB size ch. 1h — размер БД, рассчитывающийся за каждый час.
-
Approx Table Bloat.
-
Tuples fetched vs returned.
Дашборд ADPG DB overview содержит следующие графики:
-
Tuple ins. / upd. / del. statistics.
-
Shared Buffers hit ratio + Rollback ratio.
-
TPS / QPS avg.
-
WAL rate + DB size.
-
Seq. / Idx. scans.
-
Sessions by state —
active
,idle
,total
,waiting
,idleintransaction
,av_workers
. -
CPU load + avg.query runtime.
-
Temp bytes — значения появляются, когда затратные операции группировки и сортировки требуют больше памяти, чем значение
work_mem
.
ADPG Health-check
Этот дашборт отображает состояние определённой ноды.
Дашборд ADPG Health-check содержит следующие состояния:
-
Instance state.
-
Instance uptime.
-
PG version number.
-
Longest query runtime.
-
Number of active connection.
-
Number of max. connections.
-
Number of blocked sessions.
-
Shared buffer hit percent.
-
Avg. TX rollback percent.
-
TPS(avg.).
-
QPS(avg.).
-
"idle" in TX count.
-
DB size(last).
-
DB size change(diff).
-
DATADIR disk space left.
-
Query runtime(avg.).
-
Config change events.
-
Table changes.
-
WAL archiving status.
-
WAL folder size.
-
Invalid/duplicate indexes.
-
Autovacuum issues.
-
Checkpoints requested.
-
Approx table bloat.
-
WAL per second(avg.).
-
Temp bytes per second(avg.).
-
Longest autovacuum duration.
-
Seq. scans on >100MB tables per minute(avg.).
-
INSERT-s per minute(avg.).
-
UPDATE-s per minute(avg.).
-
DELETE-s per minute(avg.).
-
Backup duration.
-
Max table FREEZE age.
-
Max. XMIN horizon age.
-
Inactive replication slots.
-
Max replication lag.
ADPG Replication
Дашборд ADPG Replication содержит метрики репликации.
Дашборд ADPG Replication отображает следующие состояния:
-
Inactive repl. slots.
-
Active repl. slots.
-
Active replicas.
-
Active "sync" replicas.
-
Slot max. restart_lsn lag.
-
Max. write lag.
-
Max. flush lag.
-
Max. replay lag.
Дашборд ADPG Replication содержит следующие графики:
-
Replication slot restart_lsn lag (primary extra WAL size). Значения рассчитываются на основе представления pg_replication_slots только для нод primary.
-
Replication flush lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.
-
Replication replay lag. Значения рассчитываются на основе представления pg_stat_replication только для нод primary. Обратите внимание, что данные доступны только на подключенных репликах.
-
Repl. slot XMIN age (in transactions). Значения рассчитываются на основе поля
xmin
представления pg_replication_slots.
ADPG Sessions overview
Дашборд ADPG Sessions overview отображает статистику сессии.
Этот дашборд содержит следующие графики:
-
Max. TPS/QPS.
-
Longest query duration.
-
Longest TX duration.
-
Longest wait duration.
-
Longest session duration.
-
Longest Autovacuum duration.
-
Sessions by state.
-
Instance total connections.
ADPG System metrics
Дашборд ADPG System metrics содержит общие системные метрики ноды (загрузка ЦП, нагрузка сети, анализ дискового хранилища и другие).
Дашборд ADPG System metrics содержит следующие графики:
-
CPU usage %.
-
LoadAVG 1m normalized.
-
IO Write, bytes/sec.
-
IO Read, bytes/sec.
-
Network receive bytes.
-
Network transmit bytes.
-
Memory cached.
-
Memory free.
-
Disk space usage %.
-
Disk space available bytes.
-
Processes total.
PgBouncer statistics
Дашборд PgBouncer statistics содержит статистические данные о производительности PgBouncer.
Этот дашборд отображает следующие графики:
-
TPS — количество транзакций в секунду.
-
QPS — количество запросов в секунду.
-
Avg. query runtime — среднее время выполнения запроса, в микросекундах.
-
Pool wait time per Query — среднее время ожидания запросов в пуле, в микросекундах.
-
Incoming traffic rate — средняя скорость входящего трафика, байт/с.
-
Outgoing traffic rate — средняя скорость исходящего трафика, байт/с.
ПРИМЕЧАНИЕ
Чтобы мониторинг PgBouncer работал правильно, необходимо выполнить действие кластера Reconfigure Monitoring Agents после изменения настроек из секции конфигурации Enable pgbouncer. |