시나리오별 빠른 가이드
FlowKat을 활용한 APM(애플리케이션 성능 관리) 운영의 핵심 시나리오 4가지를 안내합니다. 일상 모니터링부터 장애 대응까지, 실제 운영 상황에서의 페이지 이동 동선과 조작 방법을 단계별로 설명합니다.
1. 페이지 개요
1.1 기능 설명
| 시나리오 | 상황 | 핵심 동선 | 빈도 |
|---|---|---|---|
| 일상 모니터링 | 평시 시스템 상태 확인 | 대시보드 → 센트리 → 추적 이슈 → 트랜잭션 통계 | 매일 |
| 장애 대응 | 알람 발생, 원인 파악 필요 | 대시보드 → 추적 이슈 → 진단 패널 → 드릴다운 | 수시 |
| 느린 트랜잭션 추적 | 특정 URL/SQL 성능 저하 | 트랜잭션 통계 → XLOG 검색 → 프로파일 분석 | 주간 |
| 트래픽 이상 탐지 | 트래픽 급증/비정상 패턴 | 트랜잭션 익스플로러 → 브러시 선택 → 트래픽 분석 → 드릴다운 | 수시 |
1.2 접근 경로
URL: /workgroup/[workgroupId]/monitoring/main
메뉴: 각 시나리오의 시작 페이지에서 출발
본 가이드는 APM 운영자와 기술지원 엔지니어를 대상으로 합니다. 각 페이지의 상세 기능은 개별 매뉴얼을 참고하십시오.
2. 화면 구성
2.1 시나리오별 페이지 동선 요약
┌─────────────────────────────────────────────────────────────────────┐
│ S0. 일상 모니터링 (매일) │
│ [통합 대시보드] → [센트리/파노라마] → [추적 이슈] → [트랜잭션 통계] │
├─────────────────────────────────────────────────────────────────────┤
│ S1. 장애 대응 (수시) │
│ 알람 → [통합 대시보드] → [추적 이슈] → [진단 패널] │
│ ├→ [XLOG 검색] │
│ ├→ [트랜잭션 익스플로러] (새 창) │
│ └→ [성능 조회] (새 창) │
├─────────────────────────────────────────────────────────────────────┤
│ S2. 느린 트랜잭션 추적 (주간) │
│ [트랜잭션 통계 URL/SQL] → 행 클릭 → [XLOG 검색 팝업] → [프로파일 분석] │
├─────────────────────────────────────────────────────────────────────┤
│ S3. 트래픽 이상 탐지 (수시) │
│ [트랜잭션 익스플로러 검색] → 브러시 → [트래픽 분석] │
│ → 행 클릭 → [XLOG 검색 팝업] │
└─────────────────────────────────────────────────────────────────────┘
2.2 공통 드릴다운 메커니즘
FlowKat의 대부분의 데이터 테이블에서 행을 클릭하면 XLOG 검색 팝업창이 열립니다. 이 팝업창은 클릭한 항목의 필터 조건과 시간 범위를 자동으로 전달받아 해당 트랜잭션만 조회합니다.
| 클릭 대상 | 전달되는 필터 | 사용 페이지 |
|---|---|---|
| URL 행 | serviceHash (URL 해시) | 트랜잭션 통계, 대시보드 TopN, 트랜잭션 익스플로러 |
| SQL 행 | serviceHash (서비스 해시) | 트랜잭션 통계 |
| IP 행 | address (IP 주소) | 트랜잭션 통계, 트랜잭션 익스플로러 |
| 에러 행 | errorHash (에러 해시) | 트랜잭션 통계 |
| 사용자 에이전트 행 | userAgentHash (사용자 에이전트 해시) | 트랜잭션 통계, 트랜잭션 익스플로러 |
3. 사용 방법
3.1 시나리오 0: 일상 모니터링
상황: 평시 시스템 상태를 점검하고 잠재적 문제를 조기에 발견합니다.
출근 체크리스트 (5분)
다음 항목을 순서대로 확인하십시오:
| 순서 | 확인 항목 | 페이지 | 정상 기준 | 이상 시 조치 |
|---|---|---|---|---|
| 1 | 알람 발생 여부 | 통합 대시보드 | 알람 배지 0 | → S1 장애 대응 시나리오 |
| 2 | 전체 서비스 상태 | 통합 대시보드 | TPS/응답시간 정상 범위 | 시스템 대시보드에서 상세 확인 |
| 3 | 센트리 가용성 | 센트리 | 모든 모니터 온라인(초록색) | 오프라인 모니터 원인 확인 |
| 4 | 전체 토폴로지 | 파노라마 | 모든 노드 정상(초록색) | 비정상 노드 클릭하여 상세 확인 |
| 5 | 미처리 이슈 | 이슈 추적 | 미처리 ALERT 이슈 없음 | 이슈 확인 후 담당자 배정 |
각 항목의 "정상 기준"은 환경에 따라 다릅니다. 운영 초기에 1~2주간 평시 데이터를 수집하여 기준선(baseline)을 설정하십시오. 예를 들어 TPS가 평균 200이라면 ±30%(140~260)를 정상 범위로 설정합니다.
주간 점검 체크리스트 (15분)
| 순서 | 확인 항목 | 페이지 | 확인 방법 |
|---|---|---|---|
| 1 | 느린 URL Top 10 변동 | 트랜잭션 통계 URL | 지난주 대비 신규 진입 URL 확인 |
| 2 | 느린 SQL Top 10 변동 | 트랜잭션 통계 SQL | 지난주 대비 실행시간 증가 SQL 확인 |
| 3 | 에러율 추이 | 트랜잭션 통계 에러 | 주간 에러 발생 패턴 확인 |
| 4 | 트래픽 패턴 | 트랜잭션 익스플로러 | 비정상 트래픽 유무 (봇, IP 플러드) |
| 5 | 시스템 리소스 추이 | 시스템 대시보드 | CPU/메모리 사용률 추세 확인 |
트랜잭션 통계와 성능 조회 페이지의 날짜 선택기에서 화살표 버튼을 사용하면 동일 기간을 앞뒤로 이동하며 주간 비교가 편리합니다.
이상 징후 판단 가이드
평시 모니터링 중 다음 패턴이 감지되면 해당 시나리오로 전환하십시오:
| 이상 징후 | 판단 기준 | 전환 시나리오 |
|---|---|---|
| 알람 발생 | 알람 배지 숫자 증가 | → S1 장애 대응 |
| 응답시간 급증 | 평시 대비 2배 이상 | → S2 느린 트랜잭션 추적 |
| TPS 급변 | 평시 대비 ±50% 이상 | → S3 트래픽 이상 탐지 |
| 에러율 상승 | 평시 대비 3배 이상 | → S1 장애 대응 |
| 센트리 오프라인 | 1개 이상 모니터 다운 | 센트리 관리에서 원인 확인 |
| CPU/메모리 임계 | 사용률 85% 이상 지속 | → S2 느린 트랜잭션 추적 (GC/힙 확인) |
| XLOG 패턴 이상 | 계단형/폭포수/물방울 패턴 출현 | → 차트 패턴 해석 가이드 참조 |
XLOG 산점도에서 점의 분포 형태만으로 장애 원인을 유추할 수 있습니다. 계단형(자원 고갈), 폭포수(Lock 경합), 물방울(잠재적 병목) 등 9가지 패턴의 상세 해석은 차트 패턴 해석 가이드를 참고하십시오.
3.2 시나리오 1: 장애 대응
상황: 알람이 발생하여 원인을 파악해야 합니다.
Step 1 — 대시보드에서 상황 파악
- 통합 대시보드에서 알람 배지(숫자)를 확인합니다.
- 이벤트 패널에서 알람 상세 내용을 확인합니다.
- TPS, 응답 시간, 에러율 차트에서 이상 시점을 파악합니다.
Step 2 — 이슈 추적에서 이슈 확인
- 이슈 추적 페이지로 이동합니다.
- 자동 생성된 ALERT 이슈를 클릭합니다.
- 이슈 상세에서 알람 발생 시각, 대상 오브젝트, 알람 레벨을 확인합니다.
Step 3 — 진단 패널에서 원인 분석
- 이슈 상세 하단의 진단 보고서 패널을 확인합니다.
- 시스템 지표 카드(CPU, 메모리, TPS, GC)에서 병목 지점을 파악합니다.
- 상위 URL / SQL 테이블에서 문제 트랜잭션을 식별합니다.
Step 4 — 드릴다운으로 상세 분석
진단 패널에서 3가지 경로로 상세 분석이 가능합니다:
| 드릴다운 대상 | 클릭 위치 | 이동 페이지 | 전달 정보 |
|---|---|---|---|
| 상위 URL 행 클릭 | 상위 URL 테이블 | XLOG 검색 팝업창 | 서비스 해시 + 시간 범위 |
| 트랜잭션 익스플로러 링크 | 하단 탐색 버튼 | 트랜잭션 익스플로러 (새 창) | 시간 범위 + 서버 + 오브젝트 |
| XLOG 링크 | 하단 탐색 버튼 | 트랜잭션 조회 (새 창) | 시간 범위 + 서버 |
| 성능 조회 링크 | 하단 탐색 버튼 | 성능 조회 (새 창) | 시간 범위 + 서버 |
진단 패널에서 드릴다운할 때 알람 발생 시점의 시간 범위가 자동으로 전달됩니다. 별도로 시간을 재설정할 필요가 없습니다.
3.3 시나리오 2: 느린 트랜잭션 추적
상황: 특정 URL이나 SQL이 느려졌다는 보고를 받았습니다.
Step 1 — 트랜잭션 통계에서 문제 URL/SQL 식별
- 트랜잭션 통계 페이지로 이동합니다.
- 날짜 범위를 설정하고 검색합니다.
- 빠른 프리셋: 상단 태그(최근 1시간, 최근 7일 등)를 클릭합니다.
- 이전/다음 탐색: 화살표 버튼으로 동일 기간을 앞뒤로 이동합니다.
- 응답 시간 기준으로 정렬하여 가장 느린 URL을 찾습니다.
- SQL 통계 탭으로 전환하여 느린 SQL도 확인합니다.
Step 2 — XLOG 검색 팝업창으로 드릴다운
- 느린 URL/SQL 행을 클릭합니다.
- XLOG 검색 팝업창이 열리며, 해당 URL/SQL로 필터링된 트랜잭션 목록이 표시됩니다.
- 응답 시간이 긴 트랜잭션을 선택합니다.
Step 3 — 트랜잭션 프로파일 분석
- 선택한 트랜잭션의 프로파일(호출 체인)을 확인합니다.
- 각 단계의 소요 시간을 분석하여 병목 구간을 식별합니다.
- SQL 바인드 파라미터, 외부 호출 응답 시간 등을 확인합니다.
3.4 시나리오 3: 트래픽 이상 탐지
상황: 특정 시간대에 트래픽이 급증하거나 비정상적인 접속 패턴이 감지되었습니다.
Step 1 — 트랜잭션 익스플로러에서 시계열 탐색
- 트랜잭션 익스플로러 페이지로 이동합니다.
- 시간 범위(최대 30일), 서버, 오브젝트를 선택합니다.
- 검색 버튼을 클릭하면 시계열 히스토그램이 표시됩니다.
- 정상(파란색), 느린(노란색), 오류(빨간색) 트랜잭션 분포를 확인합니다.
Step 2 — 브러시 선택으로 시간 범위 좁히기
- 히스토그램에서 트래픽이 급증한 구간의 바를 클릭합니다.
- 해당 시간 범위로 자동 재검색됩니다.
- 필드 목록(서비스, IP, 사용자 에이전트 등)에서 상위 항목을 확인합니다.
Step 3 — 트래픽 분석 탭에서 이상 탐지
- 트래픽 분석 탭으로 전환합니다.
- TopN 집계 테이블에서 비정상적인 항목을 확인합니다:
- IP 플러드: 단일 IP에서 과도한 요청
- 봇 트래픽: 비정상 사용자 에이전트
- URL 열거 공격: 다양한 URL에 순차 접근
- 이상 징후 패널에서 임계값 초과 항목을 확인합니다.
Step 4 — XLOG 드릴다운으로 상세 확인
- 의심스러운 행(IP, URL, 사용자 에이전트)을 클릭합니다.
- XLOG 검색 팝업창에서 해당 조건으로 필터링된 트랜잭션을 확인합니다.
- 개별 트랜잭션의 프로파일에서 공격 패턴이나 비정상 동작을 분석합니다.
이상 탐지 임계값 기본값은 100건입니다. 환경에 따라 적절히 조정하십시오. 값이 너무 낮으면 정상 트래픽도 이상으로 표시됩니다.
4. 문제 해결
4.1 자주 발생하는 문제
| 시나리오 | 증상 | 원인 | 해결 방법 |
|---|---|---|---|
| 장애 대응 | 자동 이슈가 생성되지 않음 | 자동 규칙 미설정 | 설정 > 추적 > 자동 규칙 확인 |
| 장애 대응 | 진단 패널이 비어있음 | 시간 범위 미선택 | 이슈 알람 시각 기준으로 자동 설정 확인 |
| 느린 TX | XLOG 팝업에 데이터 없음 | 시간 범위 불일치 | 통계 페이지의 날짜 범위 확인 |
| 트래픽 이상 | 히스토그램이 표시되지 않음 | 검색 미실행 | 검색 버튼 클릭 |
| 공통 | 드릴다운 새 창이 열리지 않음 | 팝업 차단 | 브라우저 팝업 차단 해제 |