장애 진단 플로우차트
고객 설명 포인트
"고객님, 증상을 말씀해주시면 저희가 단계별로 원인을 파악해드리겠습니다. 대부분의 문제는 현장에서 30분 이내에 해결 가능합니다. 혹시 해결이 어려운 경우에는 본사 개발팀에 바로 에스컬레이션하여 신속히 대응하겠습니다."
고객 문의 접수 시 증상에 따른 1차 진단 흐름이다. 단계: 증상 분류 → 확인 명령 → 진단 → 해결 또는 에스컬레이션.
1. 최상위 증상 분류
2. 대시보드 화면 오류 플로우
3. 에이전트 연결 불가 플로우
현장 체크리스트
- 에이전트 프로세스 실행 여부 (
ps -ef | grep flowkat) -
flowkat.conf의net_collector_ip/net_collector_tcp_port값 확인 - 방화벽 6100 TCP 포트 통신 테스트 (
nc -zv <수집서버IP> 6100) - collect-server 컨테이너 상태 확인 (
docker ps | grep collect) - 에이전트 로그 최근 오류 확인 (
tail -50 /opt/flowkat/agent.java/logs/flowkat.log)
4. 데이터 수집 누락 플로우
5. 성능 저하 플로우
6. 알림 오작동 플로우
에스컬레이션 기준
| 상황 | 에스컬레이션 여부 | 전달 정보 |
|---|---|---|
| collect-server 재시작 후 연결 안 됨 | O | docker logs, check-collect-server.sh 결과, .env 설정 |
| postgres 데이터 손상 의심 | O | postgres 로그, 볼륨 경로, 에러 메시지 |
| XLog Plugin 설정 완료 후 데이터 미기록 | O | plugin 디렉토리 목록, COLLECT_POSTGRES_HOST 값 |
| 자체 해결 가능 (재시작/설정 수정) | X | - |
관련 문서: *layer3-\*.md* (증상별 상세 가이드), *31.log-collection.md* (로그 수집 방법)