인프라 통합 모니터링 개발

SYSTEM/TECH / /
반응형

개인적인 생각 ...

   

   -  왜 굳이 비용을 들여서 모니터링 솔루션을 유료로 구매해서 사용하는지.. 수 천만원~ 몇억 하는것을...

      공개된 오픈소스를 활용해도 상용에 버금가는 모니터링 시스템을 만들수 있는데...


      아마도 아래 이유중 하나일수도 있다고 생각된다.

      회사가 돈이 많거나, 관심이 없거나, 개발 인력 부재, 인력은 있으나 개발능력 부재...



모니터링 대상 :


현재 기준


  Host 서버 (블레이드)  250대 (다양한 벤더)

  Hypervisor : Hyper-v , VMWare

  VM : 10,000대 이상

  Storage : Total 800TB 정도  , 10여대 운영 (다양한 벤더)

  Switch : SAN, Ethernet 수십대

  Service : apache, tomcat, mysql, redis, mongodb 등등등.....




아래 구성으로 통합 모니터링 대시보드를 개발하여 문제없이 몇 년째  잘 사용중이다.


참고 사항


 

influxdb : 


서버 리소스 사이징에 대해서는 가이드라인이 있음 (https://www.influxdata.com/) 


(모니터링 폴링 타임 (예 30초)   30초*서버수*메트릭수(cpu,mem,bandwidth 등등등)


저장되는 메트릭 수가 많을수록 HDD 성능이 좋아야함 (SSD 추천: 거의 실시간으로 disk I/O가 빈번하기때문)


그리고 retention 정책 , cache 관련 설정등을 사이즈에 맞게  잘 튜닝해야함


성능 문제 발생시 Sharding 이 되나 구조가 복잡해 지고 (관리적인 측면포함) 샤딩 이전에 Scale-up이 가능하다면 

먼저 진행  하는것이 바람직하다고 생각됨 

                   

Grafana  :  


현재 4.2.x 버전인데 업그레이드 잘됨 (패키지 받서 그냥 설치하면됨 / 그리고 restart)


버전 UP시 grafana.org 에 blog 에 가면 어떤 부분이 개선되고 패치되었는지 자세하게 나옴


플러그인 설치는 grafana.net 가면 있음

            

Telegraf  :  


windows agent는  influxdb 버전과 호환되야함 (버전 맞춰 주는게 좋음 )


다양한 input,output 플러그인 지원

 

Kapacitor : 


Notification (alert)  담당 데몬이며, 들어오는 쿼리에 대해 감시설정을 stream방식이냐 batch 방식이냐 결정


알람설정은 지원 되는 API들이 많이 있음


tick 스크립트 수정시에는 수정후 무조건 다시 define 해줘야 수정된게 반영됨.

   


012345678910111213


반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기