top of page

AIOps(IT 운영을 위한 인공 지능)로 IT 서비스 관리 탈바꿈하기



선도적인 Platinum Atlassian 솔루션 파트너인 iZeno와 Atlassian 솔루션 전문가가 공동으로 작성했습니다.

애플리케이션이 모놀리식 애플리케이션에서 마이크로서비스로 진화하고 IT 인프라의 규모가 커지고 복잡성이 높아짐에 따라, 과중한 업무에 시달리고 있는 IT 팀을 위한 관리 및 유지 보수 작업을 효과적으로 수행하기가 어려워지고 있습니다. 기존의 수동 IT 프로세스에 지나치게 의존하면 효율성이 낮아지고, 혁신을 위한 기회를 놓치게 되고, 보안 및 규정 준수에 잠재적인 격차가 발생할 수 있습니다. 하지만 AIOps(IT 운영을 위한 인공 지능)와 같은 자동화 방법을 사용하면 IT 프로세스를 간소화하는 동시에 관리 및 유지 보수 작업을 더욱 안전하고 안정적이고 효율적으로 수행할 수 있습니다.

AIOps의 정의

AIOps는 인공 지능(AI)과 기계 학습(ML)을 통합하고, IT 팀의 시간을 소모하게 될 수 있는 다수의 수동 탐지 및 유지 관리 작업을 자동화합니다. AIOps는 IT 운영을 간소화하고 효율성을 개선해 IT 팀이 여러 소스의 데이터를 선제적으로 분석하고, 환경 내에서 주의를 기울여야 하는 영역을 신속하게 식별하고, 신속하고 효과적으로 이슈를 해결하기 위해 정확한 인사이트를 확보할 수 있도록 합니다. IT 전문가는 AIOps를 통해 가치가 높은 전략적 이니셔티브에 더 많은 시간을 투자할 수 있습니다.

AIOps의 핵심 동인

AIOps는 다음과 같은 상황을 경험하고 있는 조직에 유용한 솔루션입니다.

  • 환경의 복잡성: 조직이 클라우드 네이티브 원칙을 받아들이고 모놀리식 아키텍처에서 마이크로서비스 기반 서비스 아키텍처로 전환하는 경우, 수동 프로세스를 사용하는 IT 팀이 모니터링하고 추적하기 어려울 정도로 기술 스택의 복잡성이 높아지게 됩니다.

  • 가용성 및 실시간 모니터링의 필요성: 서비스의 안정성, 응답성, 확장성을 보장하고자 하는 조직에는 AI가 유용할 수 있으며, AI는 이슈를 신속하게 처리하는 동시에 탁월한 사용자 환경을 제공하고 SLA(서비스 수준 계약)를 이행하는 데 도움이 됩니다.

  • 많은 양의 데이터: 마이크로서비스 기반 아키텍처에서는 가용성 및 모니터링에 대한 수요가 증가함에 따라 데이터 양도 증가하게 됩니다. AI는 운영 팀과 IT 팀이 데이터를 능숙하게 분석하고, 이상 징후 탐지와 클러스터링 기법과 관련해 합리적인 결정을 내릴 수 있도록 지원합니다.

  • 고객 환경 개선에 대한 열망: 조직은 AI를 통해 사용자에게 미치는 영향을 최소화하면서 더욱 신속하게 이슈를 해결하고 매끄러운 환경을 보장할 수 있습니다.

  • 비용 부담: AIOps는 리소스 사용률을 최적화하고 추가 인력의 필요성을 낮춤으로써 상당한 비용을 절감할 수 있습니다. AI는 다운타임을 방지 또는 최소화하고, 반복 작업을 자동화하고, 용량 계획을 개선하고, 필요에 따라 인프라가 자동적으로 확장될 수 있도록 지원합니다.

AIOps 구성 요소

AIOps 플랫폼의 핵심 구성 요소는 관찰(obersve), 참여(engage), 행동(act)으로 요약하는 경우가 많습니다. AIOps 프레임워크의 관찰, 참여, 행동 접근방식은 IT 서비스 매니지먼트 팀이 간단하게 운영을 개선할 수 있는 방법을 제공합니다.

관찰

IT 팀은 AIOps를 사용해 조직의 IT 환경 내 다양한 소스에서 방대한 양의 데이터를 수집하고 분석할 수 있습니다. 이러한 소스에는 서버, 애플리케이션, 네트워크 장치 등의 로그, 메트릭, 이벤트, 기타 텔레메트리 데이터가 포함될 수 있습니다.

참여

AIOps는 다양한 소스 전반의 데이터의 상관 관계를 파악하고 인시던트와 인시던트가 조직에 미칠 수 있는 잠재적인 영향을 총체적인 관점에서 파악할 수 있도록 지원합니다.

지능형 경고 및 알림 시스템은 참여의 핵심 요소로, 최신 인시던트 관리 기능이 포함된 IT 서비스 매니지먼트 솔루션을 사용해 주의를 기울여야 하는 중요 이슈에 대한 정보를 IT 팀에 신속하게 전달합니다. AIOps 플랫폼은 워크플로 자동화를 사용해 인시던트 적절한 팀 또는 시스템으로 라우팅해 인시던트를 해결할 수 있도록 할 수 있으며, 해당 워크플로의 진행 상황을 추적할 수 있습니다.

행동

AIOps 플랫폼은 관찰 및 참여 단계에서 확보한 인사이트에 기반해 자동화 또는 반자동화 작업을 실행합니다. 해당 작업에는 자동 수정(automated remediation)이 포함될 수 있으며, AIOps는 자동 수정 작업에서 사전에 정의된 스크립트 또는 작업을 트리거해 인간의 개입 없이도 일반적인 이슈를 해결할 수 있습니다.

AIOps의 궁극적인 목표는 인시던트 대응 속도를 높이고, 평균 해결 시간(MTTR)을 단축하고, IT 운영의 전반적인 효율성을 개선하는 것입니다.

엔드투엔드 솔루션, AIOps

조직은 AIOps를 도입함으로써 관찰, 참여, 행동 프레임워크에 해당하는 3단계 엔드투엔드 솔루션을 확보할 수 있습니다.

가시성(관찰)

IT 팀은 AIOps를 통해 로그, 추적, 이벤트, 메트릭 등 모든 형태의 데이터에 대한 지도(supervised) 및 비지도(unsupervised) 기계 학습 기능을 이용해 비즈니스 전체를 위한 업무와 조직 내 운영 업무를 수행할 수 있습니다.



팀은 더욱 신속하고 조사를 진행하고 상관 관계를 파악하기 위해 중앙 위치에서 로그를 집계할 수 있습니다.

AIOps 플랫폼에 포함되는 로그 데이터 유형은 다음과 같습니다.

애플리케이션 성능 모니터링(APM): APM을 구현해 애플리케이션 성능, 종속성, 코드 최적화에 대한 인사이트를 확보하고 이슈의 근본 원인을 파악하세요.

인프라 모니터링: 클라우드 플랫폼 등 인프라 모니터링을 구현해 로그, 메트릭, 기타 데이터를 수집ㄹ하고 더욱 신속하게 문제를 해결하세요. 즉시 사용 가능하고 이상 징후 탐지를 위해 사전에 구성된 머신 러닝 규칙을 갖춘 도구가 가장 적합합니다. 애플리케이션과 인프라 데이터를 연결해 사일로를 제거하고 근본 원인 탐지 속도를 높이세요.

로그 모니터링: 중앙형 로깅을 구현해 애플리케이션과 인프라 로그를 통합하세요. 알고리즘을 구현해 정형 또는 비정형 데이터에서 인사이트를 확보하고, 일반적인 패턴과 추세를 파악하세요. 모든 로그 메시지에 즉시 사용 가능한 기계 학습 기능을 적용해 신속하게 탐지하고 상관 관계를 파악하세요.

실제 사용자 모니터링: 실제 사용자 모니터링을 구현해 성능 데이터를 수집 및 측정하고, 이를 통해 URL, 운영 체제, 브라우저, 위치를 분석해 애플리케이션 성능을 파악하고 기저 인프라를 개선하세요.

ITSM 솔루션에 가시성 알림을 푸시해 선제적으로 인시던트를 관리하고 서비스 중단을 방지하세요.

IT 서비스 매니지먼트(참여)

AIOps의 IT 서비스 매니지먼트 또는 참여 단계는 조직의 인시던트 관리 프로세스를 조율하고, 적절한 팀에게 알림을 전송하고, 실행 가능한 정볼르 제공하고, 해결 프로세스를 안내하는 역할을 합니다.

Jira Service Management는 최신 인시던트 관리 프로세스를 구축하는 효과적인 방법입니다.

Jira Service Management를 사용해 최신 인시던트 관리 프로세스를 구축하는 방법은 다음과 같습니다.

  • 패턴 및 트렌드 기반 알림: AIOps 플랫폼은 패턴과 추세를 파악하기 위해 지속적으로 데이터를 모니터링합니다. 이상 징후나 이슈가 탐지되는 경우 해당 패턴과 추세에 기반해 알림이 생성됩니다.

  • 경고 알림: Jira Service Management는 서비스, 플랫폼, 경고 심각도에 기반해 대기 팀에 알림을 전송합니다. 알림은 모바일 앱 푸시 알림, 이메일, 전화, SMS 등 다양한 채널을 통해 발송되며, 이를 통해 적절한 담당자에게 즉시 알림을 전송하고 대응 시간을 단축할 수 있습니다.

  • 행동 계획 자동화: ITSM 플랫폼은 인시던트의 특성, 영향을 받은 서비스, 과거에 발생한 유사 인시던트에 기반해 대기 팀에 자동으로 행동 계획을 제안합니다. 이는 팀이 신속하게 합리적인 결정을 내리는 데 도움이 됩니다. 자동화를 활용하면 유사한 특성을 지닌 미해결 인시던트를 중앙의 상위 인시던트와 연결해 관리 부담을 효과적으로 감소시킬 수 있습니다.

  • 서비스 종속성 매핑: Jira Service Management의 네이티브 자산 및 구성 관리 도구인 Assets는 서비스 종속성을 시각적으로 표현하고 의미 있는 인시던트 세부 정보를 제공함으로써 팀이 더 폭넓은 IT 환경에 미치는 잠재적인 영향과 맥락을 이해할 수 있도록 지원합니다.

  • 협업 및 스워밍: 스워밍(swarming)은 서로 다른 영역의 주제 관련 전문가(SME)를 소집해 효율적으로 인시던트를 해결하기 위해 협업을 진행하는 일을 말합니다. Jira Service Management는 Microsoft Teams 및 Slack과 같은 플랫폼과의 통합을 통해 팀을 위한 '스워밍'을 지원합니다. 또한 IT 팀은 기본으로 제공되는 화상 회의 기능이나 Zoom을 활용해 협업을 촉진할 수도 있습니다.

  • 런북: IT 팀에게는 인시던트의 소스 파라미터와 예상 결과에 기반해 취해야 할 구체적인 조치를 설명하는 런북(가이드)이 제공되며, 이를 통해 인시던트 해결을 위한 체계적인 접근방식을 보장할 수 있습니다. 런북과 기타 문서는 지식 리포지토리에서 생성하고 유지 관리할 수 있습니다. 지식 리포지토리는 Confluence를 기반으로 하며 Confluence의 네이티브 통합을 통해 Jira Service Management와 매끄럽게 통합됩니다.

  • 변경 로깅: 팀은 필요한 경우 Jira Service Management 내에서 변경 요청을 자동으로 시작하고 영향을 받는 서비스에 기반해 필요한 승인을 트리거할 수 있으며, 이는 인시던트 해결에 필수적인 변경 사항을 모니터링 및 컨트롤하고 거버넌스, 리스크, 규정 준수 표준을 준수하는 데 도움이 됩니다.

  • 자동 수정(automatic remediation): 사전에 설정된 조건이 충족되고 인간의 개입 없이 인시던트를 해결할 수 있는 경우, Jira Service Management는 기본으로 제공되는 자동화 기능을 통해 플랫폼 내에서 자동 수정 작업을 트리거하거나 외부 시스템과 통합함으로써 플랫폼 간 수정 작업을 실행할 수 있습니다.

  • 참조 자료 및 런북: 팀은 참조 자료 문서와 런북을 생성하고 업데이트할 수 있으며, 해당 문서와 런북은 Confluence 내에서 호스팅됩니다. 이는 향후 참고를 위해 조직의 지식과 모범 사례를 수집하는 데 도움이 됩니다. 실행을 위해 플레이북을 선택하면 실행 중 플랫폼에서 팀을 위한 단계별 지침이 제공되며, 지침에는 사전에 정의된 일련의 단계와 작업이 포함될 수 있습니다.

  • 런북 개발 자동화: 적합한 런북이 존재하지 않는 경우, AIOps 플랫폼은 팀이 향후 유사한 인시던트를 처리하기 위한 자동화 런북을 개발할 수 있도록 작업을 트리거할 수 있으며, 이를 통해 지속적 개선을 촉진할 수 있습니다.

자동화(행동)

자동화 또는 행동 단계는 이슈를 해결하고, 시스템 안정성을 개선하고, IT 운영을 최적화하기 위한 작업을 자동화하는 데 중점을 두는 AIOps 솔루션 구성 요소입니다. 해당 단계는 사전에 정의된 조건과 트리거를 활용해 특정 작업을 자동으로 실행하기에 수동 개입의 필요성이 줄어들고 인시던트 해결 속도가 높아집니다.



일반적인 자동화 작업을 참고해 주세요.

  • 서비스 재시작: 서비스 또는 애플리케이션이 응답하지 않거나 이슈가 발생하는 경우 서비스 또는 애플리케이션을 자동으로 재시작할 수 있습니다. 이는 수동 개입 없이 서비스를 신속하게 사용 가능한 상태로 복구하는 데 도움이 됩니다.

  • 로그를 정리해 가상 머신 공간을 확보: 로그 파일이 누적되면 가상 머신(VM)의 디스크 공간을 차지하게 될 수 있습니다. 오래되거나 불필요한 로그 항목 제거 등 로그 정리 프로세스를 자동화하고 충분한 저장 용량을 확보할 수 있습니다.

  • 트래픽에 기반해 인프라 리소스 자동 확장: AIOps는 수신 트래픽 패턴을 모니터링하고 수요가 급증하는 시점을 예측할 수 있습니다. 트래픽이 증가할 것으로 예상되는 경우, 시스템은 추가적인 부하를 처리하기 위해 CPU 및 RAM과 같은 인프라 리소스를 자동으로 확장할 수 있습니다.

  • 보안 경고 또는 비정상적인 동작에 기반해 엔드포인트 격리: 보안 경고 또는 비정상적인 동작이 탐지되는 경우, 영향을 받는 엔드포인트 또는 장치를 격리하기 위해 자동화된 조치를 시행할 수 있습니다. 여기에는 인시던트가 해결될 때까지 추가적인 피해나 침입을 방지하기 위해 네트워크 연결을 일시적으로 중단하는 것이 포함될 수 있습니다.

  • 재해 복구: 인시던트로 인해 특정 구성 요소에 장애가 발생한 것으로 탐지되는 경우, 자동화를 트리거해 재해 복구 사이트에서 중대한 중단 문제 없이 서비스를 복구하도록 할 수 있습니다.

특정 자동화에는 승인이 필요할 수 있습니다. ITSM은 정의된 조건에 기반해 IT 팀 또는 비즈니스 이해관계자로부터 관련 승인을 자동으로 받을 수 있도록 지원합니다.

추천하는 모범 사례

AIOps를 구현하려면 성공을 보장하기 위해 신중하게 계획하고 모범 사례를 준수해야 합니다. Atlassian의 권장 사항은 다음과 같습니다.

  • 현황 파악: 먼저 기존 IT 인프라, 도구, 프로세스를 철저히 평가하세요. 모니터링 및 인시던트 관리를 포함해 현재 IT 운영 업무가 어떻게 진행되고 있는지 파악하세요. 이러한 기준선 평가는 AIOps가 도움이 될 수 있는 영역을 식별하는 데 도움이 되며, 어디서부터 개선 작업을 시작해야 할지 파악할 수 있습니다.

  • 향후 목표 정의: AIOps 구현의 목적과 목표를 명확하게 정의하세요. 평균 해결 시간(MTTR) 단축, 시스템 가용성 개선 또는 반복 작업 자동화 등 달성하고자 하는 목표를 결정하세요. 이러한 목표는 AIOps 디플로이먼트를 위한 로드맵 역할을 하며 성과를 측정하는 데 도움이 됩니다.

  • 적절한 도구 선택: 조직의 구체적인 요구 사항과 목표에 부합하는 AIOps 도구와 솔루션을 선택하세요. 확장성, 통합 기능, 사용 편의성과 메트릭 및 이벤트 등 다양한 소스의 데이터를 분석하고 연결하기 위한 기능 등의 요소를 고려하세요.

  • 보안 컨트롤: AIOps를 다른 시스템에 통합하는 경우, 특히 데이터 수집 및 통신을 위해 AIOps를 다른 시스템에 통합하는 경우에는 보안을 강화할 수 있도록 필요한 IP 주소를 화이트리스트에 추가하세요. 이는 무단 액세스를 방지하고 신뢰할 수 있는 소스만 AIOps 플랫폼과 상호 작용하도록 할 수 있습니다. 온프레미스 가시성을 위해 AIOps를 구현하는 경우, 암호화 및 액세스 컨트롤을 구현함으로써 보안 조치의 우선 순위를 지정하고 데이터와 시스템을 안전하게 보호하세요.

  • 지속적 개선: AIOps 구현은 한 번으로 끝나지 않으며, 지속적인 유지 관리와 개선이 필요합니다. AIOps 플랫폼의 성능을 지속적으로 모니터링하고, 피드백과 변화하는 요구 사항에 기반해 알고리즘과 프로세스를 개선하세요. 이러한 반복적 접근법을 통해 AIOps가 장기적으로 효과적인 상태를 유지하도록 보장할 수 있습니다.

  • 거버넌스 및 내부 검토: 거버넌스 메커니즘을 수립하고 정기적으로 내부 검토를 수행해 AIOps 구현의 효과성을 평가하세요. AIOps 이니셔티브가 전반적인 IT 전략 및 비즈니스 목표에 부합하는지 확인하고, 정기적으로 이해관계자의 참여를 유도하고 개선을 위한 피드백을 확보하세요.

AIOps는 IT 운영 개선, 효율성 향상, 비용 절감, 전반적인 비즈니스 성과 향상에 도움이 됩니다. AIOps는 실시간 모니터링과 IT 인프라, 애플리케이션, 서비스에 대한 분석을 통해 조직이 이슈가 최종 사용자에게 영향을 미치기 전에 이슈를 식별하고 처리할 수 있도록 합니다. 또한 조직은 AIOps를 통해 과거 데이터와 추세를 분석해 문제를 선제적으로 탐지하고 교정함으로써 매끄러운 최종 사용자 환경을 보장할 수 있습니다. AIOps의 예측 분석은 장기적인 계획 수립을 지원하며, 조직이 인프라 투자 및 업그레이드에 대해 합리적인 결정을 내리는 데 도움이 됩니다.

Comments


bottom of page