IT Operations – Op weg naar automatiseren en voorspellen

2019 July 01 - 871 words - 5 mins - monitoring - Ook beschikbaar in engels

'Ik help klanten al vele jaren met vraagstukken op het gebied van IT Operations. Hierbij zie ik dat we vaak Splunk inzetten als centraal dataplatform. Dit drijft het versnellen en efficiënter maken van IT-processen', legt Product Manager Erwin Vrolijk uit.

Alles dat met IT te maken heeft, verandert in hoog tempo. Vrolijk merkt dat de klant van vandaag andere vragen heeft dan die van gisteren. “De omgevingen worden technisch complexer en IT Operations moet zo’n omgeving goed kunnen aansturen. Vroeger ging het vaak om eenvoudige vragen. Hoe vol is het geheugen? Hoe zwaar is het netwerk belast? Nu veranderen omgevingen veel sneller en zijn de verantwoordelijkheden ingewikkelder, onder andere door de verschillende manieren waarop met cloud wordt omgegaan. Security en compliancy komen om de hoek kijken en organisaties willen vanuit verschillende functieniveaus en afdelingen naar zo’n omgeving kijken.”

Vijf stappen

Hij laat een stappenplan zien voor het optimaliseren van de IT-processen, met een maximale grip daarop. “Wij hebben verschillende fases herkend en benoemd. Ieder met eigen kenmerken en aanpak. Op weg naar AI Ops moet je een aantal zaken op orde te hebben. Het zijn in totaal vijf stappen die de mate van volwassenheid aangeven. De vijfde stap is het einddoel. Dan zijn bedrijven met behulp van onder meer Artificial Intelligence volledig voorspellend bezig.”

Reactive

De eerste stap heet reactive. “Bedrijven werken dan vaak als een soort brandweerman; ze lossen elk probleem apart op, zonder enige vorm van centralisatie of automatisering. Dat kost veel tijd.”

Expectative

De tweede stap heet expectative, oftewel afwachtend. “De bekende, terugkerende, problemen en de reacties daarop zijn in kaart gebracht en worden sneller afgehandeld. Je ziet problemen nog niet aankomen en nieuwe, onbekende, incidenten worden nog steeds met veel moeite opgelost. Je kunt sneller reageren, maar de incidenten staan nog steeds los van elkaar.”

Operational Visibility

Daarna volgt operational visibility als derde stap. “De technische keten die nodig is om diensten te kunnen leveren is in kaart gebracht. Daardoor worden problemen sneller gezien en kan een goede inschatting van de impact van een verstoring gemaakt worden.”

IT Insights

Stap vier heet IT insights. “Cruciaal is dat de informatie uit de vorige fase nu niet meer alleen door de IT gebruikt wordt, maar ook sturing aan de bedrijfsprocessen geven. Data wordt een onderdeel van de processen en wordt actief gebruikt om kritische beslissingen te ondersteunen. Kies ik voor nieuwe hardware of voor de cloud? Investeer ik in mijn databases of juist in mijn netwerk?”

AI Ops

Het einddoel, de vijfde stap, noemt Vrolijk AI Ops. “Bij deze stap zijn de beslissingen geautomatiseerd en worden incidenten voorspeld zodat mogelijke problemen worden opgelost voordat ze zich voordoen. Dit is het uiteindelijke doel van iedere organisatie.”

Aanpak

“We analyseren eerst waar bedrijven staan, afzonderlijk voor elke afdeling en zelfs iedere applicatie”, legt Vrolijk uit. “We kijken waar de pijnpunten liggen. Missen er bijvoorbeeld bepaalde databronnen of worden SLA’s niet gehaald omdat systemen traag zijn of uitvallen? Zo inventariseren we waar we moeten beginnen. Het is namelijk niet zomaar een kwestie van kunstmatige intelligentie inzetten of playbooks automatisch inzetten bij een alarm. Voordat je daar bent moet je eerst veel andere dingen geregeld hebben. Want als je wilt kunnen voorspellen of een applicatie uit gaat vallen, moet je eerst in kaart hebben gebracht hoe dat onderdeel presteert.”

Voorbeelden

“Een klant die een private cloud-omgeving ontwikkeld heeft, had het probleem dat een bedrijfskritische applicatie af en toe, op onvoorspelbare momenten, crasht. Dat kan heel veel oorzaken hebben. We hebben inzicht gekregen in de hele stack, van de hardware tot de applicatie. Zo konden we snel identificeren dat het probleem ergens in de applicatie moest zitten. Doordat we daar hebben gemeten op onder andere CPU-gebruik en memory-gebruik, konden we, mede dankzij alle data in ons platform, zien dat er in een specifieke module van de applicatie een memory-leak zat. De applicatie ging langzaamaan steeds meer geheugen gebruiken en crasht vervolgens. Dat konden we oplossen en met dezelfde software valideerden we dat het probleem ook echt was opgelost. Wat het nog mooier maakte was dat we door die specifieke metingen een nieuw en vergelijkbaar probleem al aan konden zien komen, zonder dat de eindgebruikers er ooit last van hadden. Dezelfde indicatoren lichtten op voor een andere module van dezelfde applicatie, en zo voorkwamen we een volgende crash en de daarbij horende downtime.”

“We hebben situaties gezien waarbij er meer dan tienduizend alarmen per dag op een operator afkwamen. Dat is niet te doen. Meestal zien ze dan hoogstens een procent of vijf, terwijl er bij dat andere deel ook problemen zitten die belangrijk zijn. Organisaties die al wat verder zijn in hun stappenplan kunnen met behulp van machine learning alarmen clusteren en terugbrengen tot bijvoorbeeld tien groepen. Daarmee wordt het werk van de analist of de operator veel efficiënter gemaakt.”

Future

Vrolijk heeft een duidelijk toekomstbeeld. “Over een jaar of vijf is wat wij als de vijfde stap beschouwen, AI Ops, voor een groot deel werkelijkheid. Dan is een deel van IT Operations weg-geautomatiseerd door algoritmes en kunnen de mensen en teams die ervoor verantwoordelijk zijn zich met andere, moeilijkere problemen bezighouden.”

Dit artikel is origineel geschreven voor en gepubliceerd door SMT