Ik zie, ik zie, wat jij niet ziet ...

Wat een rustig idee is het toch. Alles in je IT-omgeving perfect op orde. De dashboards tonen groene lampjes, monitoringtools melden geen kritieke incidenten. Tijd voor een koffie!

En toch – op de meest onvoorspelbare én onhandige momenten - stokt de productiviteit. Krijg je of ervaar je vertragingen, haperingen, systemen die ineens seconden of minuten niet reageren. Huh?

Dit zal je vast niet onbekend voorkomen. Het gebeurde onlangs ook bij een bedrijf waar ik op bezoek was. De IT-manager verzuchtte precies wat ik hierboven schreef. Inclusief die koffie. Ze hadden wel net een nieuw CRM-systeem in de cloud uitgerold. Alles leek vlekkeloos te werken. Maar de gebruikers klaagden dat het systeem dagelijks meerdere keren volledig stilviel. Een paar minuten lijkt voor buitenstaanders misschien niet lang, maar als je klanten aan de telefoon hebt die je minutenlang niet kan helpen dan stijgt de frustratie en verlies je rap omzet.

Kijk, de standaard monitoringtools zagen wel dat er ergens een probleem leek te zijn, maar gaven geen antwoord op de vraag waarom. De leverancier van de internetverbinding zag geen problemen. Toevoegen van cloud-resources maakte geen enkel verschil. Niemand kon de oorzaak vinden.

Dat was het moment dat ik aan de slag ging. De oorzaak bleek simpel. Maar ik moet eigenlijk zeggen … De oorzaak was voor míj́ simpel. Wat ik doe is meten, Net als die software. Maar ik meet anders. En ik durf te beweren … ik meet beter. Want ik meet met een andere, betere resolutie.

Al snel ontdekte ik wat er aan de hand was. Mobiele apparaten bleken op willekeurige momenten massale updates uit te voeren. Daarmee slokten ze de volledige internetverbinding op. De beschikbare bandbreedte werd simpelweg overstemd door de krachtigere servers aan de andere kant.

De Internet leverancier zag het niet omdat ze met een 15 minuten resolutie aan het meten waren. Een piek van zo’n 4 tot 5 minuten middelt dan uit. De APM-tooling had het ook niet gevonden, omdat deze geen zicht had op de netwerkverbinding.

Inefficiënties in IT ontstaan niet alleen door wat je ziet, maar vooral door wat je níet ziet. Door slimmer en gedetailleerder te meten haal je verborgen problemen wel naar boven. En nu denk jij … hoeveel blinde vlekken zijn er in mijn IT-omgeving? Ik ga je helpen!

Tip: Waarom een gemiddelde je op het verkeerde been zet

“Gemiddeld is het hier lekker,” zei de man met zijn hoofd in de oven en zijn voeten in de ijskast. Beetje flauw maar wel meteen duidelijk toch? Een gemiddelde vertelt maar een deel van het verhaal. Het ‘maskeert’ pieken en dalen, waardoor belangrijke problemen onzichtbaar blijven. En in IT kan dat kostbaar zijn. En van wat ik zie, is het vaker kostbaar dan we wensen.

Neem het geval met dat bedrijf met dat nieuwe CRM-systeem in de cloud. De gebruikers klaagden , de leverancier van de internetverbinding stelde hen ‘gemiddeld’ gerust: "We meten elke vijftien minuten en zien geen problemen.” De gebruikers voelden zich niet serieus genomen want het probleem was er dus weldegelijk. Ondanks dat de gemiddelde belasting van de lijn ruim binnen de marges was, waren we allemaal blij dat ik het probleem snel had gevonden en dat het daarmee ook snel opgelost was.

Een gemiddeld gebruik over vijftien minuten zegt vrijwel niets. In ieder geval niks bruikbaars. Net zoals een gemiddelde temperatuur niets zegt over hoe comfortabel iemand zich voelt als hij afwisselend extreme hitte en ijzige kou ervaart.

De standaard monitoringtools geven meestal geen alarmsignalen als er niet goed naar overbelasting wordt gekeken. Als ze naast de gemiddelden ook de maxima zouden meten hadden ze het probleem wel gevonden. Tip voor jou, hoe zit dat bij jouw monitoringtools? Gemiddelden of ook de uitschieters?

In IT is het niet gewoonweg niet genoeg om alleen gemiddelden te meten. Want als je blind vertrouwt op gemiddelden, loop je het risico dat je grootste problemen precies buiten beeld blijven.

De juiste resolutie: meten wat écht telt

Een APM-leverancier vertelde me ooit trots: “Wij meten elke tien seconden. Wat kun je dan nog missen?” Ik wilde zijn enthousiasme niet afremmen maar dacht wel: “Nou, bijna alles”. In de wereld van IT is tien seconden een eeuwigheid. Cruciale gebeurtenissen kunnen zich in milliseconden voltrekken, en als je die niet vastlegt, heb je een grote ‘blind spot’.

Vergelijk het met het meten van de temperatuur. Stel dat jij elke dag om 12 uur ’s middags de temperatuur opneemt, terwijl iemand anders dit om 6 uur ’s ochtends doet. Beiden proberen hetzelfde te meten - de dagtemperatuur - maar de resultaten zullen totaal verschillen. De ene meet misschien 20 graden, de andere 8 graden. Welke is juist? Geen van beide of allebei. Het probleem zit in de resolutie én in het meetmoment: je mist daarmee de variatie in temperatuur en daarmee de essentie van het weer.

In IT werkt het net zo. Stel dat een microservice maar een halve seconde actief is, maar je meet slechts elke tien seconden. De kans is dan 95% dat je deze microservice nooit registreert. En als je hem niet ziet, kun je hem ook niet meenemen in je analyse van het probleem.

Een halve seconde klinkt misschien verwaarloosbaar, maar in moderne applicaties roept een gebruiker vaak tientallen microservices aan voor één enkele actie. Als meerdere van deze diensten kortstondig vertraging oplopen en je die niet meet, mis je de oorzaak van trage applicatieprestaties. Wat niet gemeten wordt, blijft onzichtbaar - maar heeft wél impact op o.a. de gebruikerservaring.

Het omgekeerde is ook een valkuil. Meet je met een té hoge resolutie, dan krijg je zoveel data dat het moeilijk wordt om er nog waardevolle informatie uit te halen. Je ziet door de bomen het bos niet meer.

Meten is vakwerk en niet zomaar te automatiseren. Ik stem de meetresolutie altijd af op wat ik hoor aan problematiek en daarmee daadwerkelijk wil begrijpen. Dat gaat deels op gevoel en deels op wat ik hoor wat er aan de hand is. Niet te grof, niet te fijn, maar precies goed om de echte problemen boven tafel te krijgen. Want meten zonder inzicht is net zo nutteloos als niet meten.

De juiste dingen meten: niet alles wat draait, is nuttig

Cloudleveranciers prijzen hun FinOps-tools aan als dé oplossing om kosten te optimaliseren. Handig, maar ze kijken vooral naar gebruik, niet naar zakelijk nut. Stel zelf de vraag, levert die server die actief is wel waarde voor onze organisatie? Om onnodige kosten te voorkomen.

Een treffend voorbeeld: een FinOps-tool gaf aan dat server ‘actief’ en ‘prima draaide’ en geen reden had om uitgeschakeld te worden. Er draaide immers programmatuur op. Maar toen ik beter keek, bleek die server alleen maar zijn eigen back-ups maakte. Geen functie meer, geen waarde voor het bedrijf, alleen maar kosten. Ik had mezelf alweer terugverdiend .

De les? De cloudleverancier keek alleen naar of er iets draaide, niet wat er draaide en of dat nog zinvol was. Door wél die stap verder te gaan, werd snel duidelijk dat deze server alleen maar geld kostte zonder iets op te leveren.

Echte kostenoptimalisatie vraagt om meer dan alleen een checklist van actieve resources. Het draait om inzicht in wát je betaalt en of dat geld daadwerkelijk bijdraagt aan je bedrijfsdoelen. Anders optimaliseer je misschien wel je gebruik, maar niet je kosten.

Blijf niet zoeken—los het op

Zit jij met een hardnekkig IT-probleem waar niemand de vinger achter krijgt? Of zie je je cloudkosten gestaag oplopen zonder duidelijke oorzaak? In veel gevallen vinden we de oorzaak en is bovendien de oplossing vaak eenvoudiger dan menigeen denkt.

Wil je ook inzicht en besparingen realiseren? Laten we samen naar je situatie kijken. Plan een vrijblijvende afspraak en ontdek hoe je binnen korte tijd helder inzicht en grip krijgt op je kosten en je productiviteitsverlies en onnodige kosten elimineert.

Maak hier je afspraak

Klik Me