petek, 18. maj 2018

S&T | Dovolj je bilo tipanja v temi

Prepričajte se o uporabnosti nadzornih rešitev Flowmon!

Kolikokrat se vaši uporabniki IT-sistema pritožijo, da neka storitev sicer dela, vendar ne tako dobro kot običajno? 

Večinoma upravljavci takšne uporabnike odpravijo precej “na hitro”, predvsem zato, ker nimajo orodji, ki bi pokazala, kaj je normalno oziroma pričakovano delovanje storitve in kdaj pride do odstopanja od pričakovanj. To pomeni, da v času, ko je IT-sistem ključen za poslovanje podjetja, upravljavci nimajo orodja, ki bi pokazalo, ali IT učinkovito podpira delo uporabnikov.

Rešitve za nadzor performanc omrežja in aplikacij omogočajo hitro odkrivanje vzroka slabega odzivanja IT-sistema in odpravo problema. V nasprotju s tradicionalnimi nadzornimi sistemi ne povedo samo, ali sistemi delujejo ali ne, temveč tudi, kako dobro delujejo. 

Učinkovito lociranje problemov in dobra diagnostika sta ključni točki za hitro reševanje problema

Za lažjo predstavo poglejmo primer. Uporabnik na svoji delovni postaji uporablja aplikacijo (recimo ERP), ki je seveda v aplikativnem strežniku, ki v ozadju uporablja podatkovno bazo v ločenem podatkovnem (database) strežniku. Ko ta kompleksna veriga ne deluje, kot bi morala, se običajno začne ugibanje. Spremenjeno vedenje IT-sistema je lahko posledica spremenjenih razmer na omrežju (dodatna obremenitev, ki je lahko posledica drugačnega dela uporabnikov, napake v konfiguraciji), morebitnih problemov v strežniški infrastrukturi ali v posamezni aplikaciji. Čedalje večja pa je tudi verjetnost, da je morda prišlo do zlorabe ali vdora v sistem. V takšnih primerih sta za hitro odpravo problemov ključna učinkovito lociranje problemov in dobra diagnostika za raziskovanje dogodka. Recimo, da bi imeli orodje, ki bi povedalo, da je uporabnikova zahteva z delovne postaje po omrežju potovala X milisekund do aplikativnega strežnika, ta je potreboval Y milisekund, da jo je »premlel« in nato vprašal podatkovni strežnik, do katerega je zahteva spet potovala Z milisekund, podatkovni strežnik je vrnil podatek po W milisekundah in tako naprej do končnega rezultata uporabniku. V tem primeru bi uporabniku z lahkoto pojasnili, zakaj aplikacija deluje počasneje kot navadno, če bi rezultate te konkretne seje uporabnika lahko primerjali tudi s predhodnimi zgodovinskimi podatki. Seveda postane problem še kompleksnejši v okolju z velikim številom oddaljenih lokacij in VPN-povezav do centralnega IT-sistema.

Jedro problema nam lahko povedo nenavadni odzivni časi. Kje pa lahko izmerimo te odzivne čase?

Omrežje je danes osrednja točka IT-sistema, kjer lahko relativno preprosto ugotovimo, kaj se dogaja. Seveda pa za to potrebujemo vpogled v dogajanje oziroma »visibility«. Rešitve temeljijo na analizi mrežnega prometa oziroma predvsem na poznavanju mrežnih tokov (»Network Flow«). Ste morda kdaj naleteli na kratice IPFIX, NetFlow v5/v9, sFlow, J-Flow? Gre za različne standarde, ki omogočajo, da iz mrežnih naprav (stikal, usmerjevalnikov, požarnih zidov ali namenskih sond) izvemo, katere naprave v omrežju izmenjujejo podatke in kolikšen je njihov obseg, po katerih protokolih ter kdaj (točnost je odvisna od kar nekaj dejavnikov) je ta izmenjava potekala. Te informacije nam sicer že nekaj povedo, če pa želimo res v detajle pogledati, kaj se dogaja sistemu, pa na ustrezne točke v sistemu umestimo še namenske sonde, ki nam lahko povedo do 200 različnih podatkov. Sonde tipično priključimo na SPAN-vmesnik stikal in nanj speljemo mrežni promet, ki nas zanima. Informacije iz sond in ostale mrežne opreme zbiramo v centralnem nadzornem sistemu in ustrezno obdelamo. Sistem je možno postaviti v praktično vsako omrežje, saj ne zahteva nekih specifičnih funkcionalnosti mrežne opreme. Namestitev programskih komponent nadzornega sistema pa je možna tudi v virtualno okolje, kar omogoča tudi ustrezno skalabilnost in rast skladno s potrebami.

S tako postavljenim nadzornim sistemom lahko identificiramo izvor zgoraj opisanega primera v nekaj preprostih korakih. Koliko pa je primerov, ki bi jih lahko rešili na tak način? Po naših izkušnjah jih je veliko, svoje izkušnje lahko podpremo tudi s priporočili analitičnih hiš. Gartner je že pred časom priporočil uvedbo podobnih sistemov: »80% of operational issues can be analyzed and solved by flow monitoring.« Recommendation: »Implement NetFlow/IPFIX to allow better measurement of user experience.« Nekaj zanimivih primerov si preberite v nadaljevanju.

Kdaj nam nadzorni sistem pride še kako prav?

Poleg že omenjenih performančnih problemov pa lahko s tem sistemom ugotovimo tudi, ali se omrežje nenormalno vede zaradi morebitne konfiguracijske napake ali pa morebitne zlorabe ali vdora v IT-sistem. V takšnih primerih pride namreč do odstopanja od normalnih prometnih tokov, ki jih pozna nadzorni sistem. Tipično se namreč iz kompromitirane naprave pojavijo komunikacije proti internetu, do sosednjih naprav (lateralno širjenje), poveča se število povezav in obseg prometa. Napredna analitika, ki ni zasnovana na tehnologiji podpisov (»signatures«), ampak na strojnem učenju, v nadzornem sistemu prepozna odstopanja in nanje opozori. Odstopanja in alarme tipično posredujemo na SIEM-sisteme in te informacije omogočajo bistveno hitrejše in učinkovitejše odkrivanje incidentov in boljše ukrepanje. Vse skupaj je velik kamen v mozaiku zagotavljanja skladnosti tako z regulativo GDPR kot direktivo EU NIS oziroma pravkar sprejetim Zakonom o informacijski varnosti (ZInfV).

Za konec še nekaj zanimivih primerov dobrih praks, ki smo jih dosegli z namestitvijo in uporabo sodobnega nadzornega sistema: 

  • Skrajšali smo čas varnostnega kopiranja (»backup«), ker je imel strežnik premalo dodeljenega RAM-a, prihajalo je do retransmisij in s tem do nepotrebnega podvajanja prometa ter posledično daljšega trajanja kopiranja. 
  • Našli smo poškodovan in umazan konektor na optični povezavi, ki je sicer delovala, a ne optimalno. 
  • Pospešili smo odzivanje strežnika, ki je zaradi napačne konfiguracije mrežnih nastavitev uporabljal manj zmogljivo mrežno povezavo. 
  • Zaznali smo posledice »phising mail« napada, ki ga ostali sistemi niso zaznali.

Ja, vse to smo ugotovili z analizo dogajanja na omrežju, ob tem pa administratorji niso imeli občutka, da je nekaj narobe, ampak so se sprijaznili, da sistem pač tako (počasi) deluje. 

Uporabnost takšnega nadzornega sistema se pokaže v praktično vseh IT-sistemih, tako velikih in kompleksnih kot tudi manjših z majhno ekipo IT-strokovnjakov, saj je sistem modularen in skalabilen ter tako tudi stroškovno učinkovit. Še posebno so tovrstne rešitve uporabne v okoljih z večjim številom oddaljenih lokacij, ki uporabljajo centralizirane informacijske vire na centrali organizacije, kjer je učinkovito delo uporabnikov odvisno od hitrih in zanesljivih povezav ter odzivnosti strežniških farm in aplikacij. In nenazadnje, tudi prehod v oblačne storitve lahko predstavlja izziv za komunikacijske povezave in dogajanje na njih. 

Bi se želeli prepričati na lastne oči?

Če bi želeli izvedeti kaj več ali se prepričati o uporabnosti nadzornih rešitev Flowmon, nas obiščite na razstavnem prostoru S&T na NTK 2018, kjer vam bomo skupaj s strokovnjaki proizvajalca Flowmon ponudili »HANDS-ON« izkušnjo s nadzornim sistemom. Vabimo vas tudi, da se prijavite na našo brezplačno delavnico Flowmon, ki bo v sredo, 13. 6. 2018, na sedežu podjetja S&T Slovenija.

Za več informacij nam pišite na e-naslov info@ntk.si ter se nam pridružite na naših družbenih medijih Facebook in Twitter.