Mówi się, że człowiek stanowi najsłabsze ogniwo złożonego łańcucha zależności składającego się na sprawne i wydajne środowisko IT. Znaczna część incydentów związanych z niedostępnością systemów to wynik zaniedbania lub błędu administratora. Istnieje również wiele potencjalnych punktów awarii w samej infrastrukturze technicznej czy oprogramowaniu. I wreszcie sam fakt eksploatacji systemów powoduje ryzyko związane choćby z nadmierną utylizacją zasobów serwerów lub podatnością na zamierzone bądź przypadkowe próby ataków.

Środowiska IT, szczególnie te o znaczeniu krytycznym dla biznesu – jak systemy ERP czy CRM – to nieodzowny element funkcjonowania przedsiębiorstw. Każda niedostępność systemów IT powoduje stratę czasu, utrudnia, a niekiedy paraliżuje funkcjonowanie całej organizacji. To z kolei bezpośrednio przekłada się na wymierne straty finansowe. Złożoność środowisk zbudowanych z wielu elementów sprzętowych, programowych, konfiguracyjnych i organizacyjnych zwiększa prawdopodobieństwo wystąpienia takiej niedostępności.

Nie istnieją rozwiązania gwarantujące uzyskanie stuprocentowej dostępności systemów w dłuższym okresie. Działania zapobiegawcze – od zapewniania gwarantowanych źródeł zasilania, poprzez stosowanie redundantnych topologii sieciowych i urządzeń zabezpieczających, aż do architektury wysokiej dostępności dla systemów – jedynie ograniczają ryzyko, nie eliminując go jednak całkowicie.

Czynniki te powodują, że człowiek, który stanowi potencjalnie najsłabszy element środowiska IT, jest jednocześnie jedyną linią obrony przed niedostępnością systemów. Jednakże aby skutecznie działać, musi być dobrze poinformowany o bieżącym stanie infrastruktury, a najlepszych informacji może dostarczyć jedynie kompleksowy system monitorujący.

W mnogości siła i zagrożenie

W rozbudowanych, heterogenicznych środowiskach IT na całość systemu monitorującego może się składać wiele różnych aplikacji. Nie jest to wadą, pod warunkiem że aplikacje te są ze sobą zintegrowane, co pozwala uzyskać efekt synergii. Należy też zauważyć, że mnogość urządzeń i oprogramowania tworzącego serwerownię pojedynczego przedsiębiorstwa, a tym bardziej centrum przetwarzania danych usługodawcy outsourcingowego, często po prostu uniemożliwia zastosowanie jednej aplikacji monitorującej całość infrastruktury.

Czujność w pakiecie

W Centrum Outsourcingowym BCC (aktualnie All for One Poland) utrzymujemy wiele systemów krytycznych dla działalności zarówno klientów, jaki i dla BCC.  Są to m.in. systemy ERP, EDI, rozwiązania CRM  i wiele innych. Na infrastrukturę data center składają się też setki serwerów, macierze dyskowe, switche, routery, połączenia sieciowe, zasilacze oraz urządzenia monitorujące temperaturę i wilgotność. Funkcjonowanie tak złożonej infrastruktury musi być na bieżąco monitorowane, by utrzymywać wysoką dostępność systemów, podejmować działania zapobiegawcze i wreszcie móc szybko diagnozować i usuwać usterki. Do monitorowania podchodzimy kompleksowo. Wdrożyliśmy wiele procedur bezpieczeństwa, mamy opracowane plany ciągłości działania na wypadek awarii. Wysoki poziom usług outsourcingu IT, wspartych skutecznym monitoringiem potwierdzają m.in. certyfikaty ISO 9001:2008, ISO 20000 i ISO/IEC 27001 oraz status SAP Hosting Partner.

Na nasz w pełni zautomatyzowany system monitorujący składa się kilka zintegrowanych ze sobą niezależnych aplikacji. Wszystkie usługi outsourcingowe świadczone przez BCC objęte są całodobowym monitoringiem. Konsultanci są dostępni w trybie 24/7 w przypadku awarii krytycznych i niedostępności systemów. Zaawansowane zarządzanie obszarami odpowiedzialności poszczególnych zespołów i grup pozwala precyzyjnie kierować powiadomienia do konsultantów bezpośrednio odpowiedzialnych za wsparcie danego klienta. W ramach usługi okresowo powstają automatycznie generowane raporty dostępności dla każdej z usług i systemów. Raporty te dają jednoznaczną informację o osiąganiu żądanych parametrów SLA.

Dariusz Drożdż, Lider Zespołu Utrzymania Systemów, All for One Poland

Serwery, macierze, biblioteki taśmowe, switche, routery, a wreszcie zasilacze awaryjne i klimatyzatory – to tylko wybrane spośród setek czy tysięcy różnych urządzeń składających się na w pełni funkcjonalne data center. Oznacza to konieczność współpracy sprzętu i oprogramowania pochodzącego od wielu różnych producentów, z których każdy dostarcza najczęściej własne, dedykowane narzędzia zarządzające i monitorujące. Wymagają one zróżnicowanych platform sprzętowych i programowych, a do prawidłowej obsługi – odpowiednio przeszkolonego personelu.

Ergonomia pracy i skuteczność wykrywania nieprawidłowości w takim modelu monitoringu często jednak pozostawiają wiele do życzenia, ponieważ ani szybkość, ani zdolności percepcji człowieka nie są wystarczające, aby w czasie rzeczywistym nadzorować wszystkie elementy infrastruktury.

A zatem system monitorujący musi być przede wszystkim zautomatyzowany i scentralizowany, a jednocześnie powinien mieć otwartą architekturę, pozwalającą na monitorowanie stanu praktycznie dowolnych urządzeń i aplikacji – przy zastosowaniu standardowych protokołów zarządzania i komunikacji, bez względu na ich producenta. Takie rozwiązanie gwarantuje, że wszystkie – zarówno obecne, jak i instalowane w przyszłości – elementy infrastruktury IT będą monitorowane przy wykorzystaniu jednego, kompleksowego systemu.

Jaka koncepcja monitoringu

Istotnym elementem wdrożenia i późniejszej eksploatacji systemu monitorującego jest opracowanie samej koncepcji monitoringu na poziomie organizacyjnym. Konieczne jest określenie zakresu obiektów, które powinny być nadzorowane centralnie. Należy pamiętać o odpowiednim poziomie szczegółowości monitoringu, a jednocześnie zadbać o jak najszersze spektrum monitorowanych parametrów środowiska IT.

Optymalnie zaplanowany system musi dawać pewność, że gromadzone informacje przedstawiają zawsze pełen obraz stanu systemów na zadanym poziomie istotności, bez mało istotnych detali, ale ze wszystkimi parametrami, których zachowanie warunkuje dostępność i stabilność krytycznej infrastruktury. Główną zaletą takiego rozwiązania jest możliwość szybkiej weryfikacji dostępności systemów.

Kompleksowy monitoring infrastruktury najlepiej rozpocząć od parametrów środowiskowych pracy systemów, takich jak dostępność i ciągłość zasilania (w tym wartości napięcia i stan baterii UPS-ów) oraz temperatura i wilgotność (skuteczność działania klimatyzacji precyzyjnej).

Kolejnym istotnym obiektem monitorowania jest całość infrastruktury sieciowej, zapewniającej łączność pomiędzy systemami a ich użytkownikami. Wśród podstawowych parametrów wartych ciągłego nadzorowania znajdują się m.in. osiągalność wszystkich segmentów sieci, utylizacja łączy, czasy odpowiedzi, stany protokołów routingu czy statusy firewalli i innych urządzeń zabezpieczeń.

Nie mniej istotne są parametry pracy szeroko rozumianych urządzeń przechowujących dane, czyli dysków, macierzy, bibliotek taśmowych. Ich stały monitoring pozwala z odpowiednim wyprzedzeniem reagować na rosnące zapotrzebowanie na przestrzeń pamięci masowych.

I wreszcie nadzór nad wszystkimi serwerami pozwala zgromadzić w jednym miejscu informacje o parametrach pracy krytycznych systemów, z których najbardziej podstawowe to np. zajętość pamięci, obciążenie procesorów, status działania silnika bazy danych czy dostępność określonych aplikacji.

Każdorazowe wystąpienie problemu zawsze powinno zostać szczegółowo przeanalizowane w celu identyfikacji i usunięcia jego przyczyny, aby uniknąć podobnych zdarzeń w przyszłości. Niezbędnym elementem takiej analizy jest odtworzenie sytuacji bezpośrednio poprzedzającej awarię, a ta może być wynikiem splotu wielu niekorzystnych czynników.

Celowe jest zatem gromadzenie archiwalnych stanów wszystkich monitorowanych parametrów w celu zbadania ewentualnej korelacji zdarzeń. W zależności od funkcjonalności samego systemu, dane te mogą być zapisywane bezpośrednio przez aplikację monitorującą lub przez zintegrowaną z nią aplikację współpracującą, dodatkowo generującą raporty graficzne.

Powiadomić administratorów

Ostatnim, ale w praktyce najważniejszym elementem systemu monitorującego jest mechanizm powiadamiania administratorów o zdarzeniach. Krytyczne jest uprzednie zdefiniowanie odpowiednich kryteriów, według których system podejmuje decyzje o poziomie istotności każdego zdarzenia.

W rzeczywistym środowisku produkcyjnym większość monitorowanych obiektów daje się opisać wartościami liczbowymi (np. utylizacja procesora, wysycenie łącza, zajętość przestrzeni dyskowej) lub też logicznymi (system dostępny lub niedostępny). Od strony technicznej ułatwia to określenie wartości progowych dla alarmów. Jednak mimo łatwości konfiguracji tych parametrów, należy mieć świadomość ich ważności w kontekście skuteczności administracji systemami.

Ważną funkcjonalnością dobrego systemu monitorującego jest możliwość definiowania różnych progów dla tego samego parametru (np. poziom 1 – 50% utylizacji CPU; poziom 2 – 70%) i co za tym idzie – różnych akcji dla każdego zdarzenia. Pozwala to administratorowi na rozpoznanie problemu, zanim dojdzie do odczuwalnych komplikacji, a jednocześnie wprowadza mechanizm eskalacji w momencie przekroczenia kolejnego progu ostrzegawczego.

Skuteczne informowanie administratorów odpowiedzialnych za bieżące utrzymanie i funkcjonowanie środowiska IT stanowi zasadniczy cel działania systemu monitoringu. W zależności od specyfiki funkcjonowania zespołu IT, podstawowym kanałem dystrybucji powiadomień może być interfejs graficzny systemu generujący alarmy dźwiękowe i wizualne (w postaci osobnego oprogramowania klienckiego lub też interfejsu webowego obsługiwanego poprzez przeglądarkę internetową), powiadomienia e-mailowe bądź też wiadomości SMS.

Ta ostatnia opcja zapewnia skuteczne powiadomienie nawet wtedy, gdy odbiorca nie ma dostępu do komputera albo awaria infrastruktury spowodowała odcięcie od sieci systemu monitorującego lub serwera poczty elektronicznej, uniemożliwiając zaalarmowanie administratora innymi kanałami.

Odpowiednio rozbudowana funkcjonalność systemu monitorującego i jego umiejętna konfiguracja pozwalają także na hierarchizowanie poszczególnych obiektów oraz definiowanie procedur, które powinny być zrealizowane w przypadku wystąpienia określonego zdarzenia.

W krytycznym momencie, kiedy administrator jest powiadamiany o problemie, równocześnie otrzymuje zestaw wskazówek pozwalających na szybkie i dokładne zdiagnozowanie przyczyny i niezwłoczne podjęcie działań zmierzających do przywrócenia dostępności. Jeśli awaria jest bardziej skomplikowana, instrukcje te jednoznacznie wskażą ścieżkę eskalacji.

Silne wsparcie monitoringu

Właściwie dobrany i wdrożony system monitoringu stanowi silne wsparcie w codziennej pracy personelu IT, szczególnie gdy jest on odpowiedzialny za dostępność wielu krytycznych dla biznesu systemów produkcyjnych.

Wystąpienie awarii jest tylko kwestią czasu, a upływający czas w przypadku pojawienia się problemu działa zarówno przeciw administratorowi, jak i przeciw przedsiębiorstwu jako całości. System monitorujący oszczędza czas. Jest naturalnym uzupełnieniem wszystkich wdrożonych już rozwiązań technicznych i organizacyjnych służących zapewnieniu maksymalnej dostępności systemów i usług IT.