Efektywny monitoring infrastruktury IT

Dobrze dostrojony i wydajny system monitoringu jest jedną z kluczowych rzeczy w obecnym ekosystemie nowoczesnej i sprawnej infrastruktury IT. Dzięki niemu praktycznie natychmiastowo można zdiagnozować problem, jaki występuje z daną usługą, bądź maszyną i zadziałać, skupiając się bezpośrednio na przyczynie jego wystąpienia. Oszczędza to wiele czasu, który niepotrzebnie byłby marnowany na analizę oraz poszukiwanie usterki. Jednocześnie zapewnia znacznie większą dostępność, ponieważ administratorzy nie czekają na informacje o niedostępności od użytkowników, tylko przystępują do działania praktycznie natychmiastowo, dzięki czemu w wielu sytuacjach niepoprawne działanie jest prawie niezauważalne z perspektywy końcowego użytkownika.

Godziny nocne

Dostępność administratorów i ich gotowość do działania nie jest w firmach aż tak bardzo potrzebna w godzinach nocnych, kiedy znacznie mniej użytkowników korzysta z danego rozwiązania. Pełna dostępność jest oczywiście możliwa, aczkolwiek generowałoby to znacznie większe koszty utrzymania usługi. Dlatego, z reguły w nocy czas na rozwiązanie problemu, pomimo dobrego systemu monitorującego, znacznie się wydłuża. Stosowane są oczywiście rozwiązania takie jak dyżury telefoniczne dla administratorów, lecz zawsze wiąże się to z co najmniej kilkunastominutowym opóźnieniem, spowodowanym chociażby obudzeniem administratora, uruchomieniem komputera i zalogowaniem się do systemu. Jednak w czasach, kiedy każdy z nas przyzwyczaił się do praktycznie 100% dostępności usług, oczekiwanie na podniesienie serwisu przekraczające kilka minut może okazać się zbyt długie.

Co jeśli wymagania są wyższe?

W czasach ogromnej popularności aplikacji webowych i korzystania z nich w różnych strefach czasowych, firmy z branży webowej stawiają bardzo wysokie wymagania odnośnie dostępu do swoich usług, przez co standardowe usługi monitoringu mogą okazać się niewystarczające.

W takim przypadku dostępność administratora przez 24 godziny na dobę, 7 dni w tygodniu to za mało.

Wychodząc naprzeciw takim właśnie oczekiwaniom, opracowaliśmy rozwiązanie będące swoistym automatem monitorująco-naprawczym, które jest dostosowywane do określonych systemów klienta.

Więcej niż standard

Narzędzie SNP (aktualnie All for One Poland), poza standardowym sprawdzaniem dostępności i poprawności działania aplikacji, wprowadziło pluginy monitorujące, które mogą uruchomić usługę, jeśli zostanie stwierdzona jej niedostępność bądź wykonać restart, który będzie wyzwolony przez jej niepoprawne działanie. Mechanizm pozwala w sposób elastyczny rozbudowywać go o kolejne funkcjonalności, jak i dodawać kolejne usługi do monitoringu i automatycznie nimi zarządzać, w zależności od zadanych warunków czy zdarzeń. Rozwiązanie można dostosować do dowolnej aplikacji integrującej się z systemem monitoringu Nagios, a ten z drugiej strony ma szerokie możliwości monitorujące i adaptacyjne do nowych aplikacji. Jednym słowem nic nie stoi na przeszkodzie, aby podłączyć dowolną aplikację zarówno do systemu Nagios, jak i do rozwiązania automatyzującego.

Plusami takiego rozwiązania są:

Ograniczenie czasu niedostępności usług
Redukcja kosztów związanych z awarią aplikacji
Zmniejszenie opłat stałych związanych z dostępnością administratora
Zwiększenie zaufania użytkowników aplikacji przez jej praktycznie 100% dostępność

Dodatkowo dzięki obsłudze przez administratorów SNP klienci mogą mieć pewność, iż w wypadku naprawdę poważnej awarii, z którą automatyczne podniesienie usługi sobie nie poradzi, dodatkowe wsparcie zapewnia zespół profesjonalistów, który zrobi wszystko, aby ograniczyć czas niedostępności do absolutnego minimum.

Również w All for One Data Centers

Systemy klienta mogą zostać uruchomione również w infrastrukturze All for One Data Centers, opartej na takich rozwiązaniach, jak:

redundancja linią zasilania miejskiego,
zapasowe agregaty prądotwórcze,
redundancja zasilania bateryjnego (UPS),
redundancja łącz internetowych,
redundancja routerów brzegowych,
klastry firewalli,
redundancja połączeń między urządzeniami sieciowymi,
redundancja sieci SAN,
klastry serwerów Vmware,
macierze dyskowe klasy enterprise.

Całość chroniona jest również przez:

system kontroli dostępu wyposażony w czujniki biometryczne, ruchu, wibracyjne, zalania,
system przeciwpożarowy,
system gaszenia gazem,
system monitoringu wizyjnego (CCTV).

Systemy zabezpieczeń a przetwarzanie danych

Wysokie zabezpieczenia oferowane przez All for One Data Centers i mechanizmy automatycznego wykrywania i naprawiania awarii, to jedna strona medalu. Druga – to rozwiązania zwiększające dostępność usług z punktu widzenia przechowywania danych.

Klientom oczekującym takich rozwiązań proponujemy replikacje bazujące na oprogramowaniu DELL EMC Recoverpoint for Virtual Machine. Rozwiązanie to umożliwia replikowanie wirtualnej maszyny na inną macierz dyskową, wraz z rejestrowaniem każdej operacji zapisu na dysku (tzw. journal). Dzięki temu oprócz kopi maszyny możliwe jest uruchomienie jej z dowolnego momentu w zadanym przedziale czasu. Tym samym proces odtworzenia maszyny wirtualnej z godziny lub kilku skraca się nawet do pojedynczych minut.

Aplikując wszystkie wyżej opisane formy zabezpieczenia jesteśmy w stanie skutecznie zapobiegać oraz reagować na wszelkie awarie, jak również przywrócić poprawne działanie całego systemu w przeciągu kilku minut zapewniając bezpieczeństwo oraz praktycznie bezprzerwowe działanie każdego rozwiązania hostowanego w All for One Data Centers.