Branża IT nieustannie redefiniuje pojęcie „wydajne” poprzez tworzenie nowych rozwiązań programowych i sprzętowych, których celem jest: przyspieszenie działanie aplikacji. Zadanie dodatkowo utrudnia równoległy trend, jakim jest przyrost liczby danych. Jest to szczególnie ważne w odniesieniu do systemów analitycznych, gdzie zwykle przetwarzanie dotyczy zbiorów danych rzędu milionów rekordów. Dlatego hurtownie danych były jednymi z pierwszych, w których pojawiły się rozwiązania „in-memory computing”, czyli takie, w których odczyty danych z „wolnych” dysków twardych są eliminowane poprzez szersze wykorzystanie pamięci operacyjnej.

Podstawowe oczekiwania związane z technologiami „in memory” są dwojakie. Po pierwsze szybki dostęp do aktualnych informacji i analiz koniecznych do adekwatnego reagowania na zmieniające się warunki rynkowe. Po drugie obniżenie kosztów zakupu i obsługi infrastruktury informatycznejpotrzebnej do przechowywania ogromnych zbiorów danych.

Jednak z punktu widzenia użytkownika końcowego liczy się przede wszystkim efekt, czyli szybkość działania. Te oczekiwania oczywiście cały czas rosną. Kiedyś wystarczało analitykom, aby generowanie raportu w hurtowni danych trwało kilkanaście sekund, dziś chcą, aby ten czas skrócił się do mniej niż kilku sekund. Coraz większe wymagania wynikają ze zmiany sposobu pracy z narzędziem.

Obecnie praca z systemami business intelligence to w coraz większym stopniu analizy ad-hoc: „przechodzenie” przez definiowaną „w locie” ścieżkę drążenia/analizy danych w celu odszukania odpowiedzi na nietypowe pytanie. Analityk musi mieć możliwość swobodnego dobierania kryterium drążenia danych, bez ograniczeń narzuconych przez program czy dewelopera hurtowni danych. A to oznacza wyzwania wydajnościowe, brak możliwości korzystania z wcześniej przygotowanych podsumowań, a do tego konieczność pełnego dostępu do zbioru danych przez cały czas pracy analityka. I tutaj właśnie zastosowanie SAP HANA może przynieść przedsiębiorstwu największą wartość dodaną.

Absolutna nowość

SAP High-Performance Analytic Appliance 1.0 (SAP HANA) to nowy produkt, dostępny dla klientów firmy SAP AG od 20 czerwca 2011 r. Wykorzystuje on w pełni innowacyjną technologię SAP In-Memory Computing. Istotną cechą rozwiązania jest jego otwartość, pozwalająca na przetwarzanie danych w pamięci niezależnie od ich źródła. Typowym źródłem danych dla SAP HANA 1.0 jest system SAP ERP oraz pozostałe systemy wchodzące w skład SAP Business Suite (m.in. SAP CRM, SAP BI). Co ważne, dzięki zaimplementowanym mechanizmom integracji danych źródłami mogą być również aplikacje nie-SAP.

Premiera rozwiązania zbiegła się w czasie z udostępnieniem nowej wersji platformy SAP BI 4.0. Połączenie tych dwóch produktów – platformy raportowej z rozwiązaniem SAP HANA – stanowi pełne rozwiązanie Business Intelligence, gotowe do pracy analitycznej na ogromnych zbiorach danych w czasie bliskim rzeczywistemu.

Przetwarzanie w pamięci SAP

SAP In-Memory Computing to innowacyjna technologia oparta na systemie transakcyjnym SAP. Najogólniej mówiąc, polega na przeniesieniu zarządzania wielkimi zbiorami danych z SAP ERP i analityki biznesowej do pamięci operacyjnej. Dzięki zwiększeniu wydajności znacznie przyspiesza dostęp do danych i dostarcza wyniki skomplikowanych obliczeń w czasie rzeczywistym. Rozwój technologii in-memory jest możliwy dzięki równoległemu rozwojowi warstwy sprzętowej – dostępne na rynku serwery są coraz wydajniejsze, a przy tym pamięć operacyjna znacznie potaniała.

Integralnym elementem technologii SAP In-Memory Computing są nowe aplikacje biznesowe, dzięki którym informacje niezbędne do planowania, prognozowania i optymalizacji procesów biznesowych, które wymagają obróbki dużej liczby danych, pojawiają się na ekranie monitora po czasie liczonym w sekundach.

Oprócz warstwy aplikacyjnej w skład rozwiązania HANA wchodzi także SAP In-Memory Appliance. Są to zoptymalizowane pod kątem pojemności i wydajności serwery, dostarczany przez wiodących partnerów sprzętowych SAP. Dedykowane rozwiązania sprzętowe wykorzystują wielordzeniową architekturę procesorów (np. 64 rdzenie procesora per maszyna), 64-bitową przestrzeń adresową, pozwalającą obecnie na zastosowanie pamięci RAM o pojemności 1 TB, oraz bardzo szybki system dyskowy, wykorzystujący technologie dysków SAS/SSD czy też pamięci Fusion-io ioDrive. Wspomniany system dyskowy jest wymagany do operacji backup i recovery z wykorzystaniem kopii migawkowych (snapshot) dla bazy danych rezydującej w całości w pamięci RAM.

SAP In-Memory Database to baza danych nowej generacji, ostatni element technologii SAP In-Memory Computing. Zawiera innowacyjne rozwiązania optymalizacyjne w zakresie przechowywania i zarządzania informacją. Należą do nich: zapis kolumnowy danych jako podstawowy sposób przechowywania informacji, plus typowy zapis wierszowy, kompresja danych, partycjonowanie tabel, czy też wykorzystanie delty do operacji wstawiania nowych danych do tabel.

Fundamentalną cechą, która odróżnia SAP In-Memory Database od klasycznej, relacyjnej bazy danych, jest to, że rezyduje ona w całości w pamięci RAM, a system dyskowy wykorzystuje do backupu. Ta cecha zwiększa setki razy szybkość operacji na danych dzięki wyeliminowaniu wolnych, dyskowych operacji wejścia/wyjścia przy zapytaniach do bazy danych.

Od detalu po świat nauki
SAP HANA to nie tylko przyspieszenie przetwarzania danych, ale przede wszystkim rozwiązanie to stanowi ogromny krok naprzód w elastyczności oraz obniżaniu kosztów analityki.
W tradycyjnych systemach hurtowni danych dane są przechowywane w statycznych strukturach, które muszą być odpowiednio zaprojektowane i dostosowane do wcześniej znanych wymagań raportowych. Możliwości HANA w zarządzaniu dużymi wolumenami danych „w pamięci” pozwalają przedsiębiorstwom na wykonywanie większej liczby analiz ad hoc, redukując konieczność budowania predefiniowanych kostek oraz zapytań. To wprowadza nową jakość w elastyczności procesu analizy danych jako całości.
Już teraz widać, że w pierwszej kolejności z HANA znajdzie zastosowanie w handlu detalicznym czy przedsiębiorstwach produkcyjno-handlowych. Oczywiście mówimy tu o dużych sieciach handlowych, które przetwarzają ogromne ilości danych do prognozowania sprzedaży, analiz koszykowych czy segmentacji klientów. Im bardziej w raportowaniu liczy się czas uzyskania informacji i oczekuje się możliwości niestandardowego podejścia do analityki, tym większa korzyść z technologii przetwarzania w pamięci. Z tych samych powodów HANA będzie interesująca dla instytucji świadczących usługi finansowe.
Dodatkowym atutem rozwiązania HANA 1.0 jest to, że przedsiębiorstwa mają możliwość dokonania przełomu w technologii IT bez burzenia istniejącej architektury systemów.
Myślę, że nowe możliwości, jakie odkrywa przed nami nowa technologia, szybko przerodzą się w innowacyjne zastosowania także w pozostałych gałęziach przemysłu oraz niekomercyjnych obszarach, jak np. opieka medyczna czy wiele dziedzin naukowych. Czyli wszędzie tam, gdzie jest silna potrzeba analizy dużych ilości ustrukturyzowanych i nieustrukturyzowanych danych.
Aneta Suchanecka, Lider Zespołu Zarządzania Efektywnością Organizacji, All for One Poland

Dane potrzebne „na już”

Potrzeby informacyjne w każdym przedsiębiorstwie są różne, ale są też takie, które można nazwać uniwersalnymi. Tak jest na przykład z wykorzystaniem BI jako narzędzia wspierającego proces zamknięcia okresu księgowego. Jest to krytyczny proces (w sensie nie tylko podatkowym, ale również zarządczym), najważniejsze zadanie w miesiącu dla wielu osób z działów kontrolingu i księgowości, w którym czas odgrywa rolę krytyczną.

Dla rozwiązań BI opartych na hurtowni danych (jak np. SAP BW) wsparcie procesu polega na tym, że zbudowane są raporty sumaryczne, które zawierają dane z momentu ostatniego ich załadowania do hurtowni danych (najczęściej to miniona noc lub w trybie awaryjnym ad-hoc przez użytkownika w trakcie godzin roboczych). To oznacza, że w hurtowni operujemy na danych z końca poprzedniego dnia i nie ma możliwości wykonania pełnych i efektywnych analiz w momencie, gdy trzeba np. szybko odnaleźć przyczyny rozbieżności pomiędzy danymi z systemu dla sprzedawców mobilnych a modułem SD systemu SAP.

Inaczej może to wyglądać w przypadku zastosowania SAP HANA. Operacje analityczne odbywają się bezpośrednio na danych transakcyjnych z SAP ERP, z pominięciem warstwy pośredniej w formie tradycyjnej hurtowni danych. Wówczas status danych jest niemal w każdej chwili aktualny, a poprzez zastosowanie międzymodułowego modelu danych można bardzo szybko przejść od pozycji dokumentu SAP do źródłowych dokumentów innego modułu systemu SAP lub referencyjnego dokumentu z systemu zewnętrznego.

Poznać nieznane

Rozwiązania przetwarzania w pamięci operacyjnej mają tę przewagę nad klasycznymi rozwiązaniami opartymi na relacyjnych bazach danych, że dają większą dowolność pracy analityka. W rozwiązaniach BI opartych na hurtowni danych model danych tam zaimplementowany determinuje sposób patrzenia na dane. Czasami to jest przeszkoda, np. wówczas, gdy nie chcemy narzucać kierunku wnioskowania analityka, gdy musi on zweryfikować szereg możliwych scenariuszy, zanim dotrze do odpowiedzi na swoje pytanie.

Przykładem może być sytuacja, gdy analityk zauważa istotny wzrost kosztu kar umownych związanych z przestojami ciężarówek spedytora oczekującymi na załadunek. Najpierw zauważa wzrost kosztów podczas skanowania pozycji rachunku wyników, poprzez linię czasu próbuje powiązać te informacje z danymi z systemu magazynowego, potem produkcyjnego (zgłoszenia naprawy), aby w końcu, w powiązaniu z systemem rejestracji czasu pracy, odkryć wzorzec, który sugeruje, którzy pracownicy powinni zostać przeszkoleni z obsługi maszyn linii pakującej, aby minimalizować takie sytuacje.

Wykonanie takiej pracy analitycznej nie byłoby możliwe bez odpowiedniego narzędzia. W kontekście SAP HANA najodpowiedniejszym jest BusinessObjects Analysis edition for OLAP, które pojawia się jako najważniejszy klient platformy BusinessObjects 4.0 do pracy ad-hoc w środowisku Excel. Dużą wartością tego narzędzia jest pełne wsparcie dla hierarchii BW, czyli to, czego w poprzedniej wersji systemu brakowało i wymagało niestandardowych rozwiązań.

Gdy liczba danych rośnie

SAP HANA jest odpowiedzią na rozrastające się zbiory danych, szczególnie w firmach takich jak duże sieci handlowe, firmy produkcyjne z sektora FMCG, które dziś muszą się godzić ze stratą jakości danych do analiz z uwagi na zbyt długi czas ich ładowania do hurtowni danych i/lub zbyt długi czas oczekiwania na wygenerowanie raportu.

Oczywiście obecnie stosuje się metody takie jak partycjonowanie, indeksowanie, strategia archiwizowania danych („near line storage”) czy agregaty, cache’owanie oraz generowanie raportów poza godzinami przeciążenia systemu. Jednak w każdym z tych podejść trzeba pogodzić się z kosztem, jakim może być zmniejszenie liczby szczegółów, mniejsza dowolność w doborze kryterium drążenia danych czy w ogóle brak możliwości pracy online z narzędziem.

Inaczej jest z HANA 1.0 – pierwsze analizy porównawcze, nawet w odniesieniu do rozwiązań z wersją Accelerated BW, pokazują nawet stukrotne przyspieszenie czasu odpowiedzi systemu – generowanie raportu bez utraty jakości danych (wszystkie możliwe wymiary analizy). Co oznacza, że dla tych przedsiębiorstw, dla których istotne jest, aby nie tracić na jakości analizowanych danych wraz ze wzrostem ich wolumenu (lub wręcz odwrotnie, aby szczegółowość wzrastała), dla których ważna jest efektywność pracy analityków w kontekście rozwoju skali działalności i szybkiego zareagowania na zmianę uwarunkowań biznesu, rozwiązania oparte na SAP HANA będą stanowiły naturalny kierunek rozwoju rozwiązań BI.

Od strony technologii

W In-Memory Computing Engine (IMCE), centralnym elemencie SAP HANA 1.0, możemy wyróżnić kilka warstw technicznych. Sybase Replication Server służy do przepisywania danych z bazy danych źródła, np. systemu SAP ERP do SAP In-Memory Database. Wykorzystywane są przy tym relacyjne silniki zapisujące dane kolumnowo i wierszowo (Relational Engines, Row Store, Column Store). Centralną warstwą IMCE jest Persistence Layer. To w nim odbywa się ultraszybkie przetwarzanie informacji (Page Management) oraz z niego wykonywane są regularne kopie migawkowe (Logger) do ostatniej warstwy SAP HANA 1.0, którą jest Disk Storage.

W dyskowym systemie plików są zaimplementowane dwa wolumeny: Log Volume (1x pamięć RAM) i Data Volume (4x pamięć RAM). Takie rozmiary systemu dyskowego pozwalają na częste snapshoty z SAP In-Memory Database na dyski, w celu zwiększenia bezpieczeństwa rozwiązania.

W odniesieniu do instalacji SAP HANA 1.0 firma SAP AG zaleca poniższe kroki:

  • instalację IMCE oraz Sybase Replication Server w SAP In-Memory Appliance,
  • instalację SAP HostAgenta oraz LoadControllera (po stronie SAP ERP),
  • instalację Client drivers (po stronie IMCE) – wymaganych do podłączenia oprogramowania klientów SAP HANA 1.0. Klientami SAP HANA 1.0 są MS Excel oraz klienci SAP BI 4.0 (Webl, Explorer, Analysis),
  • instalację IMCE Studio na dedykowanym serwerze – w celu wykonania podstawowej konfiguracji SAP HANA 1.0.

Konfiguracja SAP HANA 1.0 polega na stworzeniu modeli, za pomocą których uzyskujemy dostęp do kluczowych danych w procesie podejmowania decyzji dotyczących planowania, prognozowania i optymalizacji procesów biznesowych. Typowa implementacja modelu składa się z następujących elementów konfiguracji:

  • wybranie wymaganych tabel systemu SAP ERP – z danymi transakcyjnymi jak również z danymi podstawowymi czy też tekstami,
  • załadowanie wybranych tabel SAP ERP do SAP HANA 1.0 – na tym etapie wykonujemy ładowanie początkowe jak również implementujemy mechanizmy delty,
  • odtworzenie relacji między tabelami w SAP HANA 1.0,
  • utworzenie autoryzacji w dostępie do danych analitycznych,
  • utworzenie raportów z wykorzystaniem standardowych narzędzi (Excel, Explorer, WebI, Xcelsius, Crystal, Analysis),
  • weryfikacja poprawności działania SAP HANA 1.0 w zakresie danych, modelu oraz przetwarzania.