Dane – kluczowy czynnik sukcesu firmy

Dane są wartością oraz podstawą funkcjonowania praktycznie każdej firmy. Weźmy prosty przykład. Wyobraź sobie, że prowadzisz sklep internetowy. Twoi klienci dokonując zakupu, wypełniają formularz zamówienia. Te dane są następnie wykorzystywane do skompletowania zamówienia, wystawienia faktury i wysłania produktów pod wskazany adres. Dane muszą być poprawne, inaczej przesyłka nie dotrze do adresata.

Dane są również wykorzystywane do zaawansowanych analiz biznesowych. Gromadzone m.in. w systemach CRM, marketing automation, billingowych, hurtowniach danych czy różnych plikach są następnie odpowiednio łączone i przetwarzane, aby odpowiedzieć na szereg pytań dotyczących bieżącej kondycji firmy, perspektywy i najlepszych kierunków jej rozwoju czy strategii sprzedażowych i marketingowych. Nasza firma, w prowadzonych projektach, wykorzystuje je do odpowiedzi na takie pytania jak:

 

Trzeba jednak pamiętać, że na skuteczność decyzji, podjętych w oparciu o dane, olbrzymi wpływ ma ich jakość. Błędne dane będą generować błędne decyzje. Przykładowo, jeżeli dane o klientach nie są poprawne, kompletne czy aktualne, może się okazać, że Twój przekaz marketingowy nie dotrze do właściwych osób, a to oczywiście przekłada się na gorsze wyniki prowadzonych kampanii.

Słaba jakość danych, ale co to znaczy?

Co wpływa na to, że w danych pojawiają się błędy? Oto kilka powodów:

  • Duplikacja – powielanie tej samej informacji w bazie danych, np. ta sama osoba może występować w systemie wielokrotnie.
  • Dezaktualizacja – każdego roku wiele osób zmienia swój stan cywilny, nazwisko, miejsce zamieszkania czy pracy, stanowisko itd. Po pewnym czasie, część informacji w bazach danych klientów/kontrahentów staje się po prostu nieaktualna.
  • Braki w danych – z tą sytuacją mamy do czynienia, gdy baza danych jest niekompletna. Przykładowo, wpisana jest ulica i miasto, ale brakuje kodu pocztowego.
  • Różne formaty danych – jeżeli w Twojej firmie nie ma zasad, jakimi należy się kierować, wprowadzając dane do systemu, może się okazać, że ta sama informacja będzie zapisana na kilka różnych sposobów. Przykładowo: „Warszawa”, „Wa-wa”, „W-wa”, „warszawa”.
  • Zafałszowanie informacji – jest to intencjonalne podawanie błędnych danych, np. nieistniejących ulic czy numerów telefonów.
  • Tzw. „literówki” – przy ręcznym wprowadzaniu danych, nie da się uniknąć błędów w ich zapisie.

Jak dane niskiej jakości wpływają na biznes?

Błędne, nieaktualne lub niepełne dane o klientach mają negatywne konsekwencje dla prowadzonej działalności.

Zirytowanie klienta lub nawet jego utrata

Przykłady:

  • błędy w adresach to niedoręczone lub opóźnione przesyłki z zamówionymi towarami w sklepie internetowym,
  • brak mechanizmów deduplikacji (usuwania duplikatów w systemach) może spowodować, że klient będzie wielokrotnie windykowany, mimo że spłacił już wszystkie zaległości lub otrzyma tą samą ofertę produktu od  różnych handlowców itd.

Dodatkowe koszty

Przykłady:

  • zduplikowane informacje to potencjalnie wyższy koszt ich utrzymania (m.in. koszt serwerów, systemów CRM),
  • zwroty paczek z tytułu błędów w adresach klientów generują dodatkowe koszty ich obsługi (np. wynagrodzenie firmy transportowej, koszt pracy).

Utracone możliwości sprzedażowe

Przykład: błędy w adresach klientów powodują, że przesyłki z katalogami produktów czy najnowsza oferta promocyjna nie dotrze do wszystkich osób, które zostały objęte kampanią.

Nieefektywność pracy

Przykład: brak numeru telefonu czy jego zły format to brak możliwości szybkiego kontaktu z potencjalnymi klientami.

Jak poprawić jakość danych?

Czyszczenie danych 

Najlepiej zapobiegać niepożądanym sytuacjom. Jeżeli jednak problem błędnych danych już się pojawił, to jednym ze sposobów poprawy ich jakości jest tzw. czyszczenie danych.

Przykładowy proces może się składać z kilku etapów – parsowania, standaryzacji, deduplikacji – i powinien być poprzedzony dogłębną analizą problemu, tzw. profilowaniem danych.

  • Parsowanie – umożliwia rozbicie jednego złożonego pola na wiele pól w oparciu o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.).
    Na tym etapie realizowane są dodatkowe zadania, takie jak:

    • określanie płci na podstawie popularnych imion,
    • dopisanie dodatkowych informacji, na przykład kodu i nazwy gminy (po zidentyfikowaniu miejscowości),
    • wyodrębnianie formy prawnej w przypadku firm,
    • na podstawie zawartości pola „nazwa” rozpoznawane jest, czy dany rekord zawiera osobę, grupę osób, instytucję, firmę lub działalność gospodarczą itd.
  • Standaryzacja – umożliwia zamianę wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Przykładowo wartości „Kraków”, „Krakow”, „krakow”, „Krakw” zostaną zastąpione jedną i tą samą wartością – „Kraków”, a „Tomasz”, „tomek”, „Tomk” zostaną ujednolicone i zastąpione jednym imieniem „Tomasz”. Na tym etapie należy skorzystać ze słowników referencyjnych miejscowości, ulic, czy imion.
  • Deduplikacja – pozwala na wykrycie powtórzonych rekordów i ich konsolidację.
    W ramach tego etapu możliwe jest m.in.:

    • wyszukiwanie wielokrotnych wpisów tego samego klienta w bazie, nawet gdy dane są zapisane na różne sposoby,
    • łączenie baz z wielu źródeł i ich ujednolicenie polegające na stworzeniu rekordu klienta obejmującego wszystkie informacje z różnych źródeł.

Deduplikacja nie zawsze jest zadaniem łatwym. Czasami niezbędne jest zastosowanie zaawansowanych algorytmów, które określą prawdopodobieństwo tego, że dwa rekordy są duplikatami.

Zapobieganie

Zapobieganie błędom w danych jest zdecydowanie skuteczniejsze i tańsze niż ich czyszczenie:

  • 1 zł – to koszt, jaki ponosimy, jeżeli chcemy zapobiec wystąpieniu błędu w danych,
  • 10 zł – to jest koszt, jaki musimy ponieść, żeby naprawić błędy w danych,
  • 100 zł – to jest koszt braku jakichkolwiek działań i błędnych decyzji podjętych w oparciu o nieprawidłowe dane.

Oto kilka zasad, którymi warto się kierować, aby zapobiegać powstawaniu błędów w danych:

  1. Czynnik ludzki jest jednym z głównych powodów obniżenia jakości danych. Dlatego tak ważne jest odpowiednie przeszkolenie pracowników, a następnie motywacja  oraz wyznaczenie osób odpowiedzialnych za utrzymanie wysokiej jakości bazy danych.
  2. Nawet najlepsze chęci wszystkich pracowników na nic się zdadzą, jeżeli w firmie nie ma standardów, w jakich dane są wprowadzane do systemu. Jedna osoba nadal będzie wpisywała ulicę jako skrót („ul”) a druga pełną nazwę („ulica”). Warto te standardy ustalić jak najszybciej.
  3. Warto prowadzić i aktualizować na bieżąco słowniki danych.
  4. Stosuj auto-uzupełnianie formularzy. W tym przypadku, zamiast wpisywać adres w całości, klient czy pracownik wprowadza jedynie początek nazwy, po czym może wybrać właściwą pełną nazwę z listy. W innym przypadku część pól uzupełniana jest automatycznie, np. miejscowość na podstawie kodu pocztowego. Minimalizuje to ryzyko błędów w danych adresowych.
  5. Waliduj dane, zanim trafią one do systemu. Cały proces czyszczenia danych można zautomatyzować i uruchamiać w trakcie, gdy dane są wprowadzane do systemu. W takiej sytuacji każdy nowy rekord, który ma być zapisany w systemie CRM, najpierw zostanie oczyszczony. Wszystko dzieje się w czasie rzeczywistym, niezauważalnym dla klienta czy pracownika Twojej firmy.
  6. Regularnie czyść dane – dane starzeją się szybko, dlatego też bez względu na to, jak dobre dane są na wejściu do systemu (np. dzięki wprowadzonym standardom, początkowej walidacji danych), niezbędna jest ich okresowa ocena i czyszczenie.

Gotowe rozwiązania od Algolytics

W Algolytics wiemy, jak ważna jest jakość danych. Zrealizowaliśmy kilkadziesiąt projektów z obszaru oceny i poprawy jakości danych. Przeanalizowaliśmy w sumie dziesiątki milionów rekordów. Nasze autorskie narzędzia i bazy adresów pozwoliły naszym klientom osiągnąć skuteczność w czyszczeniu danych na poziomie ponad 90%.

dataquality.pl

W przypadku mniej skomplikowanych baz danych doskonałym narzędziem do czyszczenia danych jest aplikacja dataquality.pl. Aplikacja działa w chmurze, bez potrzeby instalowania – wystarczy założyć konto i się zalogować. Dataquality.pl umożliwia m.in.:

  • ujednolicenie (standaryzację) danych adresowych (np. zastosowanie jednolitego zapisu miast, usunięcie literówek w nazwach ulic),
  • uzupełnienie brakujących informacji (np. dopisanie kodów pocztowych do miejscowości),
  • sprawdzenie poprawność danych (np. zgodność z bazami adresów Poczty Polskiej, GUS, formatami numerów telefonicznych, numerami NIP i PESEL itd.).

Aplikacja dataquality.pl czyści dane w kilku prostych krokach:

  1. Wysyłanie pliku (CSV) na bezpieczny serwer;
  2. Wybór rodzaju operacji na danych, który chcemy wykonać;
  3. Pobranie gotowego pliku z wyczyszczonymi danymi.

AdvancedMiner Data Quality

Nie zawsze i nie w każdej firmie istnieje możliwość przetwarzania danych w chmurze lub występuje potrzeba bardziej zaawansowanych operacji na danych. W takim przypadku rozwiązaniem jest system AdvancedMiner Data Quality, który jest instalowany bezpośrednio w środowisku IT klienta. Aplikacja jest używana do wykrywania, monitorowania i rozwiązywania problemów w danych. W oparciu o AdvancedMiner DQ możliwe jest automatyczne czyszczenie nowych danych w czasie rzeczywistym.

Aplikacja AdvancedMiner DQ jest autorskim rozwiązaniem Algolytics. Dzięki temu możliwe jest dostosowanie rozwiązania do indywidualnych potrzeb Klienta.

Krzysztof Siwiec, Menedżer Rozwoju Biznesu w obszarze Finanse, Analizy, Planowanie, All for One Poland

Automatyzacja procesu łączenia danych
Dane przetwarzane w systemach SAP są zazwyczaj dość spójne. System ERP dba o to, by dane wprowadzane były zgodnie ze słownikami i jednolite w różnych obszarach przedsiębiorstwa. W przypadku łączenia różnych systemów SAP zazwyczaj synchronizuje się dane podstawowe, wyznaczając jeden z systemów jako wiodący (tzn. taki, w którym tworzy się nowe rekordy – np. nowych partnerów biznesowych). Czasem wyróżnia się specjalny dodatkowy system SAP do zarządzania danymi podstawowymi (SAP Master Data Management).
Pomimo to, tam gdzie użytkownikowi zostawia się dowolność, nie da się uniknąć niejednoznaczności. Różne sposoby zapisywania adresów czy nazw firm sprawiają czasem wiele kłopotu.
Wyobraźmy sobie sytuację, w której chcemy połączyć dane z SAP z danymi pochodzącymi z zewnętrznego systemu CRM, w którym dane podstawowe kontrahentów utrzymywane są oddzielnie. Nawet dla tych kontrahentów, dla których wpisany jest numer NIP, nie zawsze musi być on taki sam w obu systemach (np. na skutek literówki przedstawiciela handlowego). Systemy takie jak Algolytics DQ mogą w takiej sytuacji zautomatyzować proces łączenia danych z obu systemów w jedną spójną całość, którą będzie można raportować z użyciem rozbicia wg kontrahenta.
Przedstawmy inną sytuację, w której dane przechowujemy tylko w systemie SAP, ale na podstawie adresu chcielibyśmy ustalić współrzędne geograficzne, by móc kontrahentów lub urządzenia w rozproszonych lokalizacjach geolokalizować. Ustandaryzowanie adresu, za pomocą narzędzi Algolytics DQ, pozwala na automatyczne przypisanie współrzędnych geograficznych. Współrzędne geograficzne z kolei możemy wykorzystać w różnych celach, takich jak wizualizacja danych sprzedażowych lub nadzorowanie wykonania zadań przez pracowników, którzy posługują się sprzętem z umożliwiającym nadzorowanie ich lokalizacji. Podane powyżej dwa przypadki to tylko wierzchołek góry lodowej zastosowań, w których oprogramowanie Algolytics DQ może wesprzeć systemy SAP.
Krzysztof Siwiec, Menedżer Rozwoju Biznesu w obszarze Finanse, Analizy, Planowanie, All for One Poland

Algolytics od 2001 roku tworzy i dostarcza rozwiązania z zakresu zaawansowanej analityki biznesowej na polskim rynku. Firma rozwija autorskie oprogramowanie do analiz predykcyjnych, zarządzania relacjami z klientem, zarządzania ryzykiem oraz Data Mining; świadczy także zaawansowane usługi analityczne. Rozwiązania Algolytics są pochodną wieloletnich doświadczeń zdobytych w projektach obejmujących analizę predykcyjną oraz modelowanie dużych i rzeczywistych zbiorów danych o klientach. Wśród klientów Algolytics znajdują się czołowe polskie banki i firmy telekomunikacyjne.