| W deduplikacji siła
1
single,single-post,postid-1,single-format-standard,ajax_fade,page_not_loaded,,,wpb-js-composer js-comp-ver-4.2.1,vc_responsive
 

W deduplikacji siła

W deduplikacji siła

W deduplikacji siła

autor: ŁUKASZ OLSZAK

Od paru lat na wszystkich spotkaniach dotyczących storage’u, backupu i archiwizacji spotykam się z pojęciem deduplikacji. Co to jest i jak wygląda deduplikacja i jej atuty w przypadku EMC. Otóż możemy wyróżnić kilka typów deduplikacji, a prościej mówiąc to parę mechanizmów jej wykonywania.

  1. Deduplikacja plikowa (file deduplication) – najprościej można ją wytłumaczyć jako możliwość systemu do weryfikacji i składowania tylko jednej wersji powtarzających się plików.
  2. Deduplikacja ze stałym blokiem (fixed deduplication) – zdolność systemu dzielenia plików na bloki o stałej długości, ich weryfikacji i składowania unikalnych bloków.
  3. Deduplikacja ze zmiennym blokiem (Variable-Length Deduplication) – najbardziej efektywna, pozwala na dzielenie plików na bloki o zmiennej długości 4KB-12KB i weryfikację i zapis unikatowych bloków
  4. Deduplikacja na targecie – algorytm wykonujący deduplikację znajduje się na urządzeniuhttps://www.s4e.pl/s4e/new_site/wp-admin/post.php?post=1&action=edit&message=1#, na którym przechowywane będą unikatowe bloki. Minusem tej metody jest ,- duża utylizacja sieci IP, FC, całe pliki przesyłane są do urządzenia
  5. Deduplikacja na źródle – algorytm wykonujący deduplikację pracuje na zabezpieczanej maszynie, wykonując weryfikację unikalnych bloków bezpośrednio na niej ze zmiennym blokiem o długości od 4KB do 12KB. Dzięki implementacji SHA-1 Secure Hash Algorithm w procesorach INTEL od 2010 r. https://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1, możliwe było zastosowanie tej metody deduplikacji na szerszą skalę. EMC wykorzystało tą sytuację doskonale, udoskonalając mechanizmy deduplikacji i protokół DD Boost (OST) dla urządzenia Data Domain i zaimplementowało opcję backupu na źródle w systemie backupowym Networker.

 

Jak zawsze w każdej historii, były naprawdę trudne. Nikt o zdrowych zmysłach w działach IT nie chciał nawet słyszeć o jakieś tam”deduplikacji”. Słowo to brzmiało bardziej jak odcinek filmu science fiction, niż technologia, metoda wykonywania backupu. Systemy backupu skupiały się na jak najbardziej optymalnej konfiguracji napędów taśmowych, które kilka, kilkanaście lat temu stanowiły o skuteczności backupu i gwarantowały, że GB lub TB naszych danych kopiowały się w wyznaczonym oknie backupowym.

Najczęstszym scenariuszem realizowanym przez działy IT był backup : Full w sobotę z retencją 14 lub 30 dni, a pozostałe dni tygodnia to backup przyrostowy. Duża część backupów zapisywana była na macierze dyskowe, z krótkim czasem retencji np. 7 dni, a później replikowana( klonowana) na taśmy z długim czasem retencji np. 30 do 60 dni. Dawało to możliwość dużo szybszego odzyskiwania plików, gdyż zapis na dyskach realizowany był w trybie losowym (Random), a nie sekwencyjnym (ciągłym), jak to było w przypadku taśm. Pamiętajmy jednak, że zapis na napęd taśmowy mógł być realizowany przez sieć FC z prędkością 4Gbps lub 8Gbps. W tym czasie standardem była sieć IP 1GbE i nikt nie próbował jej używać do aplikacji np. MSSQL, Exchange, Oracle, jako dedykowanej sieci backupowej. Dużo szybciej backup wykonywało się na taśmę np. LTO-4 .

Przełom Pamiętam jak dziś, jak prawie 2 lata temu na spotkaniu z klientem dotyczącym wdrożenie systemu do backupu Networker powiedziałem, „Proponuję, by backup wykonywany na urządzenie z deduplikacją realizowany był po sieci IP 1Gbps. Dedykowanym urządzeniem do przechowywania backupów z krótkim czasem retencji będzie Data Domain z protkołem DD Boost (OST), serwer backupu Networker będzie zapisywał unikalne bloki bezpośrednio z zabezpieczanych serwerów na Data Domain – czyli wykorzystamy opcję Client Direct”

Szerzej opis Client Direct znajdziecie https://www.youtube.com/watch?v=EmoYfnyNQ2g Moje słowa wręcz zmroziły klienta i prawie zostałem uznany za wariata. W 2011-2012 roku jeszcze popularne były metody wykonywania backupu na dyski bez deduplikacji i/lub zapis bezpośrednio na taśmę, stąd zdziwienie klienta. Jak się okazało w trakcie wdrożenia, moja propozycja okazała się bardzo korzystna i po paru tygodniach nikt nie chciał nawet słyszeć o backupie na Data Domain po FC, używając protokołu VTL (Virtula Tape Library – emulacja napędów taśmowych przez urządzenia z deduplikacją, zapis odbywa się po sieci FC z deduplikacją na targecie). Jedyną słuszną drogą był backup po sieci IP z deduplikacją na źródle, z kilku powodów: okno backupowe, czyli czas przewidziany na wykonanie backupów od godz. 18 do 6 rano okazało się dostatecznie długie

  • backupy wykonywane były jako pełny codziennie, co oznaczało, że klient ma zawsze dostęp do pełnej wersji swoich danych, a nie tylko kopii przyrostowej i w każdej chwili może wykonać klonowanie na taśmę, bez konieczności wskazywania backupu wykonanego w trybie pełnym (Full), a współczynnik RPO (Recovery Point Objective) wynosił maksymalnie 24 godziny
  • backupy były przechowywane na dyskach, z retencją 14 dni, co pozwoliło na określenie współczynnika RTO(Recovery Time Objective – czas potrzebny na odtworzenie systemu do stanu z przed awarii i uzyskania jego pełnej funcjonalności) na ok 2-3 godziny.
  • Pomimo wykonywania backupu po sieci IP w trybie Full, utylizacja wynosiła zaledwie 10% łącza 1Gbps
  • Średnio 1TB danych źródłowych kopiowany był w czasie ok 1 do 1,5 godz.

 

Nowa technologia Dziś prawie każdy system ma możliwość integracji z Data Domain i protokołem DD Boost (OST) Poniżej tabela integracji Data Domain z systemami backupu:   Więcej informacji znajdziecie Załącznik nr 1 https://support.emc.com/docu48116_White-Paper:-The-Business-Value-of-Data-Domain-Boost.pdf?language=en_US   Tak duża liczba systemów backupu i aplikacji np. SAP, Oracle, MS SQL itd., integrujących się z mechanizmami bezpośredniego zapisu swoich danych na Data Domain z deduplikacją wykorzystującą DD Boost, świadczy o wielkim sukcesie technologicznym i sprzedażowym tego produktu i EMC. Korzystający z Data Domain mogą korzystać z takich funkcji jak: – deduplikacja na źródle ze zmiennym blokiem po sieci IP/FC (DD Boost by IP/ DD Boost by FC) - możliwość korzystania przez natywne narzędzia backupu aplikacji Microsoft, Oracle, SAP bezpośrednio na Data Domain – globalna deduplikacja wszystkimi protokołami zapisu CIFS, NFS, DD Boost, VTL – wysoka skalowalność – łatwy i intuicyjny interfejs użytkownika – integracja z wieloma systemami   Podsumowanie W dzisiejszych czasach bardzo łatwo możemy zauważyć, że ilość naszych danych znacząco wzrosła. To stawia przed działami IT, zajmującymi się backupem ogromne wyzwania w postaci:

  • wzrostu liczby danych względem długości okna backupowego
  • rosnących kosztów zakupu storage’u , urządzeń do przechowywania danych
  • większych wymagań od biznesu dot. ciągłości pracy aplikacji biznesowych i strat, jakie ponoszą przerwy w ich działaniu
  • wzrostu kosztów utrzymania i budowy Data Center, w których znajdują się urządzenia do przechowywania skopiowanych danych np. biblioteki taśmowe, systemy backupu bez deduplikacji zapisujące na storage

Idealnym rozwiązaniem, wpasowującym się w dzisiejsze wymagania stawiane specjalistom od backupu jest wiec DataDomain.

  1. Urządzenie redukuje wielkość storage’u potrzebnego do przechowywania backupu o ok 80%
  2. Znacznie skraca czas i zmniejsza zużycie energii potrzebnej do wykonania backupu
  3. Pozwala na szybsze odtworzenie systemu – krótsze RTO
  4. Gwarantuje wysoką skalowalność – do 570 TB danych po deduplikacji
  5. Oferuje szeroką gamę modeli Załącznik nr2 https://www.emc.com/collateral/specification-sheet/h11340-datadomain-ss.pdf
  6. Ma wiele zastosowań – VTL, storage do backupu, serwer plików (zasoby wystawiana po CIFS lub NFS), storage do backupu z deduplikacją na źródle
  7. Łatwy i przyjazny interfejs użytkownika
  8. Integruje się z wieloma systemami do backupu
  9. Jako jedyne pozwala wykonywać deduplikację na źródle wykorzystując protokół IP i FC (tylko w połączeniu z Networker i NetBackup)

 

Załącznik1  

Załącznik2

‹ Powrót
No Comments

Sorry, the comment form is closed at this time.