Van back-up problemen naar storage efficiëntie - Technical Fact

Van back-up problemen naar geoptimaliseerde storage efficiëntie – Technical Fact

Aan de hand van onze technical fact reeks geven we je een inkijk in hoe onze technical engineers te werk gaan. Ze staan voor je stil bij problemen die ze tegenkomen in het werkveld, geven een inkijk in onze services en spelen in op hot topics uit de IT-wereld. Dit met als doel jouw en je IT-team te ondersteunen. Lees meer en ontdek alles over een expansie bij een van onze klanten.

Situering case

De klant in deze case is een overheidsinstelling die een uitgebreide Nutanix omgeving gebruikt, om diverse projecten te ondersteunen. Ze investeren actief in nieuwe technologieën om up-to-date te blijven, schaalbaarheid te kunnen waarborgen en interne processen zoveel mogelijk te automatiseren. HYCU verzorgt de back-ups van de virtuele machines binnen de Nutanix omgeving, waarna deze veilig worden opgeslagen op de cluster van Cloudian.

Situering probleem

Voordat wij aan de slag gingen schreef een HYCU back-up systeem back-ups weg naar een S3-storagecluster van Cloudian. De initiële grootte van deze storage cluster bedroeg 131TiB, wat lange tijd voldoende was voor onze klant. Na het aanpassen van enkele parameters van de back-up policy’s van de omgeving, zoals: back-upfrequenties, retentieperiodes en geback-upte objecten, werd duidelijk dat deze aanpassingen op korte termijn problemen zouden veroorzaken voor de opslagcapaciteit.

Bij een normaal back-upproces worden back-ups verwijderd zodra hun retentieperiode is verlopen. De back-up software (in dit geval HYCU) markeert de back-up dan als ‘expired’, waarna de ‘garbage collector’ deze verwijdert. Dit proces leek echter niet gevolgd te worden. We zagen de capaciteit van de storage namelijk afnemen zonder duidelijke reden.

Hoewel de policy’s correct waren ingesteld, zorgde een bug in het back-up proces van HYCU ervoor dat oude back-ups en archieven niet meer automatisch werden verwijderd. Dit in combinatie met de snel groeiende omgeving zorgde ervoor dat – nog voordat we het probleem konden aanpakken – de cluster zo vol raakte dat het niet langer mogelijk was om bestanden handmatig te verwijderen via de HYCU appliance. We moesten dus snel handelen om ervoor te zorgen dat de storage opnieuw toereikend was en de back-up processen konden doorlopen zoals gepland.

Voorbereidingsfase

Vanwege de snel groeiende omgeving en het feit dat de cluster vol liep, besloten we in samenspraak met onze cliënt de omgeving uit te breiden. Gezien de tevredenheid van onze klant over de S3 storage van Cloudian en deze eenvoudig uit te breiden is, deden we hierover een voorstel. Om dit voorstel te kunnen maken, bekeken we uiteraard eerst alle mogelijke uitbreidingsopties, aangezien elk scenario zijn eigen voor- en nadelen heeft.

Oplossing Core ICT

Vanaf het moment dat we de storage ruimte zagen vollopen, openden we een case bij zowel Cloudian als HYCU. Zij adviseerden ons om met een S3 browser tool manueel objecten te verwijderen op de Cloudian cluster. Dit is uiteraard niet de normale gang van zaken, aangezien HYCU deze acties automatisch uitvoert.

Dankzij specifieke acties van Cloudian support was het mogelijk om bepaalde objecten handmatig te verwijderen. Het probleem met het niet verwijderen van bepaalde oude back-ups werd direct opgelost in samenwerking met HYCU support. Hierdoor konden we genoeg ruimte vrijmaken om een back-up te maken van de business & mission critical gegevens. Dit bleek echter niet voldoende, waardoor we moesten bijschalen om het nieuwe back-upbeleid te ondersteunen.

In samenspraak met onze klant besloten we dus twee extra Cloudian nodes te implementeren wat samen 262TiB aan bruikbare opslag aan de cluster toevoegt. Dit besluit kwam voort uit een grondig onderzoek naar de optimale uitbreidingsscenario’s tijdens de voorbereiding. Het toevoegen van slechts één extra node zou de klant slechts 44TiB extra opslag hebben opgeleverd vanwege de beperkingen in de manieren waarop data op Cloudian kan worden opgeslagen.

Met deze extra storage konden we de policies volledig aanpassen naar de wensen van de klant, zonder het risico te lopen dat de Cloudian-cluster vol zou raken.

Effectieve expansie

Het toevoegen van de nodes aan de omgeving vraagt echter wel wat voorbereiding. Daarom namen we aan het begin van het traject al contact op met de verschillende partijen, waaronder Cloudian en de interne netwerkpartij bij de klant, om zowel de plaatsing als de netwerktoegangen voor te bereiden. Deze gedetailleerde voorbereiding stelde ons in staat om snel en succesvol over te gaan tot de installatie.

Na de fysieke installatie en het toevoegen van de 2 nieuwe nodes aan de Cloudian cluster volgde het herbalanceringsproces. Dit proces zorgt ervoor dat alle data op de cluster verspreid wordt over de 5 nodes, wat nodig is om de redundantie te garanderen.

Na het succesvol doorlopen van dit proces konden we de opslagtechnologie aanpassen. Dankzijde uitbreiding van drie naar vijf nodes, konden we overschakelen van “RF3” naar “erasure coding 3+2”. Deze opstelling maakt het mogelijk om, net als bij de vorige opslagtechnologie, twee nodes te verliezen zonder dataverlies voor de cluster.

Het grote verschil met de vorige setup is het gebruik van de opslagtechnologie EC 3 + 2, die uitblinkt in storage efficiëntie en performance. In een RF3-opstelling worden drie kopieën van de data bewaard, wat betekent dat op elke node één kopie staat. Dit was niet de meest efficiënte manier om opslag te gebruiken, maar met slechts drie nodes was het de beste oplossing.

Met de toevoeging van twee extra nodes kunnen we gebruik maken van de hierboven vermelde EC3+2. Dit betekent dat we onze data in drie stukken verdelen over drie nodes en daarnaast nog twee pariteitsdelen toevoegen. Deze plaatsen we op de twee andere nodes. Wat dus duidelijk een veel betere setup is!

Mocht een node uitvallen, dan kunnen we één van de pariteitsdelen gebruiken om het verloren stukje data te herstellen. Op deze manier creëren we niet alleen een tijdelijke oplossing, maar ook een die aanzienlijke kostenbesparingen oplevert in de toekomst.

Conclusie

Dankzij de snelle service van onze leveranciers, de vlotte communicatie met onze klant, en de flexibiliteit van ons Core ICT-team konden we snel reageren en de klant zeer efficiënt ondersteunen. Heb je ook behoefte aan deze soort ondersteuning binnen jouw IT-omgeving? Neem gerust contact met ons op; we helpen je graag verder!