Storing in de opslag

Opgelost
Opgelost
Na 5 dagen, 17 uur en 33 minuten

We hebben het incident verholpen. Bedankt voor je geduld. Wij informeren je uiteraard verder op deze pagina en via mail zodra we daar informatie over kunnen delen

Avatar for
Herstellende
Na 5 dagen, 16 uur en 50 minuten

Ons onderzoek naar het incident is inmiddels deels afgerond. Dit incident betrof het Ceph-platform in availability zone Amsterdam.

De Ceph-software werkt op basis van een aantal technieken waarvan de terminologie mogelijk niet bekend is. We lichten de voor dit incident relevante termen graag toe.

Ceph Ceph is een distributed storage systeem. Hierbij wordt data niet op één server maar verspreid over meerdere servers opgeslagen. Dit maakt Ceph minder gevoelig voor storingen met individuele servers. Een Ceph-cluster bestaat doorgaans uit aparte monitor nodes en storage nodes.

Ceph-monitor De monitors van het Ceph-cluster bepalen hoe de verschillende placement groups over het cluster verdeeld worden en hoe de data over de placement groups verdeeld zijn (placement groups bepalen waar data fysiek opgeslagen wordt). Zo zorgen de monitors ervoor dat er geen delen van de placement groups op dezelfde OSD's terecht komen, of op dezelfde server of servers in hetzelfde server-rack. Dit zorgt ervoor dat zelfs als volledige servers of server-racks onbereikbaar worden dat geen impact heeft op de bereikbaarheid van de data.

OSD (Object Storage Daemon) Een OSD is het proces binnen een Ceph-cluster dat verantwoordelijk is voor het communiceren met andere OSD's en met clients. In de regel is er één OSD per fysiek storage medium, zoals een harde schijf. Het OSD-proces zorgt ervoor dat de door clients aangeleverde data correct opgeslagen en voldoende gerepliceerd wordt.

Uit ons onderzoek blijkt dat het incident veroorzaakt werd doordat een van de Ceph-monitors alle OSD's offline bracht. Deze Ceph-monitor diende een aantal operaties uit te voeren maar de betreffende operaties bleven 'hangen' en werden hierdoor niet uitgevoerd. Dit had tot gevolg dat de Ceph-monitor in een corrupte state belandde. De Ceph-monitor kreeg hierna geen correcte informatie meer over de status van het platform. Dit leidde er uiteindelijk toe dat de Ceph-monitor overging tot het offline halen van OSD's. Hierdoor was jouw data tijdelijk niet beschikbaar.

In overleg met een externe Ceph-expert hebben wij inmiddels een workaround geïmplementeerd die herhaling moet voorkomen. Daarnaast werken wij hard aan een structurele oplossing. Wij informeren je uiteraard verder op deze pagina en via mail zodra we daar informatie over kunnen delen

Avatar for
{:closed=>"Gesloten", :complete=>"Voltooid", :false_alarm=>"Vals alarm", :identified=>"Geïdentificeerd", :investigating=>"In onderzoek", :open=>"Open", :recovering=>"Herstellende", :resolved=>"Opgelost", :scheduled=>"Gepland", :underway=>"Bezig"}
Na 1 dag, 7 uur en 28 minuten

Ons onderzoek naar de oorzaak van het incident is nog in volle gang. Naar verwachting kunnen we morgen dinsdag 4 augustus meer informatie met je delen.

Avatar for
{:closed=>"Gesloten", :complete=>"Voltooid", :false_alarm=>"Vals alarm", :identified=>"Geïdentificeerd", :investigating=>"In onderzoek", :open=>"Open", :recovering=>"Herstellende", :resolved=>"Opgelost", :scheduled=>"Gepland", :underway=>"Bezig"}
Na 1 dag, 7 uur en 27 minuten

We hadden vandaag wederom een korte storing. Het incident is vergelijkbaar met het issue van gisteren. Wij hebben een externe specialist ingeschakeld om onze engineers te assisteren bij het onderzoeken en verhelpen van de onderliggende oorzaak. Zodra hier meer informatie over is, informeren we je direct verder per mail en op deze pagina.

Avatar for
Opgelost

Wij hebben een kortstondige storing ondervonden in de opslag van onze servers.

Het probleem was om 12:44 weer opgelost. Onze engineers zijn druk bezig de oorzaak van dit incident te achterhalen. Aan de hand daarvan kunnen we beoordelen wat we moeten doen om herhaling te voorkomen.

Zodra de oorzaak bekend is zullen we een update plaatsen op deze incidentpagina.

Mocht je tussentijds vragen hebben over dit incident, aarzel dan niet om contact met ons op te nemen via een bericht in je controlepaneel.

Avatar for
Begon om: