Alle systemen zijn online

Werkt er iets niet? Laat het ons weten

  • ownCloud Server
    • ownCloud Software
    • Apache Server
    • PHP Server
    • Database Server
    • Redis Server
    • Opslag
  • Nextcloud Server
    • Nextcloud Software
    • Apache Server
    • PHP Server
    • Database Server
    • Redis Server
    • Opslag
  • FTP Server
    • ProFTPD
    • Opslag
  • Backup Locatie
Eerdere incidenten

[Opgelost] Storing in de opslag

Begonnen: Beëindigd : Looptijd:
  • Opslag
  • Opslag

Wij hebben een kortstondige storing ondervonden in de opslag van onze servers.

Het probleem was om 12:44 weer opgelost. Onze engineers zijn druk bezig de oorzaak van dit incident te achterhalen. Aan de hand daarvan kunnen we beoordelen wat we moeten doen om herhaling te voorkomen.

Zodra de oorzaak bekend is zullen we een update plaatsen op deze incidentpagina.

Mocht je tussentijds vragen hebben over dit incident, aarzel dan niet om contact met ons op te nemen via een bericht in je controlepaneel.

We hadden vandaag wederom een korte storing. Het incident is vergelijkbaar met het issue van gisteren. Wij hebben een externe specialist ingeschakeld om onze engineers te assisteren bij het onderzoeken en verhelpen van de onderliggende oorzaak. Zodra hier meer informatie over is, informeren we je direct verder per mail en op deze pagina.

Ons onderzoek naar de oorzaak van het incident is nog in volle gang. Naar verwachting kunnen we morgen dinsdag 4 augustus meer informatie met je delen.

Ons onderzoek naar het incident is inmiddels deels afgerond. Dit incident betrof het Ceph-platform in availability zone Amsterdam.

De Ceph-software werkt op basis van een aantal technieken waarvan de terminologie mogelijk niet bekend is. We lichten de voor dit incident relevante termen graag toe.

Ceph
Ceph is een distributed storage systeem. Hierbij wordt data niet op één server maar verspreid over meerdere servers opgeslagen. Dit maakt Ceph minder gevoelig voor storingen met individuele servers. Een Ceph-cluster bestaat doorgaans uit aparte monitor nodes en storage nodes.

Ceph-monitor
De monitors van het Ceph-cluster bepalen hoe de verschillende placement groups over het cluster verdeeld worden en hoe de data over de placement groups verdeeld zijn (placement groups bepalen waar data fysiek opgeslagen wordt). Zo zorgen de monitors ervoor dat er geen delen van de placement groups op dezelfde OSD's terecht komen, of op dezelfde server of servers in hetzelfde server-rack. Dit zorgt ervoor dat zelfs als volledige servers of server-racks onbereikbaar worden dat geen impact heeft op de bereikbaarheid van de data.

OSD (Object Storage Daemon)
Een OSD is het proces binnen een Ceph-cluster dat verantwoordelijk is voor het communiceren met andere OSD's en met clients. In de regel is er één OSD per fysiek storage medium, zoals een harde schijf. Het OSD-proces zorgt ervoor dat de door clients aangeleverde data correct opgeslagen en voldoende gerepliceerd wordt.

Uit ons onderzoek blijkt dat het incident veroorzaakt werd doordat een van de Ceph-monitors alle OSD's offline bracht. Deze Ceph-monitor diende een aantal operaties uit te voeren maar de betreffende operaties bleven 'hangen' en werden hierdoor niet uitgevoerd. Dit had tot gevolg dat de Ceph-monitor in een corrupte state belandde. De Ceph-monitor kreeg hierna geen correcte informatie meer over de status van het platform. Dit leidde er uiteindelijk toe dat de Ceph-monitor overging tot het offline halen van OSD's. Hierdoor was jouw data tijdelijk niet beschikbaar.

In overleg met een externe Ceph-expert hebben wij inmiddels een workaround geïmplementeerd die herhaling moet voorkomen. Daarnaast werken wij hard aan een structurele oplossing. Wij informeren je uiteraard verder op deze pagina en via mail zodra we daar informatie over kunnen delen

Geen incidenten in de afgelopen 7 dagen.