Die Tage vom Samstag, 21. bis Montag, 23. Juli 2012 können wir als das schwarze Wochenende von Ticketpark bezeichnen. Grosse Serverprobleme legten unsere Dienstleistungen für viele Stunden teilweise oder ganz lahm.

Wir hatten mit folgenden Problemen zu kömpfen:

Am Samstag, 21. Juli, etwa um Mittag, erreichten uns die ersten Meldungen von Veranstaltern, dass keine Tickets oder Gästelisten mehr erstellt werden konnten. Wir konnten das Problem sofort nachvollziehen und erkannten ein Problem mit dem Dateisystem beim Erstellen von temporären Files. Wir löschten alle temporären Daten und alle Caches, was das Problem jedoch nur für kurze Zeit beheben konnte. Zusätzlich hatten wir anschliessend keinen Zugriff mehr auf unsere Daten auf dem Live-Server. Wir starteten eine Support-Anfrage bei unserem Hosting-Partner PHPFog. Da PHPFog in Seattle (USA) stationiert ist, blieb das Ticket jedoch zuerst einige Stunden unbeantwortet liegen. In der Zwischenzeit pflegten wir engen Kontakt mit den Veranstaltern, lieferten gewisse Daten direkt aus unserer Entwicklungsumgebung und organisierten Notfallszenarien für die Abendkassen des Tages. Erst um ca. 20 Uhr konnte das Problem dann behoben werden. Anscheinend hatten Log-Dateien unsere Serverkapazität gefüllt, so dass keine Dateiveränderungen mehr vorgenommen werden konnte. PHPFog änderte die Vorgehensweise, wie Log-Dateien bei uns verwaltet und archiviert werden.

Ziemlich genau 24 Stunden nach dem ersten Mal traten am Sonntag, 22. Juli gegen 13 Uhr wieder dieselben Probleme auf. Da wir bereits wussten, wo der Schuh drückte, nahmen wir sofort direkten Kontakt mit dem Support von PHPFog auf. Dabei gingen wir dieses Mal sehr vehement vor, kontaktieren die einzelnen Supporter auch persönlich via Twitter. Dadurch konnte das Problem deutlich rascher behoben werden, so dass alle Abendkassen des Tages uneingeschränkten Zugriff auf das System hatten. PHPFog änderte das Verhalten der Log-Dateien erneut, so dass nur noch Fehlermeldungen Speicherplatz einnehmen würden. Die Zugriffs-Logs hatten zuvor über 700 MB Daten in wenigen Stunden produziert.

Am Montag Morgen liefen alle Systeme problemlos – bis uns gegen 10 Uhr ein Totalausfall einholte. PHPFog reagierte innert Sekunden auf unsere Kontaktaufnahme und meldete eine DoS-Attacke auf ihre DNS-Server. Alle unsere Dienste waren während mehrerer Stunden nicht mehr erreichbar. Auch nach dem der Angriff abgewehrt werden konnte, führten Zugriffe auf unsere Server noch für längere Zeit ins Leere. Daher unterstützen wir die Veranstalter wo nötig und sinnvoll mit der Konfiguration lokaler DNS-Einstellungen und dem Abarbeiten von administrativen Anfragen der Endkunden. In der zweiten Hälfte des Nachmittags kamen die Systeme dann Schritt für Schritt wieder zurück und laufen mittlerweile wieder wie gewohnt. Wir hoffen sehr, dass die Situation nun stabil bleibt.

Stellungnahme und Learnings:
Wir bitte unsere Kunden um Entschuldigung für die Ausfälle dieses Wochenende. Wir werden mit jedem betroffenen Veranstalter separat die Bedürfnisse abklären und wo immer möglich grosszügig entgegenkommen, sofern dies nicht bereits geschehen ist.

Gleichzeitig werden wir unsere Hosting-Struktur unter die Lupe nehmen. Grundsätzlich schätzen wir unseren Partner PHPFog sehr, doch im Interesse der Veranstalter muss unsere Plattform für dortige Ausfälle gewappnet sein. Im Vordergrund werden folgende Punkte stehen:

  • Unabhängigkeit von Zeitzonen zum Erreichen des Supports von Drittpartnern
  • Redundanz der Systeme, zum raschen Ausweichen bei Serverproblemen
  • Struktur unseres eigenen Supports, um möglichst rasch und konkret Auskunft zu geben.

Wir werden nun verschiedene Optionen prüfen und sobald wir die geeignetste Struktur gefunden haben, gerne darüber informieren.

Foto: Herkie