Es gibt eine Unzahl von Werkzeugen zur Überwachung von Systemen. Manche überwachen nur einzelne Komponenten, andere können die Informationen aus verschiedenen Systemen zusammenführen.
Um ein verteiltes System als Ganzes zu überwachen, benötigen wir einige zentrale Elemente. Die Abbildungen stammen von https://www.nagios.org/, einer Open Source Lösung und dienen nur zur Verdeutlichung.
Das Dashboard führt die wichtigsten Informationen zusammen und gibt uns einen Überblick über den Zustand des Systems. Dazu werden in der Regel die Informationen aus verschiedenen Teilsystemen zusammengeführt und in eine einheitliche Darstellung überführt.
Idealerweise gelangt man durch Anklicken einer Kategorie in die Detailansicht dieser Komponente.
Eine Liste aller Probleme und deren Status ist ebenfalls ein wichtiges Element. Dadurch sehen alle Mitarbeiter, welche Probleme offen, in Bearbeitung oder erledigt sind.
In grossen Firmen arbeitet das Team zur Überwachung der Systeme 7*24h. Bei vielen Betreibern von verteilten Systemen sind aber nicht rund um die Uhr Mitarbeiter an ihrem Arbeitsplatz. Stattdessen ist einer oder mehrere Mitarbeiter als Piket auf Abruf. In diesem Fall ist eine automatisierte Alarmierung der Piket-Mitarbeiter unabdingbar. Ein gutes Werkzeug sollte Optionen wie SMS, Messenger (Threema, Whatsapp, …) und Email anbieten.
Unter https://www.linode.com/docs/guides/monitoring-software/#the-11-best-system-monitoring-applications finden Sie eine Liste von Werkzeugen. Zu jedem Werkzeug sind die wichtigsten Stichworte kurz erklärt.