Intelligente und automatisierte Responses auf IT-Incidents

Die Neuerfindung des Network Operations Center
Keine Kommentare

Mit der zweiten Welle und dem aktuellen Lockdown light stranden erneut viele IT-Mitarbeiter im Home Office und fühlen sich etwas abgeschnitten von Arbeit und den Kollegen. Gleichzeitig machen immer mehr Unternehmen die virtuelle Zusammenarbeit zum festen Bestandteil ihres Betriebs. Wie das technisch funktionieren kann und welche Rolle das Network Operations Center dabei spielt, erklärt Steve Barrett, Vice President EMEA bei PagerDuty.

Bereits im Frühjahr ergab eine Erhebung von Gartner, dass 74 % der Unternehmen die Absicht haben, auch nach der Pandemie Mitarbeiter zumindest zeitweise vom Präsenzbüro ins Home Office zu schicken. Parallel lassen Umsatzeinbußen die IT-Budgets schrumpfen. Gartner beispielsweise erwartet, dass die IT-Ausgaben 2021 in allen Bereichen gekürzt werden und anderen Umfragen zufolge wird von Neueinstellungen abgesehen. Manche sprechen sogar von Personaleinsparungen in der IT von bis zu 20 Prozent.

All das findet zusätzlich im Zuge der allgemeinen Digitalisierung statt. Sie hat dazu geführt, dass Unternehmen sehr stark auf Technologie setzen: Die Infrastruktur ist zu Code geworden und Services werden als Software bereitgestellt. Dadurch sind Unternehmen agiler geworden; gleichzeitig bedeutet dies aber, dass technologische Herausforderungen schnell direkte negative Auswirkungen auf das operative Geschäft oder auf Kundenbeziehungen und Transaktionen haben. Wie können diese gegenläufigen Trends – steigende Virtualisierung und Digitalisierung auf der einen Seite und reduzierte IT-Budgets und Mitarbeiterbasis auf der anderen Seite – abgefangen werden?

Die Digitalisierung hat dazu geführt, dass die Verantwortung für die Verwaltung und Pflege von Software-Infrastrukturen zunehmend beim Network Operations Center (NOC) liegt. Ursprünglich war die zentrale Aufgabe eines NOC, stets die optimale Netzwerkleistung zu gewährleisten. Doch in dieser neuen Phase steckt das NOC im digitalen Unternehmen erheblich mehr Zeit in Leistung und Verfügbarkeit von Daten und Anwendungen.

Und genau darin liegt die Herausforderung, denn diese Anwendungen sind unglaublich komplex. Es handelt sich um Microservices, die sich aus verschiedenen APIs und Daten zusammensetzen. Ihr Lebenszyklus wird durch einen erweiterten und kontinuierlichen Prozess verwaltet, der Aufbau, Laufzeit, Compliance und Sicherheit umfasst. Deren Pflege liegt in der Verantwortung einzelner Akteure, die unternehmensübergreifend tätig und heute möglicherweise dezentral verteilt sind. Vor der Pandemie erforderte die Bewältigung dieser Komplexität lediglich eine flexible Herangehensweise an den Geschäftsbetrieb. Jedoch werden nach der Pandemie Teams, die zuvor an zentralen Standorten effizient gearbeitet hatten, neue Herausforderungen bewältigen müssen. Diese ergeben sich durch Remote Work und Personalengpässe und betreffen u.a. Kommunikation, Zusammenarbeit, Verfügbarkeit und Reaktionszeit.

Handeln, bevor es zu spät ist

Den Strukturen und Prozessen der herkömmlichen NOCs fehlt es an der Flexibilität, diese Herausforderungen zu bewältigen. Bereits vor Covid-19 wurden in einer Umfrage ein Viertel der NOCs von IT-Profis schlecht bewertet, weil sie den Bedürfnissen der Unternehmen nicht gerecht wurden. Zwei Drittel der Befragten sagten aus, dass NOCs Probleme erst erkennen, nachdem diese Auswirkungen auf die Endnutzer haben. Und 51 Prozent gaben an, dass das NOC erst nach einem Telefonanruf, einer E-Mail oder einer SMS aktiv wird. Dies sind ernstzunehmende Zahlen, denn schließlich verursachen schwerwiegende Incidents erhebliche Ausfallzeiten, die das Geschäft beeinträchtigen. Der finanzielle Schaden dieser Ausfälle kann beachtlich sein: Laut dem Uptime Institute erlitten 10 % der Unternehmen, die einen Incident beklagten, einen Verlust von mindestens 1 Million US-Dollar. Unternehmen, die über ein automatisiertes System verfügen, haben also einen klaren Wettbewerbsvorteil. Noch besser ist es jedoch, ein System einzusetzen, das Problemen pro-aktiv vorbeugt.

Gartner positioniert sich dazu eindeutig: Klassische NOCs können dynamische Anwendungsumgebungen nicht mit der erforderlichen Geschwindigkeit und Flexibilität steuern. Die Antwort darauf: „Die I&O Abteilungen (Infrastructure and Operations) müssen bereit sein, veraltete Praktiken und Denkweisen zu überwinden und offen sein für Trends, die tiefgreifende Auswirkungen auf die I&O-Teams haben werden“, so Gartner.

Es zeichnet sich ab, dass das sogenannte Intelligent Response Management eine vielversprechende Vorgehensweise ist. Es handelt sich dabei um eine nuancierte, prozessorientierte und effiziente Reaktion auf Incidents. Dieser Ansatz basiert auf Remote-Überwachung von Maschinen, Arbeitsabläufen und Automatisierung – also Themen, die auch in anderen IT-Bereichen präsent sind.

Bis ins Letzte geplant

Die Grundlage eines intelligenten Response Management ist ein genau definierter Aktionsplan, der klar festlegt, wer, wann und wie auf Incidents reagieren muss.

Umfragen zeigen, dass Unternehmen mit einem festgelegten Response-Plan ungeplanten Arbeitsaufwand, der in Folge solcher Incidents entsteht, um 16 % reduzieren konnten. Laut Uptime Institute kamen zudem betroffene Unternehmen zum Schluss, dass sie mit besseren Management- und Konfigurationsprozessen ihre Probleme hätten verhindern können.

Dabei ist es wichtig, dass diese Arbeitsabläufe automatisch ausgelöst werden. Die Erhebung zeigte auch, dass 81 % der befragten Unternehmen bislang wenig oder gar keine Automatisierung zur Lösung von technologischen Herausforderungen einsetzen. Andererseits gibt es aber einen starken Zusammenhang zwischen der Nutzung etablierter automatisierter, dokumentierter, wiederholbarer Pläne und Verfahren einerseits und einer Reduzierung der ungeplanten Arbeit durch Ausfälle andererseits.

Automatisierung geht Hand in Hand mit der Integration von kundenspezifischen Tools sowie Tools von Drittanbietern. Die Integration durch Arbeitsabläufe und Prozesse verbessert die Kommunikation, Koordination und Zusammenarbeit im Team. Sie gibt den Digital Ops-Teams ein flexibles und vertrautes Mittel an die Hand, um per Mausklick mit einfach zu bedienenden Funktionen wie MS Teams oder Zoom-Anrufen zu reagieren. Dies ist zum einen wichtig, um die Lücken zu schließen, die dadurch entstehen, dass Teams an unterschiedlichen Standorten arbeiten. Zum anderen kann so sichergestellt werden, dass die richtigen Leute eingesetzt werden. Genau hier haben die herkömmlichen NOCs Nachteile: Nur knapp die Hälfte haben gemeinsame Ziele, Prozesse und Tools. Die Mehrheit arbeitet in Strukturen, die in Silos organisiert sind. Darüber hinaus sind 61 % der NOC-Mitarbeiter der Ansicht, dass sie viele Management-Tools verwenden, die nicht gut integriert sind.

Entscheidend für den Erfolg ist es, Tools einzusetzen, die kulturellen Wandel ermöglichen und damit die Kluft zwischen traditionellen Ops zu AIOps überbrücken. Denn mit mehr Ownership-Mentalität und standortunabhängigen Arbeiten, können jene Silos wirkungsvoll  aufgelöst werden, die in komplexen Umgebungen und verteilten Geschäftseinheiten vorhanden sind.

Mobiles Arbeiten muss Standard werden

Üblicherweise stellen NOCs mit ihrer großen Anzahl an Monitoren große Investitionen in die Infrastruktur eines Standortes dar. Dies gilt jedoch nicht für dezentral eingesetzte Mitarbeiter, die standortunabhängig arbeiten müssen. Mobiles Arbeiten muss bei der Reaktion auf IT-Incidents zum Mittel der Wahl werden. Dies kann durch drei Maßnahmen erreicht werden. Zum einen durch die Schaffung eines mobilen Nutzererlebnisses, das sowohl die Flexibilität des Geräts und der Benutzeroberfläche geschickt nutzt und Arbeitsabläufe und Prozesse vollständig automatisiert und integriert. Zum anderen gelingt dies durch eine API und einen Werkzeugkasten, der sich leicht integrieren und auf das mobile Nutzererlebnis anpassen lässt. Ein dritter Punkt ist das Thema Sicherheit: Die Geräte befinden sich außerhalb der Firewall, haben aber Zugang zu wichtigen Schlüsselbereichen. Deshalb sollte auf sicheren mobilen Betrieb mit PIN- und Biometrie-Zugang sowie zeitlich beschränkten Sitzungen geachtet werden.

Intelligente Response brauchen Daten. Durch das Sammeln und Analysieren von Maschi­nendaten mit AIOps können IT-Incidents in Echtzeit erkannt, Warnungen ausgelöst und das Rohmaterial für die Analyse bereitgestellt werden. Daten ermöglichen die effiziente Orchestrierung von Werkzeugen und Teams in komplexen Umgebungen und liefern den Kontext, der für eine intelligente Triage benötigt wird. Nur so können Probleme diagnostiziert, verstanden und behoben werden. Sie bilden die Grundlage für die Verfolgung von IT-Incidents und die Reaktion darauf. Zudem ermöglichen sie die Analyse von Prozessen. Im digitalen Betrieb gibt es keinen Mangel an Daten. Die Datenflut an sich kann jedoch die Analyse behindern oder zu einer Überhäufung mit Warnungen, Benachrichtigungen und Fehlalarmen führen. Daher ist es für ein intelligentes Response Management wichtig, vorab eine kleine Menge relevanter Datenindikatoren auszusuchen und zu prüfen.

Fazit

Die Digitalisierung rückt die Technologie ins Zentrum des unternehmerischen Handelns. Die Pandemie hat mit der Bewegung hin zu mehr Remote Work jedoch ein zusätzliches Hindernis auf dem Weg in diese Zukunft errichtet. Deshalb ist es notwendig, dass sich Unternehmen an diese Veränderungen anpassen. Nur mit einem intelligenten und automatisiertem Response Management auf IT-Incidents bleiben IT-Teams auch dezentral vereint und effizient. Mit eine solchen Herangehensweise müssen Unternehmen keine Ausfälle fürchten.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Abonnieren
Benachrichtige mich bei
guest
0 Comments
Inline Feedbacks
View all comments
X
- Gib Deinen Standort ein -
- or -