Langsamen IT-Systemen auf die Sprünge helfen – mit Datenkorrelation, Datenanalyse und Virtualisierung

IT-Verantwortliche finden hier Beiträge, Tipps und Praxisbeispiele zu den Themen

  • Monitoring heterogener Systemlandschaften
  • Analyse und Korrelation aller Arten von Monitoring-Daten
  • End-2-End Monitoring
  • Industrie 4.0
  • Compliance


Ich freue mich auf eine rege Teilnahme und einen regen Austausch!
Ihr Metin Özdiyar-Steffen
- Business Development Manager Intelligent Solutions GmbH

Im heutigen Beitrag berichte ich, wie es einer Bank gelungen ist, die bestehende Windows-Infrastruktur auf VMware ESX zu virtualisieren. Der E-Mail-Verkehr, der für die Bank zu den unternehmenskritischen Anwendungen zählt, läuft dadurch jetzt deutlich schneller und vor allem ausfallsicher.

Die IT-Landschaft der Bank

Zur Windows-Infrastruktur der Bank gehören unter anderem

  • Active Directory
  • DNS
  • File
  • SharePoint
  • SQL
  • Exchange


Die Hardware-Umgebung besteht hauptsächlich aus Komponenten der Firma HPE: Blade-Systeme vom Typ HPE C7000 mit den entsprechenden Server(Blade)Einschüben BL460g7 mit SAN-Anbindungen von 8GB/s und Netzwerk-Anbindungen (LAN) von 10GB/s. Das Plattenspeichersystem (Storage System) ist eine HPE 3par 7450.

Das Bankhaus betreibt die Infrastruktur in zwei Rechenzentren, die über 90 km voneinander entfernt liegen.

Alles funktioniert - scheinbar

Der Mailverkehr zählt für die Bank zu den unternehmenskritischen Anwendungen. Die Mitarbeiter beklagten sich jedoch über schlechte bis sehr schlechte Reaktionszeit des E-Mail Client MS Outlook. Zudem brachen die Verbindungen zwischen Outlook und dem Exchange Server bisweilen zusammen.

Der IT-Bereich konnte die Ursache nicht finden, alle Monitoringsysteme für VMware, Windows Server, Exchange, Netzwerk und Storage zeigten „grün“ an.

Das Problem analysieren und die wahre(n) Ursache(n) finden

Zur Problembehebung setzte das Management eine Task Force ein und beauftragte unser Unternehmen mit dem Projekt. Wir installierten das Analyse- und Korrelationssystem SightLine® zur Erfassung der Daten von   

  • VMware
  • Windows
  • Exchange
  • Storage
  • Netzwerk

 

Das Ergebnis: Für die schlechten Leistungsdaten und Verbindungsausfälle gab es zwei Ursachen, die sich gegenseitig auch noch verstärkten.

  1. Verzögerung durch suboptimale Zuteilung
    Die erste Ursache lag in der Art, wie VMware virtuellen (Gast)Systemen die Ausführung zuteilte. Die Ausführung eines virtuellen Gasts wurde erst dann weitergeführt, wenn die Anzahl der vCPUs dieses Gasts als Summe zur Verfügung stand. Dem virtuellen Exchange-Server waren 12 vCPUs zugeordnet, das Hostsystem hatte 12 pCPUs – ein Verhältnis von 1:1. Da VMware selbst für seine Verwaltungsaktivitäten auch CPU-Ressourcen benötigte, standen nur selten 12 pCPUs gleichzeitig für den virtuellen Exchange-Server zur Verfügung. Das spiegelte sich auch an der VMware-Metrik „CPU-Ready(ms)“ wider, die bisweilen bei 25.000 ms lag.
  2. Langsame Speicherzugriffe
    Durch diese aus der Sicht des Storage-Systems lange inaktive Zeit wurde der Speicherbereich des Exchange-Servers auf langsame Platten verlegt. Was aus Sicht des Speichersystems eine Optimierung war, verlängerte jedoch die Speicherzugriffe des Exchange-Servers. Dies wiederum veranlasste VMware, den Exchange-Server wieder „schlafen zu legen“ - eine Spirale der Verlangsamung.

 

Zielgerichtet Maßnahmen ergreifen

Die Bank reduzierte die Anzahl der vCPUs von 12 und 8. Die anschließenden Langzeit-Messungen zeigte eine Spitzenauslastung von maximal 60%. Als weitere Maßnahme wurde der Speicherbereich des Exchange-Servers auf den Speichersystem nicht mehr „optimiert“ und fest auf sehr schnelle Platten gelegt.

Der große Nutzen für das Unternehmen:

Durch die Analyse- und Korrelations-Funktionen über die gesamte IT-Landschaft konnte wieder die beste Performance von allen Systemen und speziell der virtuellen Exchange-Servern hergestellt werden. Die Mitarbeiter können Informationen und Dokumente jetzt wieder schnell und ausfallsicher per Mail austauschen. Insgesamt erhöhte sich der Datendurchsatz und damit die Arbeitsleistung des gesamten Unternehmens

Ein lesenswertes Best-Pracitce-Beispiel zum Thema liefert auch VMWare: „Performance Best Practices for VMware vSphere® 6.0“