Einem SharePoint-System auf die Sprünge helfen – mit Datenkorrelation und Datenanalyse

Der vorliegende Beitrag befasst sich mit Zeitreihenkorrelation. Diese ist in den vergangenen Jahren zu einem der zentralen Dreh-und-Angel-Punkte geworden, wenn es um Probleme mit der Leistungsfähigkeit von Anwendungen geht.

Kommen wir zum konkreten Problem: Unser Kunde, ein mittelständisches Maschinenbau-Unternehmen, hatte nach der Migration auf die neue Version von SharePoint massive Probleme mit den Antwortzeiten seiner SharePoint-Seiten.

Auszug aus der IT-Landschaft des Unternehmens

Zur Windows-Infrastruktur des Unternehmens gehören unter anderem folgende Komponenten:

  • Active Directory
  • DNS
  • File
  • SharePoint
  • SQL

Die Hardware-Umgebung besteht hauptsächlich aus Komponenten der Firma HPE: Blade-Systeme vom Typ HPE C7000 mit den entsprechenden Server(Blade)Einschüben BL460g7 mit SAN-Anbindungen von je 8GB/s und Netzwerk-Anbindungen (LAN) von 10GB/s. Das Plattenspeichersystem (Storage System) ist eine HPE P9500. Die HPE P9500 war vor der breiten Einführung von „All Flash“ Systemen mit das schnellste Plattensubsystem am Markt.

Nach der SharePoint-Umstellung funktioniert vieles nicht mehr so richtig

Die Funktionen des SharePoint-Services stellen die wichtigste Basis für die Zusammenarbeit der Mitarbeiter im Unternehmen dar. Antwortzeiten von einer bis anderthalb Sekunden sind der Normalstandard. Nach der Migration lagen die Antwortzeiten bei bestimmten Seiten und SharePoint-Anwendungen (Webparts) jedoch bei über fünf Sekunden. Die Mitarbeiter beklagten sich über schlechte bis sehr schlechte Reaktionszeiten. Da SharePoint als unternehmenskritische Anwendung eingestuft wird, war dringend Handlungsbedarf geboten.

Der IT-Bereich konnte die Ursache mit den zur Verfügung stehenden Monitoringsystemen nicht finden. Alle Infrastrukturbereiche wie Windows Server, MS-SQL-Server, Netzwerk und Storage meldeten „grün“.

Die verschiedenen Monitoringsysteme zeigten für Basiswerte wie CPU, Hauptspeicher, Netzwerk usw. einstellige oder sehr kleine zweistellige Prozentwerte an. Also doch alles im grünen Bereich? Wie konnte das sein?

Analyse und Korrelation: die wahren Ursachen finden

Zur Problembehebung setzte das Management eine Arbeitsgruppe ein und beauftragte unser Unternehmen damit, die Ursachen für die schlechten Antwortzeiten zu finden. Wir installierten das Analyse- und Korrelationssystem SightLine® zur Erfassung der Daten von:

  • Windows-Server
  • Active Directory
  • MS-SQL-Server
  • SharePoint
  • Storage
  • Netzwerk-Diensten (DHCP und DNS)
  • Netzwerk

Das Ergebnis: Durch die Korrelation der Messwerte der verschiedenen Infrastruktur-komponenten wurde die „Temp-DB“ des Microsoft SQL-Servers als Ursache des Problems ausgemacht.

SharePoint und SQL-Server: Zielgerichtet Maßnahmen ergreifen

Die SharePoint-Seiten und SharePoint-Anwendungen nutzen die Datenbanken des SQL-Servers so, dass sehr viele Zugriffe auf die „TEMP-DB“ notwendigen werden. Durch die Optimierung der Temp-DB und die ständige Überwachung ihre Leistungsfähigkeit wurden die geforderten Antwortzeiten wieder erreicht und sogar auf über 200% verbessert.

Der große Nutzen für das Unternehmen:

Durch die Analyse- und Korrelationsfunktionen über die gesamte IT-Landschaft konnte wieder die beste Performance aller Systeme erreicht werden. Die Mitarbeiter können jetzt wieder schnell auf Informationen und Dokumente zugreifen. Insgesamt verbesserten sich die Leistungsfähigkeit der SharePoint-Umgebung und damit die Arbeitsleistung des gesamten Unternehmens.