Interpretation von Fitnessdaten
War das Training wirklich erfolgreich?
Wer seine Leistungsentwicklung dokumentieren will, der führt in regelmäßigen Abständen einen Fitnesstest durch. Aufgrund der Variabilität der Testergebnisse von teilweise mehreren Prozentpunkten fällt es Trainern oft schwer, richtig einzuschätzen, ob eine kleine Änderung des Ergebnisses auf allgemeine Faktoren wie die Rahmenbedingungen zurückzuführen ist oder sich die Leistungsfähigkeit tatsächlich verändert hat. Laut einer Studie von Prof. A. Turner sorgen einfache statistische Methoden für Klarheit.
Bei Neukunden im Fitnessstudio, bei Ausdauersportlern, die sich auf einen Wettkampf vorbereiten, und auch bei den Mannschaften in der Vorbereitung auf die neue Saison sind sie Usus: Fitnesstests zur Bestimmung der körperlichen Leistungsfähigkeit. Den Status quo des eigenen Fitnesslevels zu kennen, bildet die Basis für individualisierte Trainingsprogramme. Zur Überprüfung der körperlichen Leistungsfähigkeit und deren zugrunde liegenden Faktoren existiert eine Vielzahl an Testverfahren u. a. in den Bereichen Kraft, Ausdauer, Schnelligkeit, Beweglichkeit und Körperzusammensetzung. Dabei ist das Testergebnis oft mit einem Messfehler behaftet.
Zur Veranschaulichung ziehen wir ein einfaches Beispiel heran: Ist das Ergebnis bei einem Krafttest im Vergleich zur Messung einige Wochen davor um zwei Prozent verbessert, geht man im ersten Schritt davon aus, dass sich die Kraftleistung leicht gesteigert hat – das disziplinierte Training der letzten Wochen scheint also erste Früchte getragen zu haben. Doch sind zwei Prozent nicht eine so minimale Änderung, dass sie auch durch andere Faktoren als die tatsächliche Kraftleistung zustande gekommen sein könnten? Tatsächlich ist es gar nicht so unwahrscheinlich, dass Letzteres der Fall sein könnte.
Variabilität von Fitnesstests
Allein die Gewöhnung an eine Testaufgabe kann zu einer scheinbaren Steigerung der überprüften Leistungsfähigkeit von mehreren Prozent führen, obwohl oftmals nur eine ökonomischere oder technisch sauberere Ausführung des Tests zu einem verbesserten Ergebnis geführt haben. Unsere körperliche Leistungsfähigkeit unterliegt einer mitunter beträchtlichen biologischen Schwankung; hierbei spielen beispielsweise die Tagesform des Sportlers oder die Tageszeit, zu der ein Test stattfindet, eine wichtige Rolle. Ebenfalls wirken sich Umwelteinflüsse und die Motivation auf unsere Leistungsfähigkeit aus. Zuletzt spielen auch die Messgenauigkeit und die Zuverlässigkeit der Messmethode eine wesentliche Rolle.
Werden bei einer Ausdauerdiagnostik Atemgase oder die Blutlaktatkonzentration gemessen, muss man je nach verwendetem Gerät von einer gewissen systemseitigen Schwankung der Messwerte ausgehen. Wann kann also von einer tatsächlichen Leistungsänderung gesprochen werden? In einem kürzlich in der Fachzeitschrift Professional Strength & Conditioning veröffentlichen Artikel nimmt sich der renommierte englische Trainingswissenschaftler Prof. Anthony Turner genau dieser Frage an.
Wann hat sich die Leistung wirklich verbessert?
Wenig überraschend, fällt die Antwort sehr individuell aus und ist sowohl abhängig vom durchgeführten Test und dessen Standardisierung als auch davon, wie stabil der Sportler die Aufgabe durchführen kann. Bei Ausdauertests mit dem Ziel, eine gegebene Laufgeschwindigkeit so lange wie möglich aufrechtzuerhalten, ist die Messungenauigkeit des Testergebnisses mit jenseits von zehn Prozent sehr hoch. Bekommen Sportler hingegen die Aufgabe, eine bestimmte Laufstrecke möglichst schnell zu absolvieren, fällt die Variabilität der Ergebnisse mit etwas über drei Prozent deutlich geringer aus. Auch im Kraftbereich gibt es spürbare Unterschiede hinsichtlich der Messungenauigkeiten mit etwa zwei Prozent bei Sprungkrafttests und mit mehr als vier Prozent bei isokinetischen Maximalkrafttests. Unterscheiden sich die Testergebnisse vor und nach einer Trainingsperiode um weniger als die genannten Werte, ist es daher wahrscheinlich, dass sich die Leistung nicht verändert hat. Erst wenn eine Leistungsveränderung oberhalb dieser Schwelle liegt, kann man relativ sicher sein, dass das Training auch tatsächlich die Leistungsfähigkeit gesteigert hat.
Bestimmung der individuellen Variabilität
Die aufgeführten Werte können als Orientierung dienen, unterliegen aber auch individuellen Unterschieden, beispielweise in Abhängigkeit von der Erfahrung bei der Durchführung eines bestimmten Testverfahrens oder dem jeweiligen Leistungsniveau des Sportlers. Es macht also durchaus Sinn, zu prüfen, wie hoch die eigene Variabilität bei bestimmten Fitnesstests ausfällt. Hierfür sollten mehrere Versuche eines Tests durchgeführt werden – im Idealfall nicht nur im Rahmen einer Trainingseinheit, sondern beispielsweise im Abstand von einer Woche unter vergleichbaren Bedingungen (z. B. gleiche Tageszeit, keine körperliche Vorbelastung). Die Variabilität kann nun mithilfe der Ergebnisse der einzelnen Versuche errechnet werden. Hierfür ziehen wir ein einfaches Streuungsmaß, die Standardabweichung, heran. Wird bei einem Sprungkrafttest im ersten Versuch z. B. eine Höhe von 43,7 cm und im zweiten Versuch eine Höhe von 42,8 cm erreicht, liegt der Mittelwert bei 43,3 cm und die Standardabweichung bei 0,6 cm. Die individuelle Variabilität – oder der sogenannte Variationskoeffizient – bei diesem Sprungkrafttest kann auch in Prozent des Mittelwerts ausgedrückt werden. In diesem Fall wären das 1,4 Prozent, also 0,6 cm geteilt durch 43,3 cm. Den Wert anschließend mit 100 multiplizieren. Es müsste sich also bei einem zukünftigen Fitnesstest die Leistung um mindestens 0,6 cm bzw. 1,4 Prozent steigern, damit wirklich von einer Leistungsveränderung gesprochen werden kann.
Ein fiktiver Trainingspartner erreicht beim gleichen Sprungkrafttest im ersten Versuch 39,5 cm und steigert sich im zweiten auf 41,8 cm. Die Standardabweichung der beiden Versuche wäre demnach 1,6 cm bei einem Mittelwert von 40,7 cm und einer Variabilität von 3,9 Prozent. Aufgrund der höheren Variabilität der Testleistung müsste sich der Sportler bei einem Wiederholungstest also um fast 4 Prozent verbessern, um von einer realen Leistungssteigerung ausgehen zu können. Wenn auch kleine Leistungsänderungen identifiziert werden sollen, ist deshalb eine geringe Variabilität in der Testleistung hilfreich.
Wie sehr können Trainer den Messdaten vertrauen?
Die Statistik erlaubt uns aber noch tiefere Einblicke – nämlich dahingehend, wie viel Vertrauen in die Korrektheit gemessener Daten gesetzt werden kann. Die Standardabweichung, die als Grundlage für die Variabilitätsberechnung dient, umfasst nämlich 68 Prozent der zu erwartenden Messergebnisse. Angenommen, man würde einhundert Versuche des Sprungkrafttests durchführen, dann würde man – die Ermüdung außer Acht gelassen – erwarten, dass 68 dieser Versuche innerhalb der errechneten Standardabweichung liegen. In unserem Fall lägen diese Grenzen bei 42,6 cm (42,2 cm – 0,6 cm) und 43,9 cm (42,2 cm + 0,6 cm). Wer ganz sicher sein möchte, kann zur Festlegung der Variabilität anstatt einer auch zwei oder sogar drei Standardabweichungen verwenden. Dadurch würde man erwarten, dass 95 bzw. 99 der 100 durchgeführten Sprünge innerhalb der errechneten Grenzen liegen. In unserem Beispiel würden sich die Grenzen aber entsprechend auf 42,0 bis 44,5 cm bzw. auf 41,3 bis 45,2 cm ausweiten.
Durch dieses Beispiel wird klar, dass wir mehr Vertrauen in Daten setzen können, wenn zwei oder drei Standardabweichungen verwendet werden. Gleichzeitig würden aber kleine Leistungssteigerungen von wenigen Prozent, die möglicherweise von praktischer Relevanz sind, die jeweiligen Variabilitätsgrenzen nicht überschreiten. Als Folge würden die Daten dahingehend interpretiert werden, dass sich die Leistung im Grunde nicht verändert hat.
Mögliche Fehler bei der Dateninterpretation
Wie sollen die Grenzen genau gewählt werden, um die Variabilität der Testergebnisse in den Griff zu bekommen und gleichzeitig kleine, aber relevante Leistungsänderungen messen zu können? Die Antwort auf diese Frage ist laut Prof. Turner eher philosophischer Natur und hängt davon ab, welche typischen Fehler man bei der Dateninterpretation vermeiden will. In der Statistik spricht man von zwei Fehlertypen: Fehler vom Typ I und Fehler vom Typ II. Bei Ersteren handelt es sich um „falsch-positive“ Fehler – man nimmt eine Veränderung der Leistung an, obwohl tatsächlich keine vorhanden ist. Bei Typ II handelt es sich dementsprechend um „falsch-negative“ Fehler – man geht von einer unveränderten Leistung aus, obwohl sich diese in Wirklichkeit verändert hat. Da im Sport- und Fitnesssetting – im Gegensatz zur Medizin – ein Fehler vom Typ I sehr unwahrscheinlich schwerwiegende Gesundheitsrisiken als Konsequenz hat, wird empfohlen, mit nur einer Standardabweichung zu arbeiten, um so sensitiver gegenüber kleinen Leistungsänderungen zu sein. Im schlechtesten Fall geht man dann davon aus, dass eine Trainingsmethode wirkt, obwohl sie das nicht tut. Dagegen werden aber auch keine sinnvollen neuen Trainingsformen vernachlässigt, weil wir denken, dass sie ineffektiv sind. Gerade im Leistungssport, bei dem winzige Leistungsunterschiede über Sieg oder Niederlage entscheiden können, ist der zweite Punkt von besonderer Relevanz.
Praktische Tipps und Fazit
Die Kenntnis um die Variabilität der Ergebnisse von Fitnesstests ist essenziell für deren Interpretation. Wer die Variabilität seiner Ergebnisse nicht richtig einschätzt, läuft Gefahr, Leistungsentwicklungen fehlerhaft zu interpretieren und falsche Konsequenzen für das Training zu ziehen. Um die Variabilität der Testergebnisse möglichst gering zu halten, sollte insbesondere der Standardisierung Beachtung geschenkt werden. Neben einer ausreichenden Anzahl an Probeversuchen bei Tests mit ungewohnten Bewegungsausführungen sollten die Rahmenbedingungen bei allen geplanten Testzeitpunkten möglichst konstant bleiben. Zuletzt kann bereits bei der Testauswahl darauf geachtet werden, nur solche mit einer typischerweise geringen Variabilität in die Fitnesstestbatterie aufzunehmen.
Um die eigenen Variabilitätsgrenzen bei bestimmten Testverfahren zu bestimmen, sollte über mehrere Versuche hinweg die Streuung der Ergebnisse um den Mittelwert als Standardabweichung errechnet werden. Liegen die Ergebnisse bei einem Wiederholungstest außerhalb der Variabilitätsgrenzen, hat sich die Leistung verbessert oder verschlechtert. Wenn sie innerhalb der Grenzen liegt, hat sich die Leistung nicht verändert. Diese Berechnungen können auch ohne tiefere statistische Kenntnisse über eine Tabellenkalkulation erfolgen.
Dr. Stefan Altmann
Dr. Stefan Altmann
ist Leiter der Leistungsdiagnostik am Institut für Sport und Sportwissenschaft des Karlsruher Instituts für Technologie (KIT) sowie Koordinator Sportphysiologie & Wissenschaft der TSG ResearchLab gGmbH
www.sport.kit.edu
Foto: peopleimages.com – stock.adobe.com