Wie zufällig ist zufällig?
Etablierte Methoden für Surrogat-Daten erzeugen nicht immer lineare Zeitreihen
Man sollte auch gut etablierten Methoden nicht zu blind vertrauen, weil sie wichtige, aber bisher unerkannte Stolperstellen haben können. Diese Lektion lernten Wissenschaftler am Max-Planck-Institut für extraterrestrische Physik (MPE), als sie einen genaueren Blick auf zwei weit verbreitete Algorithmen zur Erzeugung von Surrogat- oder Ersatzdaten geworfen hatten. Dies sind Datensätze, die einige Eigenschaften der ursprünglichen Daten beibehalten, während alle anderen Eigenschaften zufällig gewählt werden. Dieses Verfahren kann angewandt werden, um beispielsweise in einer modellunabhängigen Weise auf schwache Nichtlinearitäten zu testen, indem die tatsächliche Zeitreihe mit Surrogat-Daten verglichen wird, die ihre linearen Eigenschaften reproduzieren.
Seit ihrer Einführung fand die Surrogat-Methode zahlreiche Anwendungen in vielen Forschungsgebieten, von geophysikalischen und physiologischen Zeitreihenanalysen, über Wirtschaftsphysik, bis hin zu Astrophysik und Kosmologie. Forscher am MPE verwenden diese Methode insbesondere, um die kosmische Mikrowellen-Hintergrundstrahlung, das Echo des Urknalls, zu analysieren. Gewöhnlich wird angenommen, dass die kleinen Temperaturschwankungen, die in dieser Strahlung gemessen werden können, wie ein Gauss'sches Zufallsfeld verteilt sind. Allerdings ergab eine sorgfältige Analyse mit Surrogat-Daten signifikante Hinweise für nicht-Gaussianitäten und Asymmetrien (siehe News 2011 - Link).
In ihrer jüngsten Arbeit haben die Wissenschaftler des MPE nun das Verfahren selbst unter die Lupe genommen. Sie zeigten, dass zwei häufig verwendete Algorithmen zur Erzeugung von Surrogat-Daten oft nicht wirklich lineare Zeitreihen produzieren. Vielmehr können die Surrogat-Daten ausgeprägte Korrelationen aufweisen, die bei linearen Daten verschwinden sollten.
Die Wissenschaftler untersuchten dabei zwei ganz unterschiedliche Datensätze: zum einen Röntgenbeobachtungen einer aktiven Galaxie; deren Lichtkurven enthalten Informationen über die physikalischen Prozesse im Innersten der kompakten Kerne dieser Galaxien. Der zweite Datensatz sind die täglichen Renditen des Dow-Jones-Index von 1896 bis 2012. Beide Datensätze eignen sich gut für diese Tests, da sie ein hinreichend komplexes System abbilden, bei dem es bereits der bloße Nachweis von Nichtlinearitäten möglich macht, zwischen verschiedenen Modellen zu unterscheiden.
Wie die Analyse zeigte, bleiben für beide Datensätze Nichtlinearitäten in den Daten unerkannt, wenn Surrogat-Daten mit Verfahren erzeugt wurden, bei denen Phasenkorrelationen vorhanden sind. Dies führt im Endeffekt zu falschen physikalischen oder ökonomischen Modellen um diese Daten zu beschreiben. Eine Reihe von Tests zeigte, dass das Auftreten der Phasenkorrelationen dabei ein allgemeines Merkmal der untersuchten Methode ist – im Großen und Ganzen unabhängig von der zugrunde liegenden Zeitreihe.
Daraus schließen die Wissenschaftler, dass künftig nur Surrogat-Methoden verwendet werden sollten, bei denen das Fehlen von Nichtlinearitäten ausdrücklich gewährleistet ist. Sonst könnten intrinsisch vorhandene Nichtlinearitäten unentdeckt bleiben; das falsche Ergebnis des Surrogat-Tests führt dann zu einer falschen Modellierung des komplexen zugrunde liegenden Systems.