Diskussion zum Artikel "Blaupause für maschinelles Lernen (Teil 4): Die versteckte Schwachstelle in Ihrer ML-Pipeline – Gleichzeitigkeit der Kennzeichnungen"

 

Neuer Artikel Blaupause für maschinelles Lernen (Teil 4): Die versteckte Schwachstelle in Ihrer ML-Pipeline – Gleichzeitigkeit der Kennzeichnungen :

Entdecken Sie, wie Sie eine kritische Schwachstelle beim maschinellen Lernen im Finanzbereich beheben können, die zu einer Überanpassung der Modelle und einer schlechten Live-Performance führt – die Gleichzeitigkeit der Kennzeichen. Bei der Verwendung der Triple-Barrier-Methode überschneiden sich die Trainingskennzeichen zeitlich, wodurch die zentrale IID-Annahme der meisten ML-Algorithmen verletzt wird. Dieser Artikel bietet eine praktische Lösung in Form einer Stichprobengewichtung. Sie werden lernen, wie man die zeitliche Überlappung zwischen Handelssignalen quantifiziert, Stichprobengewichte berechnet, die die einzigartigen Informationen jeder Beobachtung widerspiegeln, und diese Gewichte in Scikit-Learn implementiert, um robustere Klassifikatoren zu erstellen. Das Erlernen dieser grundlegenden Techniken wird Ihre Handelsmodelle robuster, zuverlässiger und profitabler machen.

Die meisten nicht-finanziellen ML-Forscher können davon ausgehen, dass die Beobachtungen aus IID-Prozessen (IID – Independent and Identically Distributed) stammen. Sie können zum Beispiel Blutproben von einer großen Zahl von Patienten nehmen und deren Cholesterinspiegel messen. Natürlich werden verschiedene zugrunde liegende gemeinsame Faktoren den Mittelwert und die Standardabweichung der Cholesterinverteilung verschieben, aber die Stichproben sind immer noch unabhängig: Es gibt eine Beobachtung pro Proband. Angenommen, Sie nehmen diese Blutproben und jemand in Ihrem Labor verschüttet Blut aus jedem Röhrchen in die folgenden neun Röhrchen zu ihrer Rechten. Das heißt, Röhrchen 10 enthält Blut für Patient 10, aber auch Blut von den Patienten 1 bis 9. Röhrchen 11 enthält Blut für Patient 11, aber auch Blut von Patient 2 bis 10 usw. Nun müssen Sie die Merkmale bestimmen, die für einen hohen Cholesterinspiegel prädiktiv sind (Ernährung, Bewegung, Alter usw.), ohne den Cholesterinspiegel des einzelnen Patienten genau zu kennen. Das ist die gleiche Herausforderung, der wir uns bei ML im Finanzbereich gegenübersehen, mit dem zusätzlichen Handicap, dass das Verschüttungsmuster nicht deterministisch und unbekannt ist.

Modelle, die auf der Grundlage gleichzeitiger Beobachtungen trainiert werden, zeigen oft eine überhöhte Leistung innerhalb der Stichprobe (weil sie dieselben Muster mehrfach lernen), aber eine schlechte Leistung außerhalb der Stichprobe (weil die tatsächliche Häufigkeit dieser Muster viel geringer ist, als das Modell glaubt).

Die Stichprobengewichtung bietet eine elegante Lösung. Anstatt alle Beobachtungen gleich zu behandeln, gewichten wir sie danach, wie viele einzigartige Informationen jede Beobachtung enthält. Beobachtungen, die sich stark mit anderen überschneiden, werden niedriger gewichtet, während wirklich unabhängige Beobachtungen höher gewichtet werden.


Autor: Patrick Murimi Njoroge