Diskussion zum Artikel "Blaupause für maschinelles Lernen (Teil 4): Die versteckte Schwachstelle in Ihrer ML-Pipeline – Gleichzeitigkeit der Kennzeichnungen"
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel Blaupause für maschinelles Lernen (Teil 4): Die versteckte Schwachstelle in Ihrer ML-Pipeline – Gleichzeitigkeit der Kennzeichnungen :
Die meisten nicht-finanziellen ML-Forscher können davon ausgehen, dass die Beobachtungen aus IID-Prozessen (IID – Independent and Identically Distributed) stammen. Sie können zum Beispiel Blutproben von einer großen Zahl von Patienten nehmen und deren Cholesterinspiegel messen. Natürlich werden verschiedene zugrunde liegende gemeinsame Faktoren den Mittelwert und die Standardabweichung der Cholesterinverteilung verschieben, aber die Stichproben sind immer noch unabhängig: Es gibt eine Beobachtung pro Proband. Angenommen, Sie nehmen diese Blutproben und jemand in Ihrem Labor verschüttet Blut aus jedem Röhrchen in die folgenden neun Röhrchen zu ihrer Rechten. Das heißt, Röhrchen 10 enthält Blut für Patient 10, aber auch Blut von den Patienten 1 bis 9. Röhrchen 11 enthält Blut für Patient 11, aber auch Blut von Patient 2 bis 10 usw. Nun müssen Sie die Merkmale bestimmen, die für einen hohen Cholesterinspiegel prädiktiv sind (Ernährung, Bewegung, Alter usw.), ohne den Cholesterinspiegel des einzelnen Patienten genau zu kennen. Das ist die gleiche Herausforderung, der wir uns bei ML im Finanzbereich gegenübersehen, mit dem zusätzlichen Handicap, dass das Verschüttungsmuster nicht deterministisch und unbekannt ist.
Modelle, die auf der Grundlage gleichzeitiger Beobachtungen trainiert werden, zeigen oft eine überhöhte Leistung innerhalb der Stichprobe (weil sie dieselben Muster mehrfach lernen), aber eine schlechte Leistung außerhalb der Stichprobe (weil die tatsächliche Häufigkeit dieser Muster viel geringer ist, als das Modell glaubt).
Die Stichprobengewichtung bietet eine elegante Lösung. Anstatt alle Beobachtungen gleich zu behandeln, gewichten wir sie danach, wie viele einzigartige Informationen jede Beobachtung enthält. Beobachtungen, die sich stark mit anderen überschneiden, werden niedriger gewichtet, während wirklich unabhängige Beobachtungen höher gewichtet werden.
Autor: Patrick Murimi Njoroge