Aleksey Vyazmikin:

Maxim, wie stellt man das Ding auf?

Was ist id_tl?

Ich weiß es nicht, ich brauche einen Link.

vielleicht die id_tl der transformierten Beispiele einfach

Aleksey Vyazmikin:

Ich danke Ihnen! Es hat alles geklappt.

Ich denke, es ist richtig - nur trainieren konvertieren, weil auf Test geht nur Kontrolle - so habe ich, aber das Ergebnis ist sehr seltsam - Fehler logloss überschreitet 1 auf der Testprobe und wächst - wie kann das überhaupt sein - ich bin schockiert.

Sie können verschiedene Dinge ausprobieren, nur um zu sehen

Hier ist ein gutes Notizbuch https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

können Sie kopieren und testen

Maxim Dmitrievsky:

Ich weiß es nicht, ich brauche einen Link.

Wahrscheinlich sind die Eigenheiten der transformierten Beispiele nur

Es handelt sich um denselben Artikel - dort ist nichts klar.

Aleksey Vyazmikin:

Es ist immer noch derselbe Artikel - nichts ist dort klar.

es ist kopiert, ich habe Ihnen einen Link zum Original gegeben.

 
Maxim Dmitrievsky:

Sie können verschiedene Dinge ausprobieren, nur um zu sehen

Hier ist ein gutes Notizbuch https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

können Sie kopieren und überprüfen.

Dies ist also das Original des Artikels, den ich mir auf Russisch angesehen habe.

 
Maxim Dmitrievsky:

es ist eine Kopie, ich habe Ihnen einen Link zum Original gegeben.

Aber was nützt das - es gibt sowieso keine Informationen - der Code wurde herausgerissen.

Aleksey Vyazmikin:

Was nützt das - es gibt immer noch keine Informationen - der Code ist herausgerissen.

Dort ist alles perfekt geschrieben. Ich habe keine Ungleichgewichtsklassen, aber ich habe sie künstlich erzeugt, nur um zu sehen

 
Maxim Dmitrievsky:

dort ist alles perfekt geschrieben. Ich habe keine Ungleichgewichtsklassen, aber ich habe sie künstlich geschaffen, nur um zu sehen


Es stellte sich heraus, dass die "Tomek-Links"-Methode die Stichprobe nicht ausgleicht - sie reduzierte die Anzahl der Nullzeilen von 4005 auf 3402, so dass ich dachte, sie funktioniere nicht.
Aleksey Vyazmikin:


Es stellte sich heraus, dass die "Tomek Links"-Methode die Stichprobe nicht ausgleicht - sie reduzierte die Anzahl der Nullzeilen von 4005 auf 3402, weshalb ich dachte, dass sie nicht funktioniert.
Aha. Sie müssen zuerst die Überabtastung vornehmen, dann den Folianten
 
Maxim Dmitrievsky:
Aha. Zuerst sollten Sie eine Überstichprobe nehmen, dann das Volumen

Bisher hat die Überabtastung nichts gebracht, aber "tome" hat die Ergebnisse ein wenig verbessert - das bedeutet, dass etwas in den Daten steckt, die Hauptsache ist, dass man richtig gräbt.

Histogramm der Modelle mit verschiedenen Quantisierungseinstellungen auf der Probe.


