mytarmailS:

Ich verstehe nicht, wollen Sie die resultierenden Pro-Formen in den Regeln auf mcule übertragen?

Natürlich, wie sollte ich das Modell sonst nachträglich anwenden? :)

 
Aleksey Vyazmikin:

mytarmailS:

Es wurde festgestellt, dass diese Art von Clustering keine Regeln erstellt, die das Ergebnis ohne Wiederholung des Clustering reproduzieren können. Und das Clustering ist zu langsam. Wir müssen also mittels Baumkonstruktion Regeln erstellen, die die Clustering-Ergebnisse anhand einiger Attribute in entsprechende Klassen einteilen.

Es bleibt also die Frage, wie man die zu jeder Klasse gehörende Zeichenkette in csv speichert?


Obwohl es seltsam ist, warum nicht einfach weiter Clustering mit bereits vorhandenen Daten und definieren neue Zeichenfolge in einer der Klassen, oder ist es möglich?

 
Mir ist klar, dass ich die Clusterkarte speichern und mit der Arbeit fortfahren könnte, aber ich weiß nicht, wie. Aber ich habe ein Buch über R. gefunden.
Классификация, регрессия и другие алгоритмы Data Mining с использованием R
  • Шитиков В. К., Мастицкий С. Э.
  • ranalytics.github.io
Описана широкая совокупность методов построения статистических моделей классификации и регрессии для откликов, измеренных в альтернативной, категориальной и метрической шкалах. Подробно рассматриваются деревья решений, машины опорных векторов с различными разделяющими поверхностями, нелинейные формы дискриминантного анализа, искусственные...
 
Hier ist, was ich hier gefunden habe

1. Es ist nicht sofort klar, wie man mit kmeans-Objekten umgeht. Am einfachsten ist es, sie an Ihren Datenrahmen anzuhängen: 
 k = kmeans(data, centers = 7)
 data = k$cluster
Sie haben nun die Clusternummer als Spalte im data.frame. Speichern Sie, wie auch immer Sie den data.frame speichern würden.

2. Study Value help(kmeans), Centres wird Ihnen sagen, wo der Mittelpunkt der Mitte liegt. Berechnen Sie für eingehende Daten, welchem Zentrum sie am nächsten sind. Beispiel: 

data(mtcars)
mt.k <- kmeans(mtcars, centers = 4)
mt.k$centers

Und ich verstehe nicht, wie man die Ergebnisse in einer bestimmten Spalte zusammenfasst?

Dieses Bild zeigt die gleichen Prädiktoren wie zuvor, aber der Stichprobenumfang ist anders und, was noch wichtiger ist, es wurden neue Prädiktoren hinzugefügt.

Und so ist sie zu interpretieren - die Neigung zum Übertraining?

Ich werde alle Kurven elegant durch Clustering anpassen. Kontakt

Warum ein so grober Algorithmus fast sofort mit neuen Daten beginnt, ist mir schleierhaft.

Ich gebe dem Umschulungsbaum die Schuld. Ich möchte boosta verwenden, aber ich kann es nicht schnell auf mql übertragen.

Puh... hier ist die Antwort

Wenn Sie ein Modell für einen bestimmten Zeitraum trainieren und dann die Daten für einen anderen (neu geclusterten) Zeitraum betrachten, dann wird es für den Baum so sein:

TRAIN DATA:  1.0   0.8541666666666666
NEW DATA:  0.1 8323586744639375 Fuuuuuuu

trane ist der Trainingsdatensatz + Validierungsdatensatz

ein neuer Datensatz sind im Allgemeinen neue Daten in neuen Clustern. Obwohl der Baum bei der Validierung gut funktioniert hat, schlägt er bei den neuen Versionen fehl.


Siehe Catbust zu denselben Daten:

TRAIN DATA:  0.9304589707927677   0.8916666666666667
NEW DATA:  0.8528265107212476

Was ist der Unterschied?

Sie wissen nicht, was vor sich geht, bis Sie es Schritt für Schritt überprüfen.

Es war richtig, dass ich dem Baum die Schuld gab. Ich dachte, es könnte eine so einfache Aufgabe erledigen, aber nein.

Analyse der Katzenbuste...

 
Ilnur Khasanov:
Übrigens, wissen Sie etwas über Pluspunkte?

