Diskussion zum Artikel "Extrahieren von strukturierten Daten aus HTML-Seiten mit Hilfe von CSS-Selektoren"

 

Neuer Artikel Extrahieren von strukturierten Daten aus HTML-Seiten mit Hilfe von CSS-Selektoren :

Der Artikel beschreibt eine universelle Methode zur Analyse und Konvertierung von Daten aus HTML-Dokumenten auf Basis von CSS-Selektoren. Handelsberichte, Testerberichte, Ihren bevorzugten Wirtschaftskalender, öffentliche Signale, Kontoüberwachung und zusätzliche Online-Kursquellen werden direkt mit MQL verfügbar gemacht.

Händler haben oft mit einigen Standard-HTML-Dateien zu tun, wie z.B. Testberichten und Handelsberichten, die von MetaTrader generiert werden. Manchmal erhalten wir solche Dateien von anderen Händlern oder laden sie aus dem Internet herunter und möchten die Daten zur weiteren Analyse in einem Chart visualisieren. Zu diesem Zweck sollten Daten aus HTML in eine tabellarische Sicht (im einfachen Fall in das CSV-Format) konvertiert werden.

CSS-Selektor in unserem Dienstprogramm kann diesen Prozess automatisieren.

Werfen wir einen Blick in die HTML-Dateien. Nachfolgend sehen Sie das Aussehen und den Teil des HTML-Codes des MetaTrader 5 Handelsberichts (die Datei ReportHistory.html ist unten angehängt).

Darstellung des Handels-Reports und Teil des HTML-Codes

Darstellung des Handels-Reports und Teil des HTML-Codes

Autor: Stanislav Korotky

 
Wenn Sie Hilfe bei der Einrichtung von CSS-Selektoren zur Konvertierung einer bestimmten Webseite benötigen, können Sie den WebDataExtractor (для MetaTrader 4, für MetaTrader 5) erwerben und erhalten Empfehlungen im Rahmen des Produktsupports. Die Verfügbarkeit der Quellcodes erlaubt es Ihnen jedoch, die gesamte Funktionalität zu nutzen und beliebig zu erweitern, und zwar völlig kostenlos.
Ist es möglich, dass Sie hier die Bildung einer Set-Datei für diesen html-Bericht zeigen?
 

nur eine Anmerkung - die Entität, die Sie beschreiben, heißt irgendwo in der großen realen Welt XmlPath :-))

Sie hätten es zumindest erwähnen sollen.

 
Maxim Kuznetsov:

nur eine Bemerkung - die Entität, die Sie beschreiben, heißt irgendwo in der großen realen Welt XmlPath :-)

Sie hätten es zumindest erwähnen sollen.

Haben Sie den letzten Absatz gelesen?

 
fxsaber:
Ist es möglich, dass Sie hier die Generierung der Satzdatei für diesen HTML-Bericht zeigen?

Meinen Sie damit, dass das von der Report-Bibliothek erzeugte HTML analysiert werden soll? Das ist möglich, aber dieses HTML wird von MQL generiert, so dass nicht klar ist, warum HTML analysiert wird, wenn die Report-Bibliothek auf Anfrage sofort CSV speichern kann?

 
Stanislav Korotky:

Meinen Sie, dass das von der Report-Bibliothek erzeugte HTML analysiert werden soll? Vielleicht, aber dieses HTML wird von MQL generiert. Warum also HTML parsen, wenn die Report-Bibliothek auf Anfrage CSV speichern kann?

Der HTML-Bericht wird an eine andere Person weitergegeben.

 
fxsaber:

HTML-Bericht an eine andere Person weitergegeben wird.

Nun, das ist es, was ich meine: wenn man für eine andere Person nicht nur html, sondern auch csv erzeugen kann ;-).

Können Sie ein fertiges Beispiel nennen?

 
Stanislav Korotky:

Nun, das meine ich: Wenn es für eine andere Person ist, können Sie nicht nur html, sondern auch csv erzeugen ;-).

Die Person, die einen html-Bericht erstellt, ist nicht wirklich an csv interessiert. Außerdem wird oft eine unpersönliche Version des html-Berichts verwendet. Ein solcher Bericht kann zum Beispiel in einem Forum veröffentlicht werden. Dementsprechend nimmt jemand anderes aus dem Forum diesen Bericht und parst ihn durch Ihren Extraktor.

Können Sie ein fertiges Beispiel nennen?

Hier im Trailer.

 
REGEXP ????
 
Hely Rojas:
REGEXP ????

CSS-Selektoren sind für das HTML-Parsing viel besser geeignet, da sie die Elementhierarchie berücksichtigen.

 

Entschuldigung, ist dieser HTML-CSS-Selektor nicht mehr verfügbar?

Ich habe den Quellcode heruntergeladen, aber festgestellt, dass die Schreibmethode nicht kompiliert werden kann.