Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası

Aleksey Vyazmikin 2020.10.22 20:18 #20311

Rorschach :

Orman için de kümenin önemini görmek mümkündür. Katbust'ta bu muhtemelen plot_tree'dir.

Verileri hazırlayıp yayınlayacağım.

6 sütun için bir test sürümü yaptım, 11GB aldı. Notepad++ açılamadı, dosyanın çok büyük olduğunu söylüyor. SQLite için BD Tarayıcı 20 dakikadır askıda.

Ne hakkında olduğunu anlayana kadar ağaç kümelerinin neye benzediğini gösteren bir resim gösterin.

Neden açayım? :) Hata ayıklama için benzer bir yapıya sahip mini bir kopya yapıyorum.

Aleksey Vyazmikin 2020.10.22 20:34 #20312

elibrarius :

Merak ediyorum, tüm verileri belleğe almadan ağaçları nasıl eğitiyorlar? Tablo 6 GB ise, yaklaşık 6 GB bellek kullanılmış olmalıdır. Ağacın her bir sütunu bütünüyle sıralaması gerekir. Her şeyi belleğe almazsanız, ancak her seferinde diskten veri okursanız, yavaş olacaktır.
Tek seçenek, verileri double değil, float türünde bellekte tutmaktır, ancak bu doğruluğu azaltacaktır. Bizim için 5 haneli hassasiyetle bu korkutucu olmayabilir ama catbust evrensel bir yazılım, fiziksel ve matematiksel problemlerin çift hassasiyette çözülmesi gerektiğini düşünüyorum.

Kodu incelemedim, ancak mantıklı düşünürseniz, CatBoost muhtemelen örnek veri tablosunu dönüştürür ve tam olarak dönüştürülmüş sürümü depolar, bu da hızlı bir şekilde sıkıştırılabilir.

Dönüşüm, her tahmin edicinin niceleme ızgarasına göre gerçekleşir (6 algoritma mevcuttur) ve örneğin, değişkenin 1000 farklı değerinden 32 seçenek kalır (kuantum ızgara aralığına düşen) ve böyle bir veri vektör kolayca sıkıştırılır, ayrıca sayılar zaten yalnızca tam sayılardır (ızgara boyutu kısıtlamalarına göre - kısa veri türü - sayı başına 2 bayt) ve niceleme tablosu basitçe bellekte bulunur ve daha sonra kodda bir model oluştururken kullanılır. Boyutu zaten makul bir şekilde azalttık ve ardından, değerlendirme için tüm tahmin edicileri değil, büyük numuneler için önerilen bir kısmını seçerek hacmi azaltabilirsiniz, rasgele algoritma ise bu tahmin edicileri diğer ağaçlarda kullanmanıza izin verir. hemen "çantaya" düşmeyin ", bundan dolayı eğitim daha da hızlı olacak, ancak modelde daha fazla ağaç olacak. Elbette başka hileler de var, ama asıl mesele niceleme.

Burada nicelleştirmeye genellikle özel dikkat gösterilmesi gerekir, ideal olarak, her tahminci için kendi ızgaranızı seçmeniz ve ızgara ile birlikte eğitim için veri göndermeniz gerekir, bu algoritmayı yapmanızı sağlar.

Bu nedenle, numune kendi başına nicelenebilir ve iyi sıkıştırılır.

Bayesian regresyon - Bu Bu kaosun bir düzeni Makale danışmanı. Herkes için

Forester 2020.10.22 21:40 #20313

Alexey Vyazmikin :

Kodu incelemedim, ancak mantıklı düşünürseniz, CatBoost muhtemelen örnek veri tablosunu dönüştürür ve tam olarak dönüştürülmüş sürümü depolar, bu da hızlı bir şekilde sıkıştırılabilir.

Dönüşüm, her tahmin edicinin niceleme ızgarasına göre gerçekleşir (6 algoritma mevcuttur) ve örneğin, değişkenin 1000 farklı değerinden 32 seçenek kalır (kuantum ızgara aralığına düşen) ve böyle bir veri vektör kolayca sıkıştırılır, ayrıca sayılar zaten yalnızca tam sayılardır (ızgara boyutu kısıtlamalarına göre - kısa veri türü - sayı başına 2 bayt) ve niceleme tablosu basitçe bellekte bulunur ve daha sonra kodda bir model oluştururken kullanılır. Boyutu zaten makul bir şekilde azalttık ve ardından, değerlendirme için tüm tahmin edicileri değil, büyük numuneler için önerilen bir kısmını seçerek hacmi azaltabilirsiniz, rasgele algoritma ise bu tahmin edicileri diğer ağaçlarda kullanmanıza izin verir. hemen "çantaya" düşmeyin ", bundan dolayı eğitim daha da hızlı olacak, ancak modelde daha fazla ağaç olacak. Elbette başka hileler de var, ama asıl mesele niceleme.

Burada nicelleştirmeye genellikle özel dikkat gösterilmesi gerekir, ideal olarak, her tahminci için kendi ızgaranızı seçmeniz ve ızgara ile birlikte eğitim için veri göndermeniz gerekir, bu algoritmayı yapmanızı sağlar.

Bu nedenle, numune kendi başına nicelenebilir ve iyi sıkıştırılır.

Aynen, hatırladım, varsayılan olarak 1024 bölme seçeneği için bir ızgara var gibi görünüyor. Tüm veriler bölünmüş sayılarla değiştirilirse, ushort biçiminde saklanabilir ve bu 8, 4 kat sıkıştırma yerine 2 bayttır. Görünüşe göre 6 yerine 2 GB'a sahipsin ve kullandın.
Şimdi bu ızgaranın ne için kullanıldığını anlıyorum, sıkıştırma için çıkıyor. Peki, daha hızlı sırala.

Документация по MQL5: Основы языка / Типы данных / Целые типы / Типы char, short, int и long

www.mql5.com

Целый тип char занимает в памяти 1 байт (8 бит) и позволяет выразить в двоичной системе счисления 2^8 значений=256. Тип char может содержать как положительные, так и отрицательные значения. Диапазон изменения значений составляет от -128 до 127. uchar # Целый тип uchar также занимает в памяти 1 байт, как и тип char, но в отличие от него, uchar...

Yeni başlayanlardan sorular MQL5 yardıma ihtiyacım var! Görev Neden valenok2003 vs MT5

Aleksey Vyazmikin 2020.10.22 21:58 #20314

elibrarius :
Aynen, hatırladım, varsayılan olarak 1024 bölme seçeneği için bir ızgara var gibi görünüyor. Tüm veriler bölünmüş sayılarla değiştirilirse, ushort biçiminde saklanabilir ve bu 8, 4 kat sıkıştırma yerine 2 bayttır. Görünüşe göre 6 yerine 2 GB'a sahipsin ve kullandın.

Varsayılan 254'tür, ancak o zaman ne kadar ayarladığımı hatırlamıyorum. Belki 2 GB'den daha az bellek tüketildi - bu kadar az olmasına çok şaşırdığımı tam olarak hatırlıyorum.

Her durumda, bu yaklaşım, örneğin kendisini bile verileri önemli ölçüde sıkıştırmanıza olanak tanır. Bunu sinir ağları ile yapamazsınız.

elibrarius :
Şimdi bu ızgaranın ne için kullanıldığını anlıyorum, sıkıştırma için çıkıyor. Peki, daha hızlı sırala.

Izgara, bir dizi değer kullandığından daha az uydurmaya da izin verir. Ancak her zaman iyi olmayacak - teorik seviyeleri yakalamak için ağı kendiniz kesmeniz gerektiğini düşünüyorum.

Optimize edici ile çalışma Bilgisayar konfigürasyonunun seçimi (öncelikli OOP ile ilgili yardım

Forester 2020.10.23 06:00 #20315

Alexey Vyazmikin :

Varsayılan 254'tür, ancak o zaman ne kadar ayarladığımı hatırlamıyorum. Belki 2 GB'den daha az bellek tüketildi - bu kadar az olmasına çok şaşırdığımı tam olarak hatırlıyorum.

O zaman uchar kullanabilirsiniz, 1 bayttır.

Alexey Vyazmikin :
Izgara, bir dizi değer kullandığından daha az uydurmaya da izin verir. Ancak her zaman iyi olmayacak - teorik seviyeleri yakalamak için ağı kendiniz kesmeniz gerektiğini düşünüyorum.

Kısacası, maksimum değer 65 bindir - böyle bir ızgara ayarlarsanız, manuel olarak buhar banyosu yapamazsınız.

Александр Алексеевич 2020.10.23 07:44 #20316

Maksim Dmitrievski :

https://www.mql5.com/en/articles/8385

iyi bir uygulama olduğu gerçeği değil)

Rusça'da geçiyorum

Bunu okudum))) hesaplamalarda çok fazla hata var ve ağ oldukça rastgele cevaplar veriyor

Aleksey Vyazmikin 2020.10.23 09:45 #20317

elibrarius :

O zaman uchar kullanabilirsiniz, 1 bayttır.

Kısacası, maksimum değer 65 bindir - böyle bir ızgara ayarlarsanız, manuel olarak buhar banyosu yapamazsınız.

65535'lik bir marjinal boyuta sahipler, ancak koddaki değişkenleri etkileyemiyorum.

Ancak maksimum boyut hakkında - hayır, bu sonucu garanti etmez, çünkü veri şeridinde bir ayarlama ve yalancıların yanında bir geçiş olabilir.

Genel olarak, aralığı kapatan bölmenin uygunluğunu her zaman kontrol eden bir öğrenme algoritmasına sahip olmak güzel olurdu (A>10 && A<=15), aksi takdirde genellikle biraz rastgele olur - böyle bir zorunlu koşul yoktur, ancak bazen çoğaltılır.

Kar Üreticisi EA Hacimler, oynaklık ve Hurst Hatalar, hatalar, sorular

Maxim Dmitrievsky 2020.10.23 10:08 #20318

Alexander Alekseevich :

Bunu okudum))) hesaplamalarda çok fazla hata var ve ağ oldukça rastgele cevaplar veriyor

Ağı kendiniz mi yazmak istiyorsunuz?

Buradaki sularda minimum kelime ve maksimum python kodu var, aynı zamanda İngilizce.

https://datascience-enthusiast.com/DL/Building_a_Recurrent_Neural_Network-Step_by_Step_v1.html

Building a Recurrent Neural Network - Step by Step - v1

datascience-enthusiast.com

Building your Recurrent Neural Network - Step by Step

Александр Алексеевич 2020.10.23 11:57 #20319

Maksim Dmitrievski :

Ağı kendiniz mi yazmak istiyorsunuz?

Buradaki sularda minimum kelime ve maksimum python kodu var, aynı zamanda İngilizce.

https://datascience-enthusiast.com/DL/Building_a_Recurrent_Neural_Network-Step_by_Step_v1.html

Evet kendim istiyorum) çünkü tüm yazılarda aktivasyon fonksiyonlarının örnekleri doğru düşünülmüyor) örneğin sigmoid her yerde 1/1 + exp (-x) olarak kabul ediliyor. Ve 1.0/1.0+exp(-x)'e ihtiyacınız var. Aynı şey yazılmış gibi görünüyor, ancak terminal farklı hesaplamalar veriyor) bakın, belki de aynı şekilde düşünüyorsunuz) dolayısıyla hatalar.

MACD'nin 1. ve 2. [ARŞİV!] Forumu kirletmemek için Terminal hızı

Maxim Dmitrievsky 2020.10.23 12:53 #20320

Alexander Alekseevich :
Evet kendim istiyorum) çünkü tüm yazılarda aktivasyon fonksiyonlarının örnekleri doğru düşünülmüyor) örneğin sigmoid her yerde 1/1 + exp (-x) olarak kabul ediliyor. Ve 1.0/1.0+exp(-x)'e ihtiyacınız var. Aynı şey yazılmış gibi görünüyor, ancak terminal farklı hesaplamalar veriyor) bakın, belki de aynı şekilde düşünüyorsunuz) dolayısıyla hatalar.

Sinir ağı terminalinde yazmak hiç de bir seçenek değil. Orada herhangi bir f-I aniden beklendiği gibi çalışmayabilir. hazır kullanın

Ticarette makine öğrenimi: teori, pratik, ticaret ve daha fazlası - sayfa 2032