SQL üzerinden okumak verimli olur mu?
Apache Arrow veya DuckDB'yi deneyin.
ama yine de RAM en hızlı yoldur.
Sorunun kendisi G...ugly ile çözülür, sizin sorununuz gerekli olmayan kor. matrisidir.
Alglib'de bir çift korelasyon hesaplama fonksiyonu var. Sanırım tüm değişkenleri char/uchar olarak değiştirebilirsiniz ve her şey çalışacaktır. Yeniden yapılması gereken düzinelerce başka kullanılan fonksiyon var. Ve CMatrixDouble'dan dinamik dizilere veya başka bir şeye geçmeliyiz.
//| INPUT PARAMETERS: |
//| X - array[N,M], sample matrix: |
//| * J-th column corresponds to J-th variable |
//| * I-th row corresponds to I-th observation |
//| N - N>=0, number of observations: |
//| * if given, only leading N rows of X are used |
//| * if not given, automatically determined from input |
//| size |
//| M - M>0, number of variables: |
//| * if given, only leading M columns of X are used |
//| * if not given, automatically determined from input |
//| size |
//| OUTPUT PARAMETERS: |
//| C - array[M,M], correlation matrix (zero if N=0 or N=1) |
//+------------------------------------------------------------------+
static bool CBaseStat::PearsonCorrM(const CMatrixDouble &cx,const int n,
const int m,CMatrixDouble &c)
Ve eğer ev yapımı bir programınız varsa, bunu yapan hazır bir paketiniz yoksa, sayısallaştırma da yapmanız gerekecektir.
Sanırım aptalım... Nampai aracılığıyla hesaplamak çok hızlı) Panda aracılığıyla hesaplamak uzun ve bellek tüketiyor. Her şeyi daha sonra tekrar kontrol edeceğim.
desen yok, desenler korelasyon matrisi ile aranır
Belki de anlamadığım bir şey vardır.
Örüntü = birbirleri arasında yüksek korelasyon olan bir dizi örnek.
Tüm veri setinde, her biri geçmişte farklı sayıda tesadüfe sahip olan bu tür birçok model olabilir.
Bir matris olmadan hiçbir şey bulamazsınız ya da parçalanmış bir kısmını seçersiniz ve ben tüm olası varyantları sayıyorum.Bu yüzden her satırı alıp diğer tüm satırlarla korelasyonunu hesaplamanız gerekir, bir matris elde edersiniz.
Genel olarak kümelemeye benzer.
Burada örneklerin benzerliği maksimize edilir.
Ağaçlarda sınıflandırma/regresyon bu örneklerin gelecekteki benzerliğini maksimize eder. Geçmiş benzerliği daha kötü hale getirir.
Uzun zaman önce de benzer bir şey yapmıştım, şimdi yeni düşüncelerle yeniden yapıyorum
Elimizde üç boyutlu bir veri var.
Satır bir gözlem, sütun ise bir özelliktir.
İlk satır en son veri gibi.
Son satırın diğer satırların her biriyle korelasyonunu hesaplayabiliriz.
Ve son/güncel satır ile geçmiş arasındaki bu "benzerlik modelini" elde ederiz.
Kümeleme yapabilir ve buna benzer bir şey de elde edebilirsiniz.
Ancak, yalnızca mevcut/son satıra ilişkin duruma ihtiyacımız varsa neden tüm korelasyon matrisini saymamız gerektiğini anlamıyorum.
Buradaki düşünce derinliği nedir?
Tüm örüntüleri bir kerede mi bulacağız? Tüm örüntülere mi ihtiyacımız var? Yoksa mevcut duruma ve son gözleme karşılık gelene mi ihtiyacımız var?
Güncel bir şey yok, sadece geçmişe yönelik bir arama.
Daha sonra kalıpları metriklerinize göre sıralayıp en iyilerini botun içine dikiyorsunuz.
Peki, RAM açısından neredeyse ücretsiz olarak bir seferde bir desen arayabilirsiniz, herhangi bir anda sadece bir desende olabiliyorsanız, neden tüm geçmişteki tüm desenleri görmek istersiniz....
Yoksa anlamadığım bir şey mi var?
yine de hepsini gözden geçirmeniz ve yeni verilerle kontrol etmek için en iyilerini seçmeniz gerekir.#32456