AMD veya Intel'in yanı sıra marka belleği - sayfa 73

 
begemot61 >> :

Ama neden. Ayrıca ciddi şeyleri hesaplama hızıyla da çok ilgileniyorum.

Pekala, artık üç kişiyiz. Yine de kalın değil.

 
joo >> :

Fikrinizi iyi anladım. Ancak test cihazını yükleyebileceğimizden farklı bir şekilde yüklediğimizi düşünüyorum. Ve işte benim fikrim, anlaşılan anlamamışsınız. Ama genel olarak önemli değil. Oryantasyon için, tabiri caizse, son uzmanın yapacağı "yerde".

TAMAM. Bu değerli kocalar için bir casus belli değil, değil mi? ))) Kodun yürütme hızıyla da ilgileniyorum çünkü. göstergelerim (aniden gördüler) kamuya açık uygulamada bile oldukça kaynak yoğun.

 

Bence ve grasn daha hızlı sayma fırsatını reddetmezdi

 
joo >> :

evet ona. Sadece herkes optimize edicinin çalışmasının MT dönümünde kaynak yoğun görevleri görmez. Ve görseler bile günlük işlerinde kullanmazlar. En azından çoğunluk. Neyse. MT5'i bekleyeceğim. Orada, kodun hızındaki artış çıplak gözle görülebilir. Bir de CUDA var. Araçları nVidia web sitesinden indirdim, çalışacağım. Ve kodu dll'ye aktarmak sorun değil.

CUDA'ya gelince, hesaplamaları 10-100 kat hızlandıran örnekler gördüm. Bazı tıbbi uygulamalar için. Ve CUDA programlama zaten üniversitelerde öğretiliyor. Ama bu çok meşakkatli bir iş. Onlar. Benzer bir dille, ancak görevi doğru bir şekilde parçalamak gerekir, GPU'nun özelliklerini ve tamsayı hesaplamalarını dikkate alın. Çok düşük seviyeli programlama çıkıyor. Ve altı aylık bir çalışmadan sonra bile gerçek kazançlar elde etmek için tüm görevlerin böyle bir forma getirilmesi kolay değildir. Örneğin, tamsayı matrisli işlemler neredeyse ideal olarak CUDA'ya çevrilir.
 
begemot61 >> :
CUDA'ya gelince, hesaplamaları 10-100 kat hızlandıran örnekler gördüm. Bazı tıbbi uygulamalar için. Ve CUDA programlama zaten üniversitelerde öğretiliyor. Ama bu çok meşakkatli bir iş. Onlar. Benzer bir dille, ancak görevi doğru bir şekilde parçalamak gerekir, GPU'nun özelliklerini ve tamsayı hesaplamalarını dikkate alın. Çok düşük seviyeli programlama çıkıyor. Ve altı aylık bir çalışmadan sonra gerçek kazançlar elde etmek için tüm görevlerin böyle bir forma getirilmesi kolay değildir. Örneğin, tamsayı matrisli işlemler neredeyse ideal olarak CUDA'ya çevrilir.

Bir OpenCL projesi var - dağıtılmış bir bilgi işlem ortamı. Dahil olmak üzere hemen hemen herkes buna katılır. Hem AMD hem Nvidia. Daha yüksek bir soyutlama düzeyi vardır. Linkte örnek kod var - gördüğünüz gibi C (C99 standardı).

 

Kaynakları inceledim, öğleden sonra abonelikten çıkacağım, şimdi uyku zamanı.

Sonuçlar az çok nettir.

 

Bulgularımı kısaca açıklamaya çalışacağım.

Bir Expert Advisor'ı optimize ederken, test cihazı onlarca MB bellek kullanır. Dakikalarca keşifle bir yıl boyunca fxt dosyası, örneğin, yaklaşık 36 MB'ım var. Bu geçmiş bellekte saklanır ve az ya da çok rastgele erişilir. Bu modda bellek, işlemciye "ideal" durumda işleyebileceği veri miktarını sağlamak için yeterli performansı sağlamaz. İşte burada önbellek devreye giriyor.

İşte tüm eğlence burada başlıyor.

1) Açıkçası, önbellek ıskalama durumlarında, bellek erişiminin hızı ve gecikmesi önemli bir rol oynayacaktır. Burada işlemciler 2 gruba ayrılabilir:

a) Atom ve Çekirdek 2 - bellek denetleyicisi, yonga setinin "Kuzey Köprüsü" (Kuzey Köprüsü - NB) içinde bulunur.

b) geri kalan her şey entegre (işlemciye) bellek denetleyicisi - ICP ile.

Bu durumda "a" grubunun işlemcileri, "b" grubunun işlemcilerine önemli ölçüde kaybedebilir. Aynı zamanda Core i7 ICP, AMD işlemcilerden çok daha verimlidir. Core i7'nin koşulsuz zaferinin nedenlerinden biri de budur.

2) Önbelleğin gecikmeleri etkili bir şekilde maskeleyebilmesi için, mümkün olduğu kadar büyük bir hacme, ilişkilendirilebilirliğe (CPU-Z ekran görüntülerinde x-way) ve daha düşük içsel gecikmeye sahip olması gerekir.

Ve burada işlemciler, önbellek miktarına (ceteris paribus) bağlı olarak açıkça hizalanır.

- 512 KB önbelleğe sahip en yavaş Celeron (Atom'u hesaba katmıyorum - çünkü mimarisi performans için değil, öncelikle ekonomi için tasarlanmıştır);

- Athlon'lar - ICP'den daha az etkilenen düşük miktarda önbelleğe sahiptirler;

- 1 MB önbelleğe sahip Celeron 900;

- 3-6 MB önbellek boyutuna sahip bir grup Core 2 işlemci, büyük önbellek boyutuna sahip modeller diğerlerinden biraz önde;

- Phenom II, burada 6 MB önbellek (ve maksimum ilişkilendirilebilirlik ile - 48 yönlü!) ICP ile birleştirilmiştir;

- ve en hızlısı - Core i7 - en ilerici 3 kanallı (ve genellikle çok hızlı) ICP'yi ve 8 MB'lik en büyük (yine çok hızlı) L3 önbelleğini birleştirir.

Core i7 büyürken Phenom'un verimliliğinin hız aşırtma sırasında neden düştüğüne gelince.

Bu işlemcilerin her ikisinde de ICP ve L3 önbelleği ayrı olarak saatlenir (L1/L2 önbelleği her zaman işlemci frekansında çalışır).

Ancak Belford'un hız aşırtma yöntemi, L3 önbelleğini hız aşırtmadan işlemci çarpanını (BE - Black Edition işlemciye sahip - ücretsiz bir çarpanla, genellikle çarpan yukarıdan sınırlıdır) artırmayı içerir.

Core i7'de hız aşırtma (XE hariç) yalnızca temel frekansı (BCLK) artırarak mümkündür. Aynı zamanda, L3 önbelleğe sahip ICP'ler de hız aşırtılır (Core ix'de buna Uncore denir).

Yani Belford'un Phenom'unun L3 hızı her zaman 2009.1 MHz'de sabitlenmiştir. YuraZ için ise nominal olarak 2,13 GHz'den işlemci 4 GHz'e hız aşırtıldığında 3,2 GHz'e çıkıyor. (CPU frekansı BCLK x 20, Uncore BCLK x 16). Xeon için ise 3.33 GHz işlemci frekansına sahip Uncore, 2.66 GHz frekansında çalışıyor.

Aynı zamanda, 2.13 GHz'de bile Core i7'nin L3 önbelleği, Phenom'un 2 GHz'deki L3 önbelleğinden belirgin şekilde daha hızlıdır. Ve doğal olarak 3.2 GHz'de çok daha hızlı, bu testte Core i7'ye mükemmel ölçeklenebilirlik sağlıyor.

Şimdi bu, ayrıntılı çalışmalar yapmadığım için varsayım düzeyinde. Ancak , optimizasyon hızının büyük ölçüde önbelleğin boyutuna ve hızına bağlı olduğu ve işlemcinin frekansına biraz daha az bağlı olduğu görülüyor.

 
Docent >> :

Bulgularımı kısaca açıklamaya çalışacağım.

Bir Expert Advisor'ı optimize ederken, test cihazı onlarca MB bellek kullanır. Dakikalarca keşifle bir yıl boyunca fxt dosyası, örneğin, yaklaşık 36 MB'ım var. Bu geçmiş bellekte saklanır ve az ya da çok rastgele erişilir. Bu modda bellek, işlemciye "ideal" durumda işleyebileceği veri miktarını sağlamak için yeterli performansı sağlamaz. İşte burada önbellek devreye giriyor.

İşte tüm eğlence burada başlıyor.

1) Açıkça, önbellek ıskalama durumlarında, bellek erişiminin hızı ve gecikmesi önemli bir rol oynayacaktır. Burada işlemciler 2 gruba ayrılabilir:

a) Atom ve Çekirdek 2 - bellek denetleyicisi, yonga setinin "Kuzey Köprüsü" (Kuzey Köprüsü - NB) içinde bulunur.

b) geri kalan her şey entegre (işlemciye) bellek denetleyicisi - ICP ile.

Bu durumda "a" grubunun işlemcileri, "b" grubunun işlemcilerine önemli ölçüde kaybedebilir. Aynı zamanda Core i7 ICP, AMD işlemcilerden çok daha verimlidir. Core i7'nin koşulsuz zaferinin nedenlerinden biri de budur.

2) Önbelleğin gecikmeleri etkili bir şekilde maskeleyebilmesi için, mümkün olduğu kadar büyük bir hacme, ilişkilendirilebilirliğe (CPU-Z ekran görüntülerinde x-way) ve daha düşük içsel gecikmeye sahip olması gerekir.

Ve burada işlemciler, önbellek miktarına (ceteris paribus) bağlı olarak açıkça hizalanır.

- 512 KB önbelleğe sahip en yavaş Celeron (Atom'u hesaba katmıyorum - çünkü mimarisi performans için değil, öncelikle ekonomi için tasarlanmıştır);

- Athlon'lar - ICP'den daha az etkilenen düşük miktarda önbelleğe sahiptirler;

- 1 MB önbelleğe sahip Celeron 900;

- 3-6 MB önbellek boyutuna sahip bir grup Core 2 işlemci, büyük önbellek boyutuna sahip modeller diğerlerinden biraz önde;

- Phenom II, burada 6 MB önbellek (ve maksimum ilişkilendirilebilirlik ile - 48 yönlü!) ICP ile birleştirilmiştir;

- ve en hızlısı - Core i7 - en ilerici 3 kanallı (ve genellikle çok hızlı) ICP'yi ve 8 MB'lik en büyük (yine çok hızlı) L3 önbelleğini birleştirir.

Core i7 büyürken Phenom'un verimliliğinin hız aşırtma sırasında neden düştüğüne gelince.

Bu işlemcilerin her ikisinde de ICP ve L3 önbelleği ayrı olarak saatlenir (L1/L2 önbelleği her zaman işlemci frekansında çalışır).

Ancak Belford'un hız aşırtma yöntemi, L3 önbelleğini hız aşırtmadan işlemci çarpanını (BE - Black Edition işlemcisi var - ücretsiz bir çarpanla, genellikle çarpan yukarıdan sınırlıdır) artırmayı gerektirir.

Core i7'de hız aşırtma (XE hariç) yalnızca temel frekansı (BCLK) artırarak mümkündür. Aynı zamanda, L3 önbelleğe sahip ICP'ler de hız aşırtılır (Core ix'de buna Uncore denir).

Phenom'un L3 hızı her zaman 2009.1 MHz'de sabitlenmiştir. YuraZ'de ise nominal olarak 2,13 GHz'den işlemci 4 GHz'e hız aşırtıldığında 3,2 GHz'e çıkıyor. (CPU frekansı BCLK x 20, Uncore BCLK x 16). Xeon için ise 3.33 GHz işlemci frekansına sahip Uncore, 2.66 GHz frekansında çalışıyor.

Aynı zamanda, 2.13 GHz'de bile Core i7 L3 önbelleği, Phenom'un 2 GHz'deki L3 önbelleğinden belirgin şekilde daha hızlıdır. Ve doğal olarak 3.2 GHz'de çok daha hızlı, bu testte Core i7'ye mükemmel ölçeklenebilirlik sağlıyor.

Şimdi bu, ayrıntılı çalışmalar yapmadığım için varsayım düzeyinde. Ancak, optimizasyon hızının büyük ölçüde önbelleğin boyutuna ve hızına ve işlemcinin frekansına biraz daha az bağlı olduğu görülüyor.

Teşekkür ederim. Bana göre çok inandırıcı. Kabul ediyorum.

 
Docent >> : Но похоже, что скорость оптимизации сильно зависит от объема и быстродействия кэша , и несколько меньше от частоты процессора.

Küçük açıklama. Optimizasyon hızının işlemcinin frekansından çok önbelleğin boyutuna ve hızına bağlı olduğunu varsaymak doğru olur mu?

 
HideYourRichess писал(а) >>

Küçük açıklama. Optimizasyon hızının işlemcinin frekansından çok önbelleğin boyutuna ve hızına bağlı olduğunu varsaymak doğru olur mu?

Anlaşıldı - evet. Ancak, bu hala bir varsayım olsa da, bunu yazımda vurguladım!

Neden: