SORU
2 ŞUBAT 2011, ÇARŞAMBA


H5py Python büyük veri üzerinde analitik çalışma yapmak için kullanma deneyimi?

İstatistiksel bir sürü iş yapıyorum ve benim ana dili olarak Python kullanın. Bazı verileri-hafıza fonksiyonları numpy, scipy ve PyİMSL onları kullanarak işletim imkansızlaştırıyor bellek 20 GB alabilir ama birlikte çalıştığım ayarlar. İstatistiksel analiz dil SAS-bellekte işleme kesinlikle karşı sabit diskten veri üzerinde çalışabilir ki burada büyük bir avantajı var. Ama, ben önlemek istiyorsanız sahip olmak için yazmak bir sürü kod SAS (çeşitli nedenlerle) ve ben bu nedenle belirlemeye çalışan ne seçenekler var ile Python (ayrıca satın daha fazla donanım ve bellek).

Göster-azaltmak gibi yaklaşımlar üzerinde çalışmaya ihtiyacım var çünkü benim işin çok yardım etmeyeceğini açıklığa kavuşturmalıdırtamamlayınveri setleri (örneğin bilgi işlem abonelik sözleşmeleri veya uydurma lojistik regresyon modeli).

Son zamanlarda başladığım oyun h5py ve bence en iyi seçenek buldum için izin Python gibi davranma SAS ve ameliyat verileri disk (via hdf5 dosyaları) ise hala mümkün kaldıraç numpy/scipy/matplotlib, vb. Eğer herkes Python kullanarak ve bulduklarını benzer bir ortamda h5py ve varsa duymak isterim. Herkes "büyük veri" ayarlar şimdiye kadar SAS hakim? Python kullanmak mümkün olmuştur

EDİT: Satın daha fazla donanım/bellek kesinlikle yardımcı olabilir, ama gelen bir bakış açısı bu benim için zor satmak Python için bir organizasyon ihtiyaçları analiz büyük veri setleri zaman Python (veya R veya MATLAB vb.) ihtiyacı için basılı tutun veri bellek. Burada SAS analytics daha yavaş olabilir tabanlı disk ederken, güvenle büyük veri setleri ile başa çıkabilirim çünkü güçlü bir satış noktası olmaya devam ediyor. Yani Stackoverflow-ers bana bir dayanak noktası olarak Python kullanarak etrafında algılanan riski azaltmak için nasıl anlamaya yardımcı olabilir büyük veri dil analytics umuyorum.

CEVAP
2 ŞUBAT 2011, ÇARŞAMBA


H5py, numpy/scipy ve Destek ile birlikte Python kullanıyoruz::python veri analizi yapmak. Bizim tipik veri setleri için bir kaç yüz GB boyutları var.

HDF5 avantajları:

  • veri uygun, h5py/h5view uygulama ipython ve h5* komut satırı araçları kullanılarak kontrol edilebilir
  • API farklı platformlar ve diller için kullanılabilir
  • yapı veri grupları kullanarak
  • notlar veri öznitelikleri kullanarak
  • sorunsuz yerleşik veri sıkıştırma
  • tek veri üzerinde ıo hızlı

HDF5 tuzaklar:

  • Performans yıkar, h5 dosya eğer çok fazla veri içeren/grup (>Onları geçme çok yavaş olur. çünkü 1000), Diğer tarafta, ıo birkaç büyük veri kümeleri için hızlı.
  • Gelişmiş veriler () gibi SQL uygulamak ve yavaş (bu durumda SQLite düşünün) hantal
  • Bir sağlamak için, kütüphaneye doğru seçenekleri ile derlendi . HDF5-güvenli iş parçacığı her durumda değil:
  • değişen h5 veri (vb silmek, yeniden boyutlandırmak) darbeler boyutu (en iyi durumda) dosya veya imkansız (en kötü durumda) (bütün h5 dosyasını tekrar dümdüz kopyalanması)

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • hans peder sahl

    hans peder s

    22 Temmuz 2009
  • NYCarspotter

    NYCarspotter

    26 EYLÜL 2011
  • Vortez

    Vortez

    27 Temmuz 2009