SORU
24 Temmuz 2012, Salı


, DataFrame büyük kalıcı pandalar

Uzun süredir SAS bir kullanıcı olarak python ve pandalar geçiş keşfetmek duyuyorum.

Bazı testler bugün çalışırken ancak, python 0* *bir 128 MB çalışıyor csv dosyası bellek bitti ki şaşırdım. Yaklaşık 200.000 satır ve çoğunlukla sayısal veriler 200 sütunlar vardı.

SAS, SAS veri kümesi içine bir csv dosyası almak ve benim sabit disk kadar büyük olabilir.

Pandalar benzer bir şey var mı?

Ben düzenli olarak büyük dosyaları ile çalışmak ve dağıtılmış bir bilgisayar ağ erişimi yok.

CEVAP
24 Temmuz 2012, Salı


Prensip olmamalı bellek yetersiz, ama şu anda hafıza problemleri ile read_csv büyük dosyaları neden bazı karmaşık Python iç sorunları (bu belirsiz ama oldu bilinen uzun bir süre için: http://github.com/pydata/pandas/issues/407).

Şu anda orada değil mükemmel bir çözüm (işte sıkıcı gelebilir yazıya dosyayı satır içine bir ön tahsis NumPy Dizi ya da bellek eşlenen dosya--np.mmap), ama bu kişi ben olacağım çalışma yakın gelecekte. Başka bir çözüm pd.concat ile küçük parçalar (iterator=True, chunksize=1000) sonra arada dosyayı okumak için. Sorun şu ki, tüm metni büyük bir yudumda belleğe dosya çektiğinizde geliyor.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Cartoonium

    Cartoonium

    11 NİSAN 2011
  • Myron and Nejusha dance

    Myron and Ne

    2 AĞUSTOS 2012
  • USI Events

    USI Events

    6 AĞUSTOS 2013