SORU
15 EYLÜL 2009, Salı


İş akışı istatistiksel analiz ve rapor yazmak için

Herkes veri analizi için iş akışları özel rapor yazma ile ilgili herhangi bir bilgelik var mı? Use-case temelde bu

  1. İstemci bir su bölgesi için veri analizi, örneğin bir nüfus tahmin ve ilgili haritaları kullanan bir komisyon raporu.

  2. Analist bazı veri indirme, veri munges ve sonuç (birim başına nüfus için bir sütun ekleyerek, örneğin, ya da veri merkezi sınırları dayalı gömmeyi) kaydeder.

  3. Analist verileri (2), alır onu hedefe yakın olarak oluşturulan analiz eder, ama daha fazla veriye ihtiyacı var ve geri (1) gider görür.

  4. Tablo ve grafik kadar Tekrarla QA ve QC tatmin istemci/karşılamak.

  5. Birleşmeyle tablo ve grafik rapor yazma.

  6. Gelecek yıl, mutlu Müşteri geri geliyor ve güncelleme istiyor. Bu yeni bir yükleme (örneğin bina geçen yıl izin almak) tarafından akıntıya karşı veri ve "özellikleri değiştirmedikçe." düğmesine YENİDEN basarak bir güncelleme gibi basit olmalıdır

Şu anda, ben sadece bir dizin başlamak ve ad-hoc oldu. Birini bu kadar anlamıştır umuyorum ki daha sistemli bir yaklaşım istiyorum... tablolar, SQL, ARC, R, ve Unıx araçları bir karışımı kullanıyorum.

Teşekkürler!

PS:

Aşağıda ara veri (w 1*/ *suffix) ve komut dosyaları (.R sonek) çeşitli bağımlılıkları kontrol eden temel bir Makefile. Yapmak kullanır zaman kontrol bağımlılıkları, eğer touch ss07por.csv, göreceksiniz ki bu dosya yeni den tüm dosyaları / hedef bağlıdır ve yürütme verilen komut dosyaları için güncelleme onlara göre. Bu hala SQL veritabanı içine koymak için bir adım, ve sweave gibi bir şablon dil için bir adım da dahil olmak üzere devam eden bir çalışma. Onun sözdizimi sekmeleri kullanır, böylece kesmeden önce kullanma kılavuzunu okuyun ve yapıştırma Yapmak unutmayın. Zevk ve geribildirim vermek!

http://www.gnu.org/software/make/manual/html_node/index.html#Top

R=/home/wsprague/R-2.9.2/bin/R

persondata.RData : ImportData.R ../../DATA/ss07por.csv Functions.R
   $R --slave -f ImportData.R

persondata.Munged.RData : MungeData.R persondata.RData Functions.R
      $R --slave -f MungeData.R

report.txt:  TabulateAndGraph.R persondata.Munged.RData Functions.R
      $R --slave -f TabulateAndGraph.R > report.txt

CEVAP
16 EYLÜL 2009, ÇARŞAMBA


Ben genellikle 4 parçaya projelerimi sonu:

  1. yük.R
  2. temiz.R
  3. işlev.R
  4. yapın.R

yük.R: tüm veri yükleme bakım gerekli. Genellikle bu kısa bir dosya, dosya, Url ve/veya ODBC veri okuma. Bu noktada projesine göre çalışma alanı save() kullanarak yazmak ya da sadece bir sonraki adım için bellek şeyleri tutmak ya da ben.

temiz.R: Bu çirkin bir hayat - kayıp değerler ilgilendiğin şeyler, veri iletimi, işleme aykırı birleştirme.

işlev.R: İçeren tüm fonksiyonları gerçek bir analiz yapmak gerekli. **5'ıng bu dosya hiçbir yan etkisi işlevi tanımları yükleme dışında olmalıdır. Bu dosyayı değiştirmek ve uzun bir zaman, büyük veri setleri için çalıştırmak için hangi adımları tekrarlayın 1 ve 2 geri gitmek zorunda kalmadan yeniden anlamına gelir.

yapın.R: fonksiyonları tanımlanmış işlev Çağrıları.R analiz ve grafikler ve tablolar üretmek için.

Bu ayarlamak için ana motivasyon kadar büyük veri ile veri yeniden her zaman sahip olmak istemezsin sayede bir sonraki adım için bir değişiklik yapmak için çalışıyor. Ayrıca, benim kod bu gibi bölümlere tutarak, uzun zamandır unutulmuş bir proje için geri gelip hızlı bir şekilde okumak anlamına gelir.R ve güncelleme için ihtiyacım olan şey çalışmak, ve sonra bak.R uygulandı çalışması.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • 8lacKy

    8lacKy

    30 Mart 2009
  • AmazonWireless

    AmazonWirele

    8 EYLÜL 2010
  • Elliot Davin

    Elliot Davin

    28 Kasım 2008