SORU
26 NİSAN 2010, PAZARTESİ


R ve sürüm solo veri analisti için kontrol

Saygı duyuyorum sürümü kullanan birçok veri analistleri kontrol. Örneğin:

Ancak, git gibi sürüm kontrol sistemi benimseyen faydalı olacağını değerlendiriyorum.

Kısa bir genel bakış: R araştırma yayınlar için verileri analiz etmek için kullanan sosyal bir bilim adamıyım. Şu anda Ar paketleri üretmek istemiyorum. Bir proje için Ar kodumu genellikle veri giriş, temizlik, manipülasyon, analiz ve çıktı üretimi için kodu bir kaç bin satır içerir. Yayınlar genellikle LaTeX kullanılarak yazılır.

Kontrol var sürümü ile ilgili olarak ilgili okuduğum pek çok faydaları, henüz solo veri analisti için daha az ilgili gibi görünüyor.

  • Yedekleme:Zaten bir yerde bir yedekleme sistemi var.
  • Çatallaşma ve geri alma:Asla bunu yapmak için ihtiyacı hissettim ama yararlı olabilir (örneğin, birden fazla hazırlanıyor görebiliyorum dergi makaleleri aynı veri kümesine dayalı olarak; bir rapor hazırlanıyor aylık, vs.) güncellenir
  • İşbirliği:Ben en kendimi analiz etmek, böylece, veri işbirliği olmaz sürüm faydaları kontrol.

Aynı zamanda birçok potansiyel maliyetleri benimseyen sürüm kontrolü ile ilgilidir

  • Zaman ve sürüm kontrol sistemi değerlendirmek öğrenmek için
  • Geçerli dosya yönetim sistemi içinde karmaşıklığı olası bir artış

Ancak, ben hala bir şeyi kaçırıyormuşum gibi hissediyorum. Sürüm kontrol genel kılavuzları bilgisayar bilimcileri karşı daha fazla veri analistleri daha ele alınması gibi görünüyor.

Bu nedenle, özellikleveri analistleri ilgilikoşullar yukarıda listelenen benzer:

  1. Zahmete değer bir sürüm kontrol edilir?
  2. Sürüm kontrol benimseyerek ana artıları ve eksileri nelerdir?
  3. Sürüm kontrolü ile başlamak için iyi bir strateji nedir R (örneğin, örnekleri, iş fikirleri, yazılım, kılavuz bağlantılar) ile veri analizi?

CEVAP
26 NİSAN 2010, PAZARTESİ


Sorunun cevabı kocaman bir Evet - dosyalarınızı yönetmenin avantajları kontrol sistemi şimdiye kadar böyle bir sistem uygulama maliyeti daha ağır bir versiyonu olduğunu düşünüyorum.

Futbol oynamak için bazı noktaları detaylı olarak yanıt vermeye çalışacağım:

  • Yedekleme:Zaten bir yerde bir yedekleme sistemi var.

Evet, Ben de Ancak, genel amaçlı bir yedekleme sistemi üzerinde yeterince önemli ve etkin dosyaları işle ilgili parça güvenerek uygunluğu ile ilgili dikkate alınması gereken bazı sorular var. Performans tarafında:

  • Ne aralıklarla yedekleme sistemi anlık sürer?
  • Ne kadar bir anlık görüntü oluşturmak için sürer?
  • Bir anlık çekerken tüm sabit disk görüntü var mı, ya da kolayca sadece kritik güncelleştirmeleri alınan iki dosyaları yedeklemek için söylemiş olabilir mi?
  • Yedekleme sistemi bir sonraki için bir yedek metin dosyalarında ne değişti doğruluğu tespit ile gösteri olabilir?

Ve en önemlisi:

  • Kaç konumları yedekleri kaydedilir? Bilgisayarınızda aynı fiziksel konumda?
  • Ne kadar kolay yedekleme sistemi, tek bir dosyanın belirli bir sürümünü geri yüklemek için mi?

Örneğin, bir Mac var ve benim bilgisayarda başka bir sabit disk yedekleme için Time Machine kullanın. Zaman Makinesi tek dosya kurtarmak ya işler sarpa sardı eğer ben sistemi geri yüklemek için harika. Ancak bu sadece benim önemli çalışma ile güvenilir olmak için gerekenlere sahip değil:

  • Yedekleme sırasında, Zaman Makinesi, resim için zaman önemli miktarda alır tüm sabit diski var. Eğer çalışmaya devam edersem, benim dosya yedekleme başlattığım zaman oldu bu durumda çekilecek garantisi yok. Ben de ilk yedekleme tamamlanmadan önce kurtarmak istiyorum başka bir noktaya ulaşabilir.

  • Hangi Time Machine yedeklerim kaydedilir sabit disk benim makine bu benim veri hırsızlığı, yangın ve diğer afetlere karşı savunmasız yapar yer almaktadır.

Gıt gibi versiyon kontrol sistemi ile, bir kayıt editörü ve dosya yansıması ve depolanan bir metin anında talep daha fazla çaba ile belirli dosyaları bir yedekleme başlatmak edebilirim. Ayrıca, Git deposu dolu bir kopyası var çalıştığım her bilgisayar dağıtılır.

Bu benim iş Tanrı'nın işi bilgisayar - kısa bir şey farklı dört noktada muhtemelen zaten çok umursamazdı dosyaları ve benim verileri yok edebilir yansıtılmış arasında olması için tutarlar.

  • Çatallaşma ve geri alma:Hiç gerek bunu yapmak için, ama görüyorum nasıl yararlı olabileceğini (örneğin, hazırlama birden fazla dergi makaleleri dayanarak aynı veri kümesi, rapor hazırlama bu güncelleştirilmiş aylık, vs)

Bir solist olarak, o kadar da çatal bilmiyorum. Ancak, geri sarma seçeneği alarak kurtardım zaman tek başına bir sürüm kontrol sistemi bir çok defa öğrenmeye yatırımımı geri ödedi. Hiç bu - ama mevcut yedekleme sistemi altında herhangi bir dosya gerçekten acısız, uygun bir seçenek oldu geri sarma var? yapma ihtiyacı hissettim.

Bazen rapor sadece 45 dakika, bir saat ya da iki gün önce baktım.

  • İşbirliği:Ben en kendimi analiz etmek, böylece, veri işbirliği olmaz sürüm faydaları kontrol.

Evet, ama eğer bir proje üzerinde başkaları ile işbirliği sonunda eğer vazgeçilmez olabileceği bir araç öğrenmek istiyorum.

  • Zaman ve sürüm kontrol sistemi değerlendirmek öğrenmek için

Çok fazla bu konuda endişelenmeyin. Sürüm kontrol sistemleri dillerinin öğrenilmesi gereken birkaç temel kavram var ve gerisi sadece şeker sözdizimsel programlama gibi. Temel olarak, öğrendiğiniz ilk sürüm kontrol sistemi sadece yeni sistemin temel kavramları ifade eder öğrenmek istediği yatırım gerektirir.

Popüler bir sistem almak ve bunun için gitmek!

  • Geçerli dosya yönetim sistemi içinde karmaşıklığı olası bir artış

Tüm dosya ve klasörleri veri analizi faaliyetleri ile ilgili içeren bir klasör, söyle Projects var mı? Eğer öyleyse o zaman üzerinde tokat sürüm kontrolü 0 tam dosya sistemi karmaşıklığı da artacaktır. Projelerinizi sürüm kontrol uygulamadan önce bunları merkezileştirmek gerekir o zaman Bilgisayar hakkında mayınları ve bu sona erecekazalansenin tüm bunlardan sonra Documents bir klasör var dosyaları yönetmek karmaşıklığı.

  1. Zahmete değer bir sürüm kontrol edilir?

Evet! Geri Al büyük bir düğme verir ve kolayca USB sürücü gibi şeyleri kaybetme endişesi olmadan makine için makine iş aktarımı sağlar.

2 ana artılarını ve eksilerini benimseyen sürüm kontrol edilir?

Aklıma gelen tek con boyutu - ama modern versiyon kontrol sistemleri sıkıştırma ve seçici tasarrufu ile kesinlikle harika şeyler yapabilir dosyasında hafif bir artış olduğunu, bu oldukça tartışmalı bir nokta yani.

3 R (örneğin, örnekleri, iş fikirleri, yazılım, kılavuz bağlantılar) ile veri analizi için sürüm kontrol ile başlamak için iyi bir strateji Nedir?

Sürüm denetimi altında veri ve raporlar oluşturmak, seçici olun bu dosyaları tutmak. Sweave, mağaza gibi bir şey .Rnw dosyaları ve .tex dosyaları kullanmıyorsanız onlardan üretti. Eğer yeniden kazanmak için bir ağrı olur Eğer ham veri deposu. Mümkünse, ve veri kazandığı bir senaryo ve ya ham veri üzerinde yapılan değişiklikleri saklamak yerine temizler değiştiren bir yazma mağaza.

Sürüm kontrol sistemi öğrenme için oldukça Gıt tavsiye ve bunun için this guide.

Bu web siteleri de bazı güzel ipuçları ve püf noktaları Gıt ile belirli eylemleri ile ilgili:

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Andytokkallos

    Andytokkallo

    27 Kasım 2007
  • Matthew Morrill

    Matthew Morr

    15 EKİM 2011
  • William Sledd

    William Sled

    24 EYLÜL 2006