SORU
7 Ocak 2010, PERŞEMBE


Web kazıma görgü kuralları

Basit bir web kazıma bir uygulama özellikle bu yasakla gibi bir web sitesinden bilgi ayıklamak için yazmayı düşünüyorum.

Bu bilgileri almak için başka alternatifler (örneğin RSS, web hizmeti) için kontrol ettim, ama hiçbiri bu aşamada vardır.

Buna rağmen bir kaç web sitelerine kendimi muhafaza/ve web kazıma iştahla safça/yapılırsa şeyleri diğer kullanıcılar için yavaş ve genellikle bir sıkıntı olabilir bunun farkındayım bu yüzden de geliştirdim.

Yani, ne görgü açısından dahil

  1. Saniyedeki istek sayısı/dakika/saat.
  2. HTTP Kullanıcı Aracısı içerik.
  3. HTTP Başvurmak içerik.
  4. Önbellek ayarları HTTP.
  5. Daha büyük dosyalar için boyut/kaynakları tampon.
  6. Kanunlar ve lisans sorunları.
  7. İyi araçları veya Tasarım kullanma yaklaşımı.
  8. Robots.txt bu web kazıma ve tarayıcıları/örümcekler için geçerlidir?
  9. İstekleri GZip gibi sıkıştırma.

Güncelleme

Bu konuyla ilgili soru Meta bulundu: Etiquette of Screen Scaping StackOverflow. Jeff Atwood cevabı bazı yararlı öneriler vardır.

Diğer ilgili StackOverflow soru:

Options for html scraping

CEVAP
15 Ocak 2010, Cuma


Site için uygun robot.txt bu muhtemelen sitede kimseyle konuşmadan bir anlaşma için gelen en iyi ve en etik yollardan biridir isteği.

Kendine uygun UserAgent başlık olarak tanımlarım. Bunu yaparak, siteyi kim olduğunu ve/kendi sitenin açıkça izin kısıtlayabilir. Koca adamın kullanıcı arayüzleri, örnek bakmak için, Google aşağıda listelenmiştir, ve bir sayfa senin kim olduğunu ve botlar emekleme bilgilendirmek için nasıl açıklayan bir benzer bulmak.

Google-kullanıcı Aracısı dizesi : Googlebot/1.0 (googlebot@googlebot.com * *2)

Sıkıştırma gzip kullanımı site destekler Söndür, bu size zaman kazandırır ve sitenin bant genişliği.

Yasal açıdan hiçbir avukat, ne de hukuk uzmanı olmama rağmen () hizmet robots.txt VE onların şartlarını takip etmelidir senden ok olmalıdır.

Sonunda ise en iyi tavsiye yalnız bir site düşünürsek runrunraygun oldu sanırım. Kabul edilebilir ne yöneticisiyle iletişime geçer ve görmek ve onların isteklerine saygı kadar alırsınız.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Hak5

    Hak5

    7 EYLÜL 2005
  • inovationgmbh

    inovationgmb

    28 EYLÜL 2010
  • ::..ηєѕѕ мιχ..::

    ::..ηєѕѕ

    15 Aralık 2006