SORU
11 Kasım 2009, ÇARŞAMBA


Botlar ayrı istatistikler için insan ziyaretçilerden söyle?

Kendi basit web istatistikleri senaryomu rulo için sabırsızlanıyorum.

Yolda önündeki en büyük engel, görebildiğim kadarıyla, botlar dışında insan ziyaretçiler söylüyor. Düzenli olarak sürdürmek gerek yok ki bunun için bir çözüm (yani ben bot ile ilgili Kullanıcı ajanlar ile metin dosyaları update etmek istemiyorum) istiyorum.

Gibi Akismet spam için herhangi bir açık servis var mı? Ya örümcekler ve botlar tanıma adamıştır ve Sık güncellemeler sağlayan bir PHP proje var mı?

Netleştirmek için:Botları engellemek için aramıyorum.100% su geçirmez sonuçları ihtiyacım yok. Ben sadece ben mümkün olduğunca çok sayıda kişiliğim dışında tutmak istiyorum. İçinde bu ayrıştırma kullanıcı Aracısı olduğunu biliyorum seçenek ama kalıpları üretmekteyiz ayrıştırmak için bir sürü iş. Benim herhangi bir soru olup olmadığını ... proje yoksa bu mu hizmet zaten.

Ödül:Konuyla ilgili referans bir soru olarak destek olurum diye düşündüm. En orijinal teknik açıdan en uygun en iyi / / katkı ödül miktarı alacak.

CEVAP
21 Aralık 2010, Salı


İnsanlar ve botlar benzer şeyler yapar, ama botlar insanlar olmayan şeyler yapacağız. Hadi o şeyleri tespit etmeye çalışın. Davranış bakmadan önce, faydalı olmak gibi RayQuang's yorum kabul edelim. Eğer bir ziyaretçi bir bot user-agent string varsa, muhtemelen bir bot. Birileri "bir şeyler yıkmaya çalıştıkları sürece" (veya benzeri) bir UA olarak. Google Tarayıcısı ile görüntü alamıyorum Bir listesini el ile güncelleştirmek için istemediğini biliyorum, ama iyi olmalı, ve eğer önümüzdeki 10 yıl için bayat kalırsa bile otomatik çekerek, yararlı olacaktır.

Bazıları zaten Javascript ve resim yükleme bahsetmiş, ama Google her ikisini de yapar. Şimdi de yapacak birkaç botlar vardır herhalde, o artık insan göstergeleridir. Botlar hala benzersiz olarak ne yapacak, ancak, bir "" bağlantı. görünmez izleyin. Bir kullanıcı olarak göremiyorum bu çok sinsi bir şekilde bir sayfaya bağlantı. Eğer takip olursa, bir bot var.

Botlar genellikle ama her zaman değil, robots.txt saygı gösterecektir. Kullanıcılar robots.txt ve muhtemelen herkes robots.txt alınıyor bir bot olduğunu varsayabiliriz umurunda değil. Bir adım daha ileri olsa da, gidip robots.txt tarafından dışlanan bizim sayfaları boş bir CSS sayfası ile bağ kurabiliriz. Bizim normal CSS yüklenir ama bizim kukla CSS değil, kesinlikle bir bot. (Muhtemelen bir bellek içi) IP ve bir maçta yer değildir yükleri tablo inşa etmek gerekir, ama bu gerçekten sağlam bir söyle olmalıdır.

Bu yüzden, tüm bu kullanmak için: muhtemelen zaman damgası sınırlamalar ile ıp adresine göre botların korumak veritabanı bir tablo. Görünmez link şöyle bir şey eklemek yükleyen bir şey eklemek "" CSS ama yok sayıyor robots.txt CSS. gerçek Belki robots.txt de indirenler tüm ekleyin. Son adım olarak kullanıcı Aracısı dizesi filtresi, ve bu istatistikleri hızlı bir şekilde bir analiz yapmak ve bu yöntemleri botlar olduğunu bildiğimiz şeyleri tanımlamak için çalışmak nasıl görüneceğini görmek için kullanmayı düşünün.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • Cole Rolland

    Cole Rolland

    23 Kasım 2008
  • DJPixcell

    DJPixcell

    20 NİSAN 2007
  • LG Mobile Global

    LG Mobile Gl

    2 EYLÜL 2010