SORU
1 HAZİRAN 2009, PAZARTESİ


Bir kullanıcı metin yapısına bağlı'In ruh halini tahmin etmek mümkün mü?

Doğal dil işlemci metnin kendisini ayrıştırmak için kullanılan olması gerekir diye düşünüyorum ama önerileriniz yazılmış olan metin tabanlı bir kullanıcının ruh algılamak için bir algoritma var? Çok doğru olacağını sanmıyorum, ama yine de ilgilenen yine benim.

EDİT: hiçbir şekilde dilbilim ve doğal dil konusunda eğer bu soru çok genel ya da aptal değilse özür dilerim işleme, iyiyim.

CEVAP
6 HAZİRAN 2009, CUMARTESİ


Bu doğal dil, alan işleme sentiment analysis adlı temelidir. Sorunuza genel olsa da, kesinlikle aptal - araştırma bu tür ürün yorumları metni üzerinde Amazon tarafından yapılır örnek için değil.

Eğer bu konuda ciddi iseniz, o zaman basit bir sürümü ile elde edilebilir

  1. Olumlu/olumsuz duygu bir corpus almak. Eğer bu bir profesyonel proje biraz zaman alabilir ve el ile bir açıklama corpus kendini, ama eğer acele ya da sadece istediği için bu deney ilk başta ederim önermek bakıyor sentiment polarity corpus Bo Pang ve Lilian Lee'nin araştırma. Bu corpus kullanarak sorunu alanınız uygun değil (özellikle corpus film yorumları kullanır), ama hala geçerli olmalıdır.

  2. Cümleler Olumlu ya da Olumsuz halinde veri kümesi böl. Duygu polarite corpus için bileşik cümle içine her Gözden bölünmüş olabilir ve genel duyguları kutup etiketi (olumlu ya da olumsuz) bu cümle herkes için geçerli. İki parçaya bölünmüş bu corpus 'ı eğitim, 'u test edilmesi için olmalıdır. Eğer Weka kullanıyorsanız sizin için corpus bölme işleyebilir.

  3. Bir makine öğrenme algoritması uygulamak(SVM, Naive Bayes, Maksimum Entropi gibi) eğitim kelime düzeyinde corpus. Bu model oluşmakta olan sadece kelime olarak cümle temsil eden bag of words model denir. Bu birçok spam filtreleri kaçak olan aynı model. Makine öğrenme algoritmaları için güzel bir giriş için bu algoritmalar bir dizi uygular ve onlarla oynamak için bir GUI sağlayan bir uygulama Weka denir. O zaman bu hataları, bu model ile test corpus sınıflandırmak için çalışırken yapılan makine öğrenilen modelin performansı test edebilirsiniz.

  4. Bu makine kullanıcı yazılarınız için öğrenme algoritması uygulamak. Her kullanıcı sonrası için, cümleler halinde ayrı yazı ve makine öğrendi modeli kullanarak sınıflandırır.

Eğer bu konuda ciddi iseniz yani evet, o zaman başarılabilir bile hesaplamalı dilbilim geçmiş deneyimi olmadan. İş adil bir miktar olabilir, ama kelime bazlı modeller bile iyi sonuçlar elde edilebilir.

Eğer daha fazla yardım için benimle temas kurmaktan çekinmeyin ihtiyacınız varsa, her zaman Diğerleri = NLP] ilgilenen yardım etmekten mutluluk duyarım

< / ^ hr .

Küçük Notlar-

  1. Sadece cümle halinde kısa bir segment bölme NLP - sentence boundary detection denilen bir alan. Bir dizi araç, bunu yapmak için ÖSS veya ücretsiz var, ama görev için boşluklar ve noktalama basit bir bölme iyi olmalı.
  2. SVMlight ayrıca başka bir makine öğrenci düşünün, ve aslında onların indüktif SVM mu benzer bir görev için neyle karşı karşıya olduğumuzu etmeye çalışıyorum sınıflandırmak hangi Reuter makaleler hakkında "kurumsal satın almalar" ile 1000 1000 olumlu ve olumsuz örnekler.
  3. Özellikleri içine cümle içinde sınıflandırmak için dönüm bazı iş alabilir. Bu modelde her kelime bir özelliktir - bu birbirinden kelimeler ve noktalama ayıran anlamına gelen bu cümle, tokenizing gerektirir. Başka bir ipucu "sen" ve "" aynı kabul olmuyor. SENDEN nefret ediyorum NEFRET ediyorum bu yüzden hepsi ayrı word simgeleri küçük. Daha fazla veri ile deneyin ve aynı zamanda birisi kızgın olup olmadığını sınıflandırma olsun aktifleştirme yardımcı içerebilir, ama kelime en azından ilk bir çaba için yeterli olması gerektiğine inanıyorum.

< / ^ hr .

Edit

Ben sadece aslında bir tutorial on sentiment analysis Bo Pang kullanarak ve Lillian Lee Duygu Polarite corpus bahsettiğim LingPipe keşfetti. Eğer Java kullanıyorsanız, bu kullanmak için mükemmel bir araç olabilir, ve tüm adımları geçiyor bile yukarıda tartıştık.

Bunu Paylaş:
  • Google+
  • E-Posta
Etiketler:

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

  • guillaume2111's channel

    guillaume211

    19 Kasım 2006
  • hanksranger

    hanksranger

    6 EKİM 2009
  • ICON

    ICON

    19 EKİM 2011