Türk dili için çoklu sınıflandırıcı yöntemler ile duygu sınıflandırma
Abstract
Duygu analizi, doğal dil işleme yöntemlerinin kullanılarak kaynaklarda yer alan ham veriden kişisel bilgi ve çıkarımların elde edilmesidir.Kullanıcı yorumları; ticari, sosyal, siyasi analizler ve metin madenciliği için çok değerli bir kaynaktır. Duygu analizinin araştırma ve inceleme alanına giren konulara; tüketici yorumları, kitap yorumları, sosyal medya analizi, siyasi araştırmalar, haber yorumları, film değerlendirmeleri ve borsa tahminleri örnek olarak verilebilir. Son zamanlarda internet ve sosyal medya kullanımının artması, kişisel değerlendirmeleri önemli bir konuma getirdi. Internet kullanımının ticarete etkisi, marka-tüketici ilişkisini de önemli ölçüde değiştirdi. Olumlu ve olumsuz deneyimler artık marka ile tüketici arasında kalmıyor, sosyal çevreye hızla yayılıyor. Bu verinin analizi ve değerlendirilmesi, gerek birey gerekse şirketler için gittikçe daha fazla önemli kazançlar sunmaya başladı. Bu alanda genel olarak İngilizce için çeşitli çalışmalar literatürde mevcuttur. Bu konu, Türk dili için henüz derinlemesine incelenmemiş ve yeterli sayıda araştırmanın yapılmadığı bir konudur. Yapılan literatür taramasında, Türk dili için gerçekleştirilen sadece iki çalışmaya ulaşabildik. İlk çalışma, sadece bir alan üzerine yoğunlaşıp, tek tipte veri seti üzerinde sadece belirli tipte bir makine öğrenmesi algoritması kullanmıştır. İkinci çalışmada ise üç farklı veri seti üzerinde birden fazla makine öğrenmesi tek tek denenmiş ve Naive Bayes isimli makine öğrenmesi yöntemi ile yaklaşık olarak % 85 doğruluk oranı elde edilmiştir. Bu tez çalışması kapsamında, Türk dili için farklı veri kümeleri üzerinde çoklu sınıflandırıcı makine öğrenmesi algoritmaları uygulanmıştır. Daha önce uygulanan çalışmalardan farklı olarak, performansı yüksek üç tane makine öğrenmesi algoritması birlikte kullanılarak özgün bir çoklu sınıflandırıcı makine öğrenmesi algoritması tasarlanmıştır. Bu özgün sınıflandırıcı yaklaşımının yanı sıra, makine öğrenmesi algoritmalarının parametre optimizasyonu gerçekleştirilerek performans arttırılmıştır. Bu yeni yaklaşım sayesinde, daha önce tek sınıflandırıcı ile elde edilen doğruluk oranı % 86,13?lük bir doğruluk oranına yükseltilmiştir. Bu doğruluk oranı, yeni yaklaşımın performansı iyileştirdiğini ve birçok çalışmada kullanılabileceğini ortaya koymuştur. Anahtar Kelimeler: Duygu Sınıflandırma, Türkçe, Naive Bayes, Karar Destek Makineleri, Karar Ağacı, Çoklu Sınıflandırıcı Sistemler, Parametre Optimizasyonu, Makine Öğrenmesi, Doğal Dil ??leme, Veri Madenciliği, Weka