“Otomatik Doküman Sınıflandırma” başlıklı çalışma Rumeysa Yılmaz, Rıfat Aşlıyan ve Korhan Günel tarafından 1-3 Şubat 2012 günü XIV. Akademik Bilişim Konferansı’nda bildiri olarak sunulmuştur.

Doküman sınıflandırmanın amacı bir dokümanın özelliklerine bakarak önceden belirlenmiş belli sayıdaki kategorilerden hangisine dâhil olacağını belirlemektir.

Döküman Sınıflandırmanın Genel Yapısı:
dokuman-siniflandirmanin-genel-yapisi

Metin dokümanları oldukça fazla sözcük içerirler. Bazı sözcükler vardır ki bunların bütün dokümanlardaki frekansı oldukça yüksektir. Bunlara Türkçede çok sık kullanılan; “gibi”, “ise”,
“yani”, “veya”, “ama”, “ne”, “neden”, “şey”, “hiç” sözcükleri örnek verilebilir. Bundan dolayı bu sözcükler ayırt edici özelliğe sahip değillerdir ve bu sözcükler dokümanlardan elenir. Eleme işlemi indeksleme işlemi olarak adlandırılır ve bunu takip eden adımlardan oluşur.

Önişleme safhasında dokümanlardaki boşluk, rakam ve noktalama işareti gibi herhangi bir anlam ifade etmeyen karakterler elenir, büyük harfler küçük harflere dönüştürülerek temizlenmiş doküman haline getirilir. Dokümanlardaki sözcükler, RASAT heceleme algoritmasıyla hecelere ayrılır. Dokümanlardaki sözcüklerin ve hecelerin frekansları 0 ile 1 arasında normalize edildikten
sonra her sınıf için oluşturulmuş olan öznitelik vektör veritabanındaki sözcükler ve hecelerle karşılaştırılarak dokümanın sınıfı belirlenir.

İndirmek için:
Otomatik_Dokuman_Siniflandirma

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir