A PSO-Based Document Classification Algorithm accelerated by the CUDA Platform

“A PSO-Based Document Classification Algorithm accelerated by the CUDA Platform” başlıklı çalışma Jan Platos, Vaclav Snasel, Tomas Jezowicz, Pavel Kromer ve Ajith Abraham tarafından hazırlanmış olup 14-17 Ekim 2012 tarihleri arasında Güney Kore’nin başkenti Seul’de düzenlenmiş olan “2012 IEEE International Conference on Systems, Man, and Cybernetics” isimli konferansta sunulmuştur.

Dokümanların belirlenmiş etiket ve kategorilere göre sınıflandırılması bilinen bir problemdir. Bu problemi çözmek için çeşitli algoritmalar önerilmiştir. Klasik yöntemlerin doküman sayısının artmasıyla bağlantılı olarak çözüm süresini uzatması sonucu sezgisel yöntemlerle bu probleme çözümler üretilmiştir. Doküman sayısının çok büyük olduğu durumlarda bu çözümünde süre olarak verimsiz olmasından dolayı GPU ile CUDA platformu kullanarak bir hızlandırma işlemi yapılmıştır.

Doküman sınıflandırma bilgi alma ve kişiselleştirilmiş öneri sistemleri gibi alanlara da uyarlanabilir.

Doküman Sınıflandırma Nedir?

Bir doküman birden fazla kategoriye ait olabilir. Bir kategoride birden çok doküman bulunabilir.

Evrimsel bir algoritmada ana görev fitness fonksiyonunu belirlemektir. Doküman sınıflandırmada ölçüm yapmak için hassasiyet(precision) ve geri çağırma(recall) metrikleri kullanılır.

pr-re

TP (true positive): Doğru tasnif edilmiş doküman sayısı
FP (false positives): Yanlış tasnif edilmiş doküman sayısı
FN (false negatives): Yanlışlıkla tasnif edilememiş doküman sayısı

Amaç fonksiyonu yukarıdaki şekilde oluşturulur. Bu amaç fonksiyonu tek bir kategori için iyi çalışırken birden çok kategori için iyi çalışmamaktadır. Dolayısıyla precision ve recall değerlerinin ortalamasını alma yaklaşımı kullanılmıştır. Temelde iki ortalama yaklaşımı bulunmaktadır, Mikro ve Makro Ortalama ile nasıl hesaplama yapıldığını öğrenmek için tıklayınız..

Çalışmada doküman sayısı küçük olduğu zaman makro ortalama, büyük olduğu zaman mikro ortalama kullanılmıştır.

Çalışmada paralelleştirme süreci ile ilgili 2 farklı varyant/versiyon/yaklaşım önerilmiştir.

1.Yaklaşım:
variant1

m kategorileri n dökümanları işaret etmektedir. Her kernel k kadar karşılaştırma yapmaktadır. Bu da (MxN)/k kadar thread’in işlem yapması gerekliliği demektir.

2.Yaklaşım:
variant2

Her bir thread benzerlik vektöründeki bir elemanla karşılaştırılmaktadır. Her blokta d kadar thread çalıştırılır. MxN adet blok gerekmektedir. Bu yaklaşımda geçici benzerlik vektörü shared memory’de tutulmakta böylelikle hız kazanımı elde edilmektedir.

Çalışmada shared memory ile önerilen modelin daha yavaş çalıştığı açıklanmıştır.

Çalışmada literatürde bilinen 3 doküman sınıflandırma veri seti kullanılmıştır. Bunlar;
Reuters-21578 : http://www.daviddlewis.com/resources/testcollections/reuters21578/
Iris : http://archive.ics.uci.edu/ml/datasets/Iris
20 Newsgroup: http://people.csail.mit.edu/jrennie/20Newsgroups/

İlk ikisinde literatürdeki çalışmalarla kıyaslanabilecek sonuçlar üretilsede üçüncü set için iyi bir sonuç elde edilememiştir.

İndirmek için:
A_PSO-Based_Document_Classification_Algorithm_accelerated_by_the_CUDA_Platform

ASKON Konya’da MEVKA TeknoGirişim Girişimci-Yatırımcı Buluşmaları’na katıldım

ASKON Konya’nın MEVKA TeknoGirişim Girişimci-Yatırımcı Buluşmaları kapsamında 23 Ağustos 2023 Çarşamba günü ASKON Konya şubesinde>>>

24
Ağu

Matlab’da matrisin tüm elemanlarını belirli bir sayıdan nasıl çıkarırız?

Elimizde doğruluk oranlarının olduğu bir k matrisi olduğu varsayalım, bu matris içerisindeki tüm değerleri 1>>>

22
Şub

Matlab’ta iç içe döngüyle matris gezerek istediğimiz veriyi nasıl buluruz?

Başlık tam ifade eder mi bilmiyorum ama benim ihtiyacım olan şey 10 sütun, 1593 satıra>>>

20
Şub

A Review on Deep Learning-Based Methods Developed for Lung Cancer Diagnosis

Yüksek Lisans öğrencilerimden Türkan Beyza KARA’nın sunmuş olduğu “A Review on Deep Learning-Based Methods Developed>>>

09
Oca

İlk yabancı yazarlı ortak makalem yayınlandı

Birbirimizi hiç görmeden ve sesli olarak da hiç konuşmadan e-posta üzerinden tanışıp ortak bir çalışma>>>

4 Comments

21
Eki

Konya’da göz lazer ameliyatı oldum

25 yıldır takmakta olduğum ve kendisinden ayrılırken 6,5 numara olan gözlüğüme Konya’da göz lazer ameliyatımı>>>

21
Ağu

Tek kelimeyle beni nasıl tanımladılar?

YouTube üzerinden yapmış olduğum bir yoruma gelen yanıtta “…dürüst olun…” içeriğini görünce aklıma geçtiğimiz günlerde>>>

3 Comments

02
Ağu

Konya Akıllı Şehir HACKATHON’unda 3.olduk

Kısaca daha önceki yazımda bahsettiğim Konya Akıllı Şehir HACKATHON’unda 3.olduk. Selçuk Üniversitesi Teknoloji Fakültesi Bilgisayar>>>

1 Comment

29
May

Sentius ekibi olarak, Akıllı Şehir HACKATHON’una katıldık

Konya Akıllı Şehir HACKATHON’unda 3.olduk Konya Bilim Merkezi ile GDG Konya’nın düzenlediği Akıllı Şehir HACKATHON’una>>>

1 Comment

29
May

BİLMÖK 2022 için yazılmış gecikmiş bir yazı :)

Türkiye’nin en büyük öğrenci kongresi BİLMÖK 21-23 Mayıs 2022 günlerinde Konya’da Konya Teknik Üniversitesi’nin organizasyonuyla>>>

24
May

Genç Bakış Gazetesi’nden Beyzanur Polat’ın yaptığı haber…

Genç Bakış Gazetesi’nden Beyzanur Polat’ın yaptığı haber…>>>

22
Kas

Binary Sooty Tern Optimization Algorithms for solving Wind Turbine Placement Problem

Binary Sooty Tern Optimization Algorithms for solving Wind Turbine Placement Problem İndirmek için tıklayınız.>>>

10
Eyl

Konya Model Fabrika’yı Ziyaretim ve Konya Dijital Dönüşüm

“konya dijital dönüşüm” kelimesini Google üzerinden arattığım zaman Konya Model Fabrika‘yı keşfettim. 5 Ağustos 2021>>>

06
Ağu

Otomatlar, Biçimsel Diller ve Turing Makineleri – Dr. Emre Sermutlu – Cinius Yayınları

2020-2021 bahar yarıyılında Otomata Teorisi ve Biçimsel Diller dersini verirken kullanmam için Selçuk Üniversitesi Teknoloji>>>

21
Mar

4-6 MART 2021 ÇEVRİMİÇİ TÜBİTAK-2237-B PROJE EĞİTİMİ ETKİNLİĞİ KTÜ – TRABZON

Alanında dünyada öncü Prof. Dr. Yener EYÜBOĞLU, Prof. Dr. Asım KADIOĞLU, Prof. Dr. Nurettin YAYLI,>>>

06
Mar

ARDEB 1001 – 2020 Sonuçlarını Değerlendirme ve Yenilikler Toplantısı

>>>

19
Şub

2021 yılı içerisinde değerlendirilebilecek konferanslar

GLOBAL CONFERENCE on ENGINEERING RESEARCH online 2-5 June 2021 Abstract or Full Paper Submission: 2>>>

08
Şub

Sayfamda paylaştığım bütün Karikatürler silinmiştir

İsimsiz bir uyarı yorumuyla araştırdığım vakit gördüm ki bazı karikatüristler blog sayfalarında karikatür paylaşanlara dava>>>

23
Oca

MATLAB – Error: Functions cannot be indexed using {} or . indexing.

data = get(z9).OutputData{1}; satırında aşağıdaki şekilde hata vermekteydi. Error: Functions cannot be indexed using {}>>>

16
Oca

“ERASMUS+ Yüksek Öğretim” konulu seminer notları

“ERASMUS + Yüksek Öğretim” konulu seminer notları Dr. Öğretim Üyesi Kemal TÜTÜNCÜ hocam tarafından sunulan>>>

01
Oca

Genel, Makale İncelemeleri