Big data analitika sahəsində mühüm nəticə əldə olunub 2020-03-02 16:59:00 / YENİ NƏŞRLƏR

Məlumdur ki, klasterləşmənin keyfiyyəti verilənlərin strukturundan və istifadə olunan klasterləşmə metodlarından birbaşa asılıdır. Bu asılılıq verilənlərin həcmi artdıqca özünü daha qabarıq göstərir. Klasterləşmə metodları verilənlərin həcmindən və strukturundan asılı olaraq müxtəlif nəticələr verir. Ona görə də klasterləşdirmə zamanı səmərəliliyi, keyfiyyəti və nəticənin stabilliyini təmin etmək üçün son zamanlar metodlar ansamblından geniş istifadə olunur. Bu zaman ən çətin problemlərdən biri klasterləşmənin keyfiyyətini qiymətləndirmək üçün faydalılıq funksiyasının təyin edilməsidir.

Faydalılıq funksiyasının təyini birbaşa verilənlər çoxluğundan, həmçinin ansambla daxil olan metodların seçilməsindən və onların ansambldakı çəkisindən asılıdır. Təklif olunan yanaşmada iki hala baxılır: 1) əgər verilənlər çoxluğuna daxil olan hər bir obyektin sinfi əvvəlcədən məlumdursa, onda faydalılıq funksiyası kimi Təmizlik (Purity); 2) əgər verilənlər çoxluğuna daxil olan obyektlərin sinfi əvvəlcədən məlum deyilsə, onda faydalılıq funksiyası kimi Devis-Boldin (Davies-Bouldin) indeksi seçilir. Metodun əsas üstünlüklərindən biri odur ki, ansambla daxil olan metodların çəkisi ekspert müdaxiləsi olmadan konsensus əsasında təyin edilir. Çəkilərin bu cür təyini metodun obyektivliyini tam təmin etmiş olur. Təklif olunan çəkili konsensus klasterləşdirmə yanaşması optimallaşdırma məsələsi kimi modelləşdirilmiş və onun həll alqoritmi R dilində proqramlaşdırılmışdır.

“Weighted consensus clustering and its application to Big data” (“Çəkili konsensus klasterləşmə və onun Big data-ya tətbiqi”, doi.org/10.1016/j.eswa.2020.113294) adlı məqalədə metodun qiymətləndirilməsi müxtəlif aspektlərdən aparılmışdır. Metodun effektivliyinin verilənlər çoxluğundan asılılığını öyrənmək üçün müxtəlif ölçülü (kiçik, orta və böyük) verilənlər çoxluğu üzərində eksperimentlər aparılmışdır. Eksperimentin nəticələri göstərmişdir ki, çəkili konsensus klasterləşdirmə metodu ansambla daxil olan metodlara nəzərən yaxşı nəticə göstərir.

Məlumdur ki, klasterləşmənin nəticəsinə təsir edən əsas amillərdən biri də metrikanın seçilməsidir. Bu məqsədlə məqalədə müxtəlif – Evklid, kosinus, kvadratik Evklid, Minkovski (p=3 və p=4) və Çebışev metrikalarından istifadə olunmuşdur. Eksperimentin nəticələri təsdiq etmişdir ki, kvadratik Evklid məsafəsi digər metrikalara nəzərən həm klasterləşmənin keyfiyyəti, həm də nəticələrin stabilliyi baxımından daha yaxşı nəticə nümayiş etdirir. Eksperimentin nəticələri göstərir ki, təklif olunan metod böyük ölçülü verilənlərin analizi sahəsində geniş perspektivlərə malikdir.

Məqalə kompüter elmləri sahəsində çox nüfuzlu hesab olunan “Expert Systems with Applications” jurnalında çap olunub. İmpakt faktoru 4.292-yə bərabər olan jurnal həm “Web of Science”, həm də “Scopus” bazasında Q1 sinfinə daxildir.

Bu iş Azərbaycan Respublikasının Prezidenti yanında Elmin İnkişafı Fondunun maliyyə yardımı ilə yerinə yetirilib. (Qrant № EİF-KETPL-2-2015-1(25)-56/05/1)

Məqalənin müəllifləri AMEA-nın vitse-prezidenti, İnformasiya Texnologiyaları İnstitutunun direktoru, akademik Rasim Əliquliyev, şöbə müdiri, AMEA-nın müxbir üzvü, texnika elmləri doktoru Ramiz Alıquliyev və böyük elmi işçisi, texnika üzrə fəlsəfə doktoru, dosent Lyudmila Suxostatdır.

    Copyright © AMEA İnformasiya Texnologiyaları İnstitutu, 2020