Comparison of cluster validation indices with missing data
Publiceringsår
2018
Upphovspersoner
Niemelä, Marko; Äyrämö, Sami; Kärkkäinen, Tommi
Abstrakt
Clustering is an unsupervised machine learning technique, which aims to divide a given set of data into subsets. The number of hidden groups in cluster analysis is not always obvious and, for this purpose, various cluster validation indices have been suggested. Recently some studies reviewing validation indices have been provided, but any experiments against missing data are not yet available. In this paper, performance of ten well-known indices on ten synthetic data sets with various ratios of missing values is measured using squared euclidean and city block distances based clustering. The original indices are modified for a city block distance in a novel way. Experiments illustrate the different degree of stability for the indices with respect to the missing data.
Visa merOrganisationer och upphovspersoner
Publikationstyp
Publikationsform
Artikel
Moderpublikationens typ
Konferens
Artikelstyp
Annan artikel
Målgrupp
VetenskapligKollegialt utvärderad
Kollegialt utvärderadUKM:s publikationstyp
A4 Artikel i en konferenspublikationPublikationskanalens uppgifter
Moderpublikationens namn
Konferens
European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning
Förläggare
Sidor
461-466
ISBN
Publikationsforum
Publikationsforumsnivå
1
Öppen tillgång
Öppen tillgänglighet i förläggarens tjänst
Nej
Parallellsparad
Ja
Övriga uppgifter
Vetenskapsområden
Data- och informationsvetenskap
Nyckelord
[object Object],[object Object]
Publiceringsland
Belgien
Förlagets internationalitet
Internationell
Språk
engelska
Internationell sampublikation
Nej
Sampublikation med ett företag
Nej
Publikationen ingår i undervisnings- och kulturministeriets datainsamling
Ja