Improving Scalable K-Means++
Publiceringsår
2021
Upphovspersoner
Hämäläinen, Joonas; Kärkkäinen, Tommi; Rossi, Tuomo
Abstrakt
Two new initialization methods for K-means clustering are proposed. Both proposals are based on applying a divide-and-conquer approach for the K-means‖ type of an initialization strategy. The second proposal also uses multiple lower-dimensional subspaces produced by the random projection method for the initialization. The proposed methods are scalable and can be run in parallel, which make them suitable for initializing large-scale problems. In the experiments, comparison of the proposed methods to the K-means++ and K-means‖ methods is conducted using an extensive set of reference and synthetic large-scale datasets. Concerning the latter, a novel high-dimensional clustering data generation algorithm is given. The experiments show that the proposed methods compare favorably to the state-of-the-art by improving clustering accuracy and the speed of convergence. We also observe that the currently most popular K-means++ initialization behaves like the random one in the very high-dimensional cases
Visa merOrganisationer och upphovspersoner
Publikationstyp
Publikationsform
Artikel
Moderpublikationens typ
Tidning
Artikelstyp
En originalartikel
Målgrupp
VetenskapligKollegialt utvärderad
Kollegialt utvärderadUKM:s publikationstyp
A1 Originalartikel i en vetenskaplig tidskriftPublikationskanalens uppgifter
Journal
Förläggare
Volym
14
Nummer
1
Artikelnummer
6
ISSN
Publikationsforum
Publikationsforumsnivå
1
Öppen tillgång
Öppen tillgänglighet i förläggarens tjänst
Ja
Öppen tillgång till publikationskanalen
Helt öppen publikationskanal
Parallellsparad
Ja
Publiceringsavgift för öppen tillgång €
829
Betalningsår för den öppen tillgång publiceringsavgiften
2020
Övriga uppgifter
Vetenskapsområden
Data- och informationsvetenskap
Nyckelord
Publiceringsland
Schweiz
Förlagets internationalitet
Internationell
Språk
engelska
Internationell sampublikation
Nej
Sampublikation med ett företag
Nej
DOI
10.3390/a14010006
Publikationen ingår i undervisnings- och kulturministeriets datainsamling
Ja