Improving Scalable K-Means++

Improving Scalable K-Means++

Publiceringsår

2021

Upphovspersoner

Hämäläinen, Joonas; Kärkkäinen, Tommi; Rossi, Tuomo

Abstrakt

Two new initialization methods for K-means clustering are proposed. Both proposals are based on applying a divide-and-conquer approach for the K-means‖ type of an initialization strategy. The second proposal also uses multiple lower-dimensional subspaces produced by the random projection method for the initialization. The proposed methods are scalable and can be run in parallel, which make them suitable for initializing large-scale problems. In the experiments, comparison of the proposed methods to the K-means++ and K-means‖ methods is conducted using an extensive set of reference and synthetic large-scale datasets. Concerning the latter, a novel high-dimensional clustering data generation algorithm is given. The experiments show that the proposed methods compare favorably to the state-of-the-art by improving clustering accuracy and the speed of convergence. We also observe that the currently most popular K-means++ initialization behaves like the random one in the very high-dimensional cases
Visa mer

Organisationer och upphovspersoner

Jyväskylä universitet

Hämäläinen Joonas Orcid -palvelun logo

Kärkkäinen Tommi Orcid -palvelun logo

Rossi Tuomo Orcid -palvelun logo

Publikationstyp

Publikationsform

Artikel

Moderpublikationens typ

Tidning

Artikelstyp

En originalartikel

Målgrupp

Vetenskaplig

Kollegialt utvärderad

Kollegialt utvärderad

UKM:s publikationstyp

A1 Originalartikel i en vetenskaplig tidskrift

Publikationskanalens uppgifter

Förläggare

MDPI AG

Volym

14

Nummer

1

Artikelnummer

6

Publikationsforum

75024

Publikationsforumsnivå

1

Öppen tillgång

Öppen tillgänglighet i förläggarens tjänst

Ja

Öppen tillgång till publikationskanalen

Helt öppen publikationskanal

Parallellsparad

Ja

Publiceringsavgift för öppen tillgång €

829

Betalningsår för den öppen tillgång publiceringsavgiften

2020

Övriga uppgifter

Vetenskapsområden

Data- och informationsvetenskap

Publiceringsland

Schweiz

Förlagets internationalitet

Internationell

Språk

engelska

Internationell sampublikation

Nej

Sampublikation med ett företag

Nej

DOI

10.3390/a14010006

Publikationen ingår i undervisnings- och kulturministeriets datainsamling

Ja

Improving Scalable K-Means++ - Forskning.fi