Што такое к-азначае кластарызацыі?

інтэлектуальны аналіз дадзеных з дапамогай алгарытму K-сярэдніх

K- азначае алгарытм кластарызацыі з'яўляецца інструментам інтэлектуальнага аналізу дадзеных і машыннага навучання выкарыстоўваецца для кластара назіранняў у групы узаемазвязаных назіранняў без якіх - небудзь папярэдніх ведаў гэтых адносін. Шляхам адбору пробаў, алгарытм спрабуе паказаць , у якой катэгорыі, або кластар, дадзеныя належаць, прычым лік кластараў , які вызначаецца па значэнні к.

K- азначае алгарытм з'яўляецца адным з самых простых метадаў кластарызацыі і шырока выкарыстоўваюцца ў медыцынскай візуалізацыі, біяметрыі і сумежных абласцях. Перавага k- азначае кластарызацыя з'яўляецца тое , што ён кажа пра сваіх дадзеных (выкарыстоўваючы яго некантраляваную форму) , а не вы таго , каб інструктаваць алгарытм пра дадзеныя ў пачатку (выкарыстоўваючы кантраляваную форму алгарытму).

Гэта часам называюць алгарытмам Лойда, асабліва ў галіне камп'ютэрных навук колах, так як стандартны алгарытм быў упершыню прапанаваны Сцюарт Лойда ў 1957 г. Тэрмін «да-сродкі» быў прыдуманы ў 1967 годзе Джэймсам McQueen.

Як да-азначае функцыі Алгарытм

Алгарытм k- азначае эвалюцыйны алгарытм , які атрымлівае сваю назву ад яго метады працы. Алгарытм кластары назіранне на Да групам, дзе да падаюцца ў якасці ўваходнага параметру. Затым ён прызначае кожнае назіранне кластараў на аснове блізкасці Назіральнай да сярэдняга кластара. Сярэдняя кластара, затым пералічаныя, і працэс пачынаецца зноў. Вось як працуе алгарытм:

  1. Алгарытм адвольна выбірае да кропак у якасці пачатковых цэнтраў кластараў (сродкі).
  2. Кожная кропка ў наборы дадзеных прызначаюцца замкнёным кластар, на аснове адлегласці Еўкліда паміж кожнай кропкай і кожным кластарам цэнтрам.
  3. Кожны цэнтр кластара пералічваюцца як сярэдняе з кропак у гэтым кластары.
  4. Крокі 2 і 3 паўтору, пакуль кластары не сыходзяцца. Канвергенцыя можа быць вызначана па-рознаму ў залежнасці ад рэалізацыі, але гэта звычайна азначае, што альбо назірання не мяняць кластары, калі крокі 2 і 3 паўтараюцца, ці што гэтыя змены не ўносяць істотнае адрозненне ў вызначэнні кластараў.

Выбар колькасці кластараў

Адным з галоўных недахопаў у K- сродак кластарызацыі з'яўляецца тым фактам , што вы павінны паказаць лік кластараў у якасці ўваходных дадзеных для алгарытму. У адпаведнасці з планам, алгарытм не можа вызначыць адпаведную колькасць кластараў і залежыць ад карыстальніка, каб ідэнтыфікаваць гэта загадзя.

Напрыклад, калі ў вас ёсць група людзей, якія павінны быць згрупаваны на падставе бінарнай гендэрнай ідэнтычнасці ў якасці мужчынскага або жаночага полу, называючы K- азначае алгарытм , выкарыстоўваючы ўваход да = 3 прымусіць людзей на тры групы , калі толькі два, або ўваход да = 2, будзе забяспечваць больш натуральным.

Дакладна так жа, калі група людзей былі лёгка згрупаваныя грунтуючыся на хатнім стане , і вы назвалі k- азначае алгарытм з уваходным да = 20, то вынікі могуць быць занадта абагульнены , каб быць эфектыўнымі.

Па гэтай прычыне, гэта часта добрая ідэя , каб эксперыментаваць з рознымі значэннямі да , каб вызначыць значэнне , якое найлепшым чынам адпавядае вашым дадзеных. Вы можаце таксама вывучыць магчымасць выкарыстання іншых алгарытмаў інтэлектуальнага аналізу дадзеных у вашым імкненні да машыннай даведаліся веданне.