Класіфікацыя інтэлектуальнага аналізу дадзеных

Класіфікацыя ўяўляе сабой метад аналізу дадзеных, якая прысвойвае катэгорыі для збору дадзеных для таго, каб дапамагчы ў больш дакладных прагнозаў і аналізу. Таксама называецца часам называюць дрэва рашэнняў, класіфікацыяй з'яўляецца адным з некалькіх метадаў , прызначаных , каб зрабіць аналіз вельмі вялікіх набораў дадзеных эфектыўным.

Чаму класіфікацыі?

Вельмі вялікія базы дадзеных становяцца нормай у сучасным свеце «вялікіх дадзеных". Уявіце сабе базу дадзеных з некалькімі тэрабайтамі -a дадзеных тэрабайт адзін трыльён байтаў дадзеных.

у адзіночку facebook храбусціць 600 тэрабайта новых дадзеных кожны дзень (па стане на 2014 год, у апошні раз яна паведаміла гэтыя функцыі). Асноўная праблема вялікіх аб'ёмаў дадзеных, як зрабіць сэнс.

І сам аб'ём не адзіная праблема: вялікія дадзеныя таксама мае тэндэнцыю быць самымі разнастайнымі, неструктураваных і хутка мяняецца. Разгледзім аўдыё і відэа дадзеных, паведамленні ў сацыяльных сетках, 3D-дадзеныя або геопространственных дадзеных. Такога роду дадзеныя не лёгка класіфікаваць або арганізаванай.

Для вырашэння гэтай задачы, шэраг аўтаматычных метадаў здабывання карыснай інфармацыі быў распрацаваны, сярод іх класіфікацыя.

Колькі Класіфікацыя работ

У небясьпецы рухаюцца занадта далёка ў тэк-казаць, давайце разгледзім, як працуе класіфікацыя. Мэта складаецца ў тым, каб стварыць набор правілаў класіфікацыі, якія будуць адказваць на пытанне, прыняць рашэнне, ці прадказаць behavior.To старт, набор навучальных дадзеных распрацаваны, які змяшчае пэўны набор атрыбутаў, а таксама верагодны вынік.

Праца алгарытму класіфікацыі з'яўляецца высветліць, як гэты набор атрыбутаў дасягае сваё заключэнне.

Сцэнар: Магчыма , крэдытная карта кампанія спрабуе вызначыць , якія перспектывы павінны атрымаць прапанову аб крэдытнай карце.

Гэта можа быць яго набор навучальных дадзеных:

падрыхтоўка дадзеных
імя ўзрост падлогу гадавы даход Крэдытныя карты Прапанова
Джон Доу 25 M $ 39500 няма
Jane Doe 56 F $ 125 000 ды

У «прадказальніка» слупкі па ўзросту, полу, і гадавы даход вызначае значэнне атрыбуту «прадказальнік» крэдытнай карты прапанову. У навучальным наборы, атрыбут прадказальнік вядома. Алгарытм класіфікацыі затым спрабуе вызначыць, як было дасягнута значэнне атрыбуту прадказальніка: якія адносіны існуюць паміж прэдыктар і рашэннем? Ён будзе распрацоўваць набор правілаў прагназавання, як правіла, у IF / THEN заяву, напрыклад:

IF (Узрост> 18 АБО Узрост <75) і гадавы даход> ​​40000 THEN Credit Card Прапанова = ды

Відавочна, што гэта просты прыклад, і алгарытм спатрэбіцца значна больш дадзеных, чым выбаркі двух запісаў, прадстаўленых тут. Акрамя таго, правілы прадказанні, верагодна, будзе значна больш складаным, у тым ліку падправіў, каб захапіць дэталі атрыбуту.

Далей алгарытм даецца «набор прагназавання» дадзеных для аналізу, але гэты набор не мае атрыбут прадказанні (або рашэння):

прадказальнік дадзеных
імя ўзрост падлогу гадавы даход Крэдытныя карты Прапанова
матушка зіма 42 M $ 88000
Мэры Мюрэй 16 F $ 0

Гэтыя дадзеныя прагназавання дазваляе ацаніць дакладнасць прагназавання правілаў, а правілы затым адладжаны да таго часу, пакуль распрацоўнік не лічыць прагнозы эфектыўнымі і карыснымі.

Дзень у дзень Прыклады класіфікацыі

Класіфікацыя і іншыя метады здабычы дадзеных, ззаду большую частку нашага вопыту з дня ў дзень, як спажыўцоў.

Пагодныя прагнозы маглі б выкарыстоўваць класіфікацыю, каб паведаміць, ці будзе гэты дзень будзе дажджлівым, сонечным ці пахмурным. Медыцынская прафесія можа аналізаваць стан здароўя прадказваць медыцынскія вынікі. Тып метаду класіфікацыі, наіўнага байесовского, выкарыстоўваецца умоўная верагоднасць класіфікаваць спам. Ад выяўлення махлярства з прапановамі прадукцыі, класіфікацыя за кулісамі кожны дзень аналіз дадзеных і атрыманне прагнозаў.