Што вам трэба ведаць аб байесовской фільтрацыі спаму

by Heinz Tschabitscher

Даведайцеся, як статыстыка дапамагае захаваць ваш паштовую скрыню ў чысціні

Байесовский спам-фільтры вылічыць верагоднасць спаму паведамленні, грунтуючыся на яго ўтрыманне. У адрозненні ад простых фільтраў кантэнту на аснове байесовской фільтраванне спаму пазнае ад спаму і ад добрага пошты, у выніку чаго вельмі надзейныя, адаптуючы і эфектыўны анты-спам падыходу, які, лепш за ўсё, вяртае наўрад ці якія-небудзь ілжывыя спрацоўвання.

Як распазнаць Junk Email?

Падумайце аб тым , як выявіць спам . Хуткі погляд досыць часта. Вы ведаеце, як выглядае спам, і вы ведаеце, што добра пошта выглядае.

Верагоднасць спаму, гледзячы, як добрая пошта вакол ... нуль.

Забіўшы Content-Based Фільтры Ня Adapt

Не было б выдатна, калі аўтаматычны спам-фільтры працавалі, як гэта таксама?

Скоринг спам-фільтры кантэнту на аснове паспрабаваць толькі што. Яны шукаюць словы і іншыя характарыстыкі, характэрныя для спаму. Кожны характэрны элемент прысвойваецца бал, і ацэнка спаму для ўсяго паведамлення вылічаецца з асобных рахункаў. Некаторыя фільтры скоринга таксама шукаць характарыстыкі легітымнай пошты, паніжаючы канчатковы лік побач з паведамленнем.

Скоринг фільтры падыход робіць працу, але ён таксама мае шэраг недахопаў:

Пералік характарыстык будуюцца з спаму (і добрай пошты), даступнага для інжынераў фільтра. Для таго, каб атрымаць добрае ўяўленне аб тыповым спам нікому магла б атрымаць, пошта павінна быць сабрана ў сотнях адрасоў электроннай пошты. Гэта аслабляе эфектыўнасць фільтраў, асабліва таму , што характарыстыкі добрай пошты будуць адрознівацца для кожнага чалавека, але гэта не прымаецца пад увагу.
Характарыстыкі шукаць больш ці менш высечаныя ў камені. Калі спамеры прыкласці намаганні, каб прыстасавацца (і зрабіць іх спам выглядаць добрую пошту фільтры), фільтруюць характарыстыкі павінны быць адладжаны ўручную - яшчэ больш намаганняў.
Ацэнка прысвойваецца кожнае слова, верагодна, грунтуюцца на добрую адзнаку, але ён па-ранейшаму адвольна. І як спіс характарыстык, гэта не адаптуецца ні да зменлівага свету спаму ў цэлым, ні да патрэб асобнага карыстальніка.

Байесовский спам фільтры Tweak сябе, лепш і лепш

Байесовский спам-фільтры з'яўляюцца сваім родам тэстаў фільтраў на аснове ўтрымання, таксама. Іх падыход пазбаўляе ад праблем простых скоринг спам-фільтраў, хоць, і гэта робіць так радыкальна. Паколькі слабасць скоринговых фільтраў у ўручную пабудаваны спіс характарыстык і іх ацэнкі, гэты спіс выдаляецца.

Замест байесовский спам-фільтры пабудаваць спіс саміх. У ідэале, вы пачынаеце з (вялікі) кучай лістоў, якія вы класіфікаваны як спам, і яшчэ кучай добрай пошты. Фільтры глядзець на абодвух і аналізаваць легітымную пошту, а таксама спам для разліку верагоднасці розных характарыстык, якія ўваходзяць у спам, і ў добрай пошце.

Як байесовский фільтр спаму Разглядае ўтоена

Характарыстыкі байесовский фільтр спаму можа глядзець на можа быць:

слова ў целе паведамлення, вядома, і
яго загалоўкі (адпраўнікі і шляхі зносін , напрыклад!), але і
іншыя аспекты, такія як код HTML / CSS (напрыклад, кветак і іншых фарматаваннем), ці нават
пары слоў, фраз і
метаінформаціі (дзе з'яўляецца канкрэтная фраза, напрыклад).

Калі слова «декартовых», напрыклад, ніколі не з'яўляецца ў спам, але часта ў законнай электроннай пошце вы атрымаеце, верагоднасць таго, што «декартовых» паказвае на спам блізкі да нуля. «Тонар», з другога боку, з'яўляецца выключна, і часта ў спаме. «Тонар» мае вельмі высокую верагоднасць быць знойдзены ў спам, не нашмат ніжэй за 1 (100%).

Калі прыходзіць новае паведамленне, яно аналізуецца з дапамогай байесовского спам-фільтр, і верагоднасць таго, што поўнае паведамленне з'яўляецца спамам разлічваецца з выкарыстаннем індывідуальных характарыстык.

Выкажам здагадку, паведамленне змяшчае як «декартовых» і «тонар». Ад адных гэтых слоў яшчэ не ясна, ці ёсць у нас спам або законным пошту. Іншыя характарыстыкі (спадзяюся, і найбольш верагодна) паказваюць на верагоднасць таго, што дазваляе фільтру класіфікаваць паведамленне або як спам або добрая пошта.

Байесовы Фільтры спаму можа атрымаць аўтаматычна

Цяпер, калі мы маем класіфікацыю, паведамленне можа быць выкарыстана для падрыхтоўкі самога фільтра дадаткова. У гэтым выпадку, альбо верагоднасць «Дэкарта» ўказвае на добрую пошту апушчана (калі паведамленне, якое змяшчае як «декартовых» і «тонар» аказваюцца спам), або верагоднасць «тонар», які паказвае спам павінна быць перагледжана.

Выкарыстоўваючы гэты самарэгулявальнай тэхнік, байесовы фільтры могуць вучыцца як свае уласных і рашэнні карыстальніка (калі яна ўручную карэктуе пралік фільтраў). Адаптыўнасць байесовской фільтрацыі таксама гарантуе, што яны з'яўляюцца найбольш эфектыўнымі для індывідуальных карыстальнікаў электроннай пошты. У той час як спам большасць людзей можа мець падобныя характарыстыкі, легітымная пошта характэрна адрозніваецца для ўсіх.

Як можна Спамеры прайсці Байеса фільтры?

Характарыстыкі легітымнай пошты гэтак жа важныя для байесовского працэсу фільтрацыі спаму як спам. Калі фільтры навучаны спецыяльна для кожнага карыстальніка, спамеры будуць яшчэ цяжэй час, працуючы вакол усе (ці нават большасці людзей) спам-фільтры, і фільтры могуць адаптавацца да амаль усім спамерам спрабуюць.

Спамеры толькі зробяць гэта мінулае добра падрыхтаваным Байеса фільтры, калі яны робяць іх спам выдатна выглядаць, як звычайная пошта кожны можа атрымаць.

Спамеры звычайна не пасылаць такія звычайныя электронныя лісты. Дапусцім, гэта адбываецца таму, што гэтыя лісты не працуюць як непажаданай пошты. Так, хутчэй за ўсё, яны не будуць рабіць гэта, калі звычайныя, сумныя лісты з'яўляюцца адзіным спосабам зрабіць гэта мінулае спам-фільтры.

Калі спамеры пераключыцца ў асноўным несамавітымі паведамленні электроннай пошты, аднак, мы бачым шмат спаму ў нашых паштовых скрынях зноў, і электронная пошта можа стаць гэтак жа расчараванне , як гэта было ў загадзя байесовские дні (ці нават горш). Ён таксама разбурыў рынак для большасці відаў спаму, хоць, і, такім чынам, не будзе доўжыцца доўга.

Моцныя паказчыкі могуць быць байесовский фільтр спаму і # 39; s Ахілес & # 39; Абцас

Адзінае выключэнне можа быць успрынята спамерамі працаваць свой шлях праз байесовские фільтры нават з іх звычайным зместам. Менавіта ў прыродзе байесовской статыстыкі, што адно слова або характарыстыка, якая вельмі часта з'яўляецца ў добрай пошце можа быць настолькі значным, каб ператварыць любое паведамленне ад гледзячы, як спам, каб быць ацэнены як вяндліна фільтра.

Калі спамеры знайсці спосаб , каб вызначыць ваша беспамылковыя добрыя пошты слова-з дапамогай HTML вяртання квітанцыі , каб убачыць , якія паведамленні вы адкрылі для прыкладны, яны могуць ўключаць у сябе адзін з іх у непажаданай пошце і звязацца з вамі , нават праз добра навучаны байесовский фільтр.

Джон Грэхем-Камінг паспрабаваў гэта, дазваляючы два байесовского фільтра працуюць адзін супраць аднаго, «дрэнна» адзін адаптуюць да якога знойдзеныя паведамленні, каб прайсці праз «добры» фільтр. Ён кажа, што гэта працуе, хоць працэс працаёмкі і складаны. Мы не думаем, мы ўбачым большую частку гэтага адбываецца, па меншай меры, не ў вялікіх маштабах, а не з улікам электронных характарыстык індывідаў. Спамеры могуць (паспрабаваць) высветліць некаторыя ключавыя словы для арганізацый (нешта накшталт «Альмадена» для некаторых людзей у IBM, можа быць?) Замест гэтага.

Як правіла, спам заўсёды будзе (істотна) адрозніваецца ад звычайнай пошты, ці гэта не будзе спаму, хоць.

У ніжняй радку: байесовской фільтрацыі & # 39; сек сіла можа быць яго слабасць

Байесовский спам - фільтры кантэнт на аснове фільтраў , якія:

спецыяльна навучана распазнаваць спам індывідуальных карыстальнікаў электроннай пошты ў і добрую пошту, што робіць іх вельмі эфектыўнымі і цяжка адаптавацца да спамерам.
можа ўвесь час і без асаблівых высілкаў або ручнога аналізу прыстасоўваецца да апошніх выкрутаў спамераў.
ўзяць добрую пошту асобнага карыстальніка ў ўліковы запіс і мае вельмі нізкі ўзровень ілжывых спрацоўванняў.
На жаль, калі гэта выклікае сляпое давер у байесовской анты-спам фільтраў, гэта робіць часам памылка яшчэ больш сур'ёзна. Супрацьлеглы эфект ілжывых негатываў (спам , які выглядае сапраўды так жа , як звычайная пошта) мае патэнцыял , каб патрывожыць і знерваваць карыстальнік.