2009.12.23.
Hány licence kell neked???
A spamblog PR cikkei között olvastam egy érdekes Ãrást Virus Bulletin: a spamszűrÅ‘k együtt jobbak cÃmmel, amiben a egy érdekes elmélet szerepel:
“A Virus Bulletin kb. 200.000 valódi email felhasználásával 14 gyártó termékét tesztelte párhuzamosan, az egyes spamszűrÅ‘k válogatták külön a levelezést levélszemétre és jó levelekre. [...] 4 megoldás is volt, ami egyetlen jó levelet sem jelölt meg, ugyanakkor a szűrési pontosságuk hagyott még kÃvánni valót maguk után. [...] ha elméletben megvalósÃtanának egy olyan szűrÅ‘t, ami mind a 14 tesztelt megoldást tartalmazza, de csak akkor jelöl meg egy levelet spamnek, ha legalább 5 termék szerint az, akkor egy lényegesen jobb szűrÅ‘t kaphatnának.
Az elméletben felállÃtott többmotoros szűrÅ‘ Ãgy 99.89%-os pontossággal azonosÃtaná a levélszemetet (ami minden termék eredményénél jobb), mÃg továbbra sem jelölne meg egyetlen jó levelet sem.”
A Virus Bulletin teóriája helytálló, de egy apróságról azért jó, ha tudunk. Ha minden levelet 14 szűrÅ‘n vezetünk át (vagy amÃg legalább 5 szűrÅ‘ nem sikÃt, hogy spam), az drasztikusan megnöveli a rendszer költségét.
A szükséges teljesÃtményigény (processzor, memória, i/o, …) (átlag) 14x-esére nÅ‘, vagy ha jobban tetszik, a rendszer áteresztÅ‘képessége az 1/14-édre csökken. És ha mindez nem lenne elég, akkor – mivel kereskedelmi termékekrÅ‘l van szó – 14 db termék licencét kell megvenni, frissÃteni, stb.
Tehát az a termék, amely 14 kereskedelmi megoldást aggregál, az (átlagosan) 14x többe kerül, és a teljesÃtménye (átlagosan) 1/14-e annak, mintha csak 1 termékre bÃztuk volna a spamszűrést. A hivatkozott PR-cikkben szó van az MPP termékrÅ‘l, amely 3-10 antispam megoldást képes kombinálni. Kész szerencse, hogy az MPP esetén legrosszabb esetben is csak egy 10-es szorzóval ill. osztóval kell számolni.
Azonban spamet szűrni nem csak kereskedelmi termékekkel lehet. Jonathan Zdziarski a Justifying Statistical Filtering (and Open Source Technology) cÃmű Ãrásában megjegyzi, hogy “Well-written open-source filters have achieved rates of 99.5% to 99.9% and beyond with little effort.”, azaz szabad fordÃtásban: a jól megÃrt nyÃlt forrású [spam]szűrÅ‘k könnyedén elérik a 99.5-99.9%-os pontosságot, vagy még jobbat.
Ha tehát extrém pontosságra van szükség, akkor a) veszünk egy terméket, ami valójában akár 10-15 termék összegyúrva, vagy b) keresünk egy nyÃlt forrású, statisztikai szűrÅ‘t, ami egymaga képes az elÅ‘bbi produkcióra.




