Uncategorized

Hány licence kell neked???

A spamblog PR cikkei között olvastam egy érdekes írást Virus Bulletin: a spamszűrők együtt jobbak címmel, amiben a egy érdekes elmélet szerepel:

“A Virus Bulletin kb. 200.000 valódi email felhasználásával 14 gyártó termékét tesztelte párhuzamosan, az egyes spamszűrők válogatták külön a levelezést levélszemétre és jó levelekre. […] 4 megoldás is volt, ami egyetlen jó levelet sem jelölt meg, ugyanakkor a szűrési pontosságuk hagyott még kívánni valót maguk után. […] ha elméletben megvalósítanának egy olyan szűrőt, ami mind a 14 tesztelt megoldást tartalmazza, de csak akkor jelöl meg egy levelet spamnek, ha legalább 5 termék szerint az, akkor egy lényegesen jobb szűrőt kaphatnának.

Az elméletben felállított többmotoros szűrő így 99.89%-os pontossággal azonosítaná a levélszemetet (ami minden termék eredményénél jobb), míg továbbra sem jelölne meg egyetlen jó levelet sem.”

A Virus Bulletin teóriája helytálló, de egy apróságról azért jó, ha tudunk. Ha minden levelet 14 szűrőn vezetünk át (vagy amíg legalább 5 szűrő nem sikít, hogy spam), az drasztikusan megnöveli a rendszer költségét.

A szükséges teljesítményigény (processzor, memória, i/o, …) (átlag) 14x-esére nő, vagy ha jobban tetszik, a rendszer áteresztőképessége az 1/14-édre csökken. És ha mindez nem lenne elég, akkor – mivel kereskedelmi termékekről van szó – 14 db termék licencét kell megvenni, frissíteni, stb.

Tehát az a termék, amely 14 kereskedelmi megoldást aggregál, az (átlagosan) 14x többe kerül, és a teljesítménye (átlagosan) 1/14-e annak, mintha csak 1 termékre bíztuk volna a spamszűrést. A hivatkozott PR-cikkben szó van az MPP termékről, amely 3-10 antispam megoldást képes kombinálni. Kész szerencse, hogy az MPP esetén legrosszabb esetben is csak egy 10-es szorzóval ill. osztóval kell számolni.

Azonban spamet szűrni nem csak kereskedelmi termékekkel lehet. Jonathan Zdziarski a Justifying Statistical Filtering (and Open Source Technology) című írásában megjegyzi, hogy “Well-written open-source filters have achieved rates of 99.5% to 99.9% and beyond with little effort.”, azaz szabad fordításban: a jól megírt nyílt forrású [spam]szűrők könnyedén elérik a 99.5-99.9%-os pontosságot, vagy még jobbat.

Ha tehát extrém pontosságra van szükség, akkor a) veszünk egy terméket, ami valójában akár 10-15 termék összegyúrva, vagy b) keresünk egy nyílt forrású, statisztikai szűrőt, ami egymaga képes az előbbi produkcióra.