2007.11.13.
Hogyan győzzük le a statisztikai szűrőket? Spojler jön!!!
A fenti kérdés bizonyára sok spammer szájából elhangzott már, és elmondhatom neked, hogy a nuke kivételével már szinte mindennel próbálkoztak az email cÃmem ellen (szósaláta, CNN hÃrek, képes spam, stb), de a statisztikai szűrÅ‘m kitart (novemberben az eddigi 709 spambÅ‘l 708-at felismert), és egyáltalán nem úgy néz ki, mint aki éppen feladni készül.
Szóval a bayes-i szűrők sok mindent tudnak, talán még
sakkozni is. A spamblog.hu honlapján azonban úgy tűnik, hivatalból orrolnak a statisztikai spamszűrÅ‘kre. Szerintük ugyanis “a valóságban mindössze mintákat hasonlÃtanak össze szigorú matematikai alapokon. (Ráadásul a megfelelÅ‘ marketinggel sokak számára teljesen hihetÅ‘vé válik a tanuló, intelligens spamszűrÅ‘, viszont késÅ‘bb komoly csalódás éri a téves biztonságérzetű felhasználót… nos, ez egy más lapra tartozik.)”
Ha nagyon le akarjuk egyszerűsÃteni a dolgot, igaza van a spamblog.hu-nak, a statisztikai szűrÅ‘k valóban mintákat hasonlÃtanak össze egy kis matekkal megfűszerezve. De ha valaki egy kicsit jobban beleártotta magát az érintett algoritmusokba, egyáltalán: kapisgálja a koncepciót, akkor látja, hogy azért ennél egy kicsit többrÅ‘l van szó.
1. A mai, modern statisztikai szűrÅ‘k valóban megtanulják, hogy milyenek a jó ill. a spam leveleink, ezért is hÃvják Å‘ket tanuló szűrÅ‘knek. Ezt a folyamatot úgy képzeld el, mint amikor egy 3 éves gyerek rámutat mindenre, és megkérdezi, hogy “mi ez?”, te pedig megmondod, hogy paradicsom, paprika, alma, dió, stb. Majd egy idÅ‘ után, amikor már elég sok mindent megmutattál neki, te kérdezed meg Å‘t egy ismeretlen növényre mutatva, hogy “mi ez?”, Å‘ pedig az eddigi ismeretei alapján megmondja, hogy az zöldség vagy gyümölcs. Ha helyesen válaszolt, örülünk, ha nem, akkor korrigáljuk.
2. Ezek a programok tényleg intelligensek. Amikor a levelet elolvassák, nem csak egyszerűen mintákat (precÃzebben szólva szavakat, kifejezéseket, másképpen tokeneket), hanem koncepciókat (több egymás után következÅ‘ kifejezés) is képesek azonosÃtani, ami már az AI szintjére emeli a statisztikai programokat (ld. a sakkozás során képes kiválasztani a lehetséges lépések közül egy (a leg)jobbat).
Csak egy példa, hogy mirÅ‘l beszélek. Tegyük fel, hogy van egy rendszeres levelezÅ‘partnered, akitÅ‘l sok levelet kapsz. A szűrÅ‘ megtanulja, pl. hogyan szólÃt meg, mi az Å‘ email cÃme, neve, mi az aláÃrása, szokásos szófordulatai, stb. Most jöjjön egy spammer, aki arra számÃt, hogy ha a haverod nevében küld neked spamet, az átcsúszik a szűrÅ‘n. De vajon tényleg átverheti? Esélye sincs. Mert ugyan szerepel benne a partnered neve és cÃme, a te neved és cÃmed, de az elÅ‘bb emlÃtett koncepciók közül egy se lesz benne. Ezért amikor megnézed a junk foldered, és látod, hogy a haver levele fennakadt a szűrÅ‘n (mert a spamre jellemzÅ‘ koncepciókat, pl. “great night”, “cheap oem”, stb. csont nélkül felismerte), csak nyisd meg, és látni fogod, hogy a szűrÅ‘nek volt igaza, és az egy spammertÅ‘l jött. Én egyszer egy PayPal(-nek látszó) levéllel jártam Ãgy.
3. A “késÅ‘bbi komoly csalódásról” és a “téves biztonságérzetrÅ‘l”
Vagy 2-3 éve fejlesztek egy statisztikai spamszűrÅ‘t (és használom is!). Szerintem ennyi idÅ‘ alatt csalódhattam volna, ha az elv hibás lenne. De folyamatosan 99% feletti pontosságot élvezhetek (novemberben eddig a pillanatig 99.82%-on állok). Más projektek szintén hasonló (vagy jobb) eredményrÅ‘l számolnak be, pl. dspam készÃtÅ‘jének rekordja 99.987% (1 hiba 7000 levélbÅ‘l). Szerintem ennyi bÅ‘ven elég a spamblog.hu FUD*-ját cáfolni, fÅ‘leg úgy, hogy ezt az állÃtásukat semmivel nem támasztották alá.
Szóval hogyan lehet legyÅ‘zni egy statisztikai, pl. bayes-i szűrÅ‘t? Egy módja azért van: ha nem használod, mert bedÅ‘lsz a “szakértÅ‘k” FUD-jának. Gondolataimat elküldöm a yellowcube blogjába is, ami jelenleg spamblog.hu néven fut, kiváncsi vagyok, hogy megint kitörlik-e, mint különösen veszélyes szöveget a “legjobb spamszűrÅ‘re”.
*: FUD: Fear, Uncertainty, Doubt, azaz negatÃvumok és féligazságok terjesztésére alapozott kampány. Gyakran élnek vele a politikában és a marketingben.

“Azonnal tölts le egy statisztikai spamszűrÅ‘t, különben megtalállak téged is!”





November 14th, 2007 at 7:20:02
Én a bogofiltert használom. Mostanában 99%-os a spam fogás aránya. Nagy ritkán átcsúszik 1-2.
November 14th, 2007 at 9:27:12
Ezt +1 szavazatnak veszem a statisztikai spamszűrők mellett
November 14th, 2007 at 10:10:22
Ha van levelezÅ‘programba épülÅ‘ pluginod akkor meggyÅ‘zhetesz hogy tied a legjobb, vagy Ãrjak én hozzá plugint?
November 14th, 2007 at 10:20:59
Nem az a célom, hogy az én implementációm elsÅ‘bbségét bizonygassam – rengeteg más jó (és még jobb) megoldás létezik még – hanem hogy a statisztikai szűrÅ‘ket propagáljam, hogy a döntéshozók is megismerjék ezeket a programokat.
Pluginom nincs, de ha Ãrsz egyet, szÃvesen kipróbálom. Milyen klienshez tudnál egyet Ãrni?
November 14th, 2007 at 10:34:35
Megnézem a claws-mail bogofilter implementációját és ahhoz tudnék egyet gyártani ha nem macerás nagyon
November 14th, 2007 at 10:46:32
Jó lesz. Ha nem macerás nagyon
November 15th, 2007 at 9:51:41
+1 a tanÃtható szűrÅ‘kre
nálunk talán nem ennyire “4 9-es” a statisztika, de ez betudható annak is, hogy a felhasználóink nemrég vehették saját kezelésükbe a SPAM elleni harcot, ezért még csak pedzegetik a dolgot…