Uncategorized

Hogyan győzzük le a statisztikai szűrőket? Spojler jön!!!

A fenti kérdés bizonyára sok spammer szájából elhangzott már, és elmondhatom neked, hogy a nuke kivételével már szinte mindennel próbálkoztak az email címem ellen (szósaláta, CNN hírek, képes spam, stb), de a statisztikai szűrőm kitart (novemberben az eddigi 709 spamből 708-at felismert), és egyáltalán nem úgy néz ki, mint aki éppen feladni készül.

Szóval a bayes-i szűrők sok mindent tudnak, talán még
sakkozni is
. A spamblog.hu honlapján azonban úgy tűnik, hivatalból orrolnak a statisztikai spamszűrőkre. Szerintük ugyanis “a valóságban mindössze mintákat hasonlítanak össze szigorú matematikai alapokon. (Ráadásul a megfelelő marketinggel sokak számára teljesen hihetővé válik a tanuló, intelligens spamszűrő, viszont később komoly csalódás éri a téves biztonságérzetű felhasználót… nos, ez egy más lapra tartozik.)

Ha nagyon le akarjuk egyszerűsíteni a dolgot, igaza van a spamblog.hu-nak, a statisztikai szűrők valóban mintákat hasonlítanak össze egy kis matekkal megfűszerezve. De ha valaki egy kicsit jobban beleártotta magát az érintett algoritmusokba, egyáltalán: kapisgálja a koncepciót, akkor látja, hogy azért ennél egy kicsit többről van szó.

1. A mai, modern statisztikai szűrők valóban megtanulják, hogy milyenek a jó ill. a spam leveleink, ezért is hívják őket tanuló szűrőknek. Ezt a folyamatot úgy képzeld el, mint amikor egy 3 éves gyerek rámutat mindenre, és megkérdezi, hogy “mi ez?”, te pedig megmondod, hogy paradicsom, paprika, alma, dió, stb. Majd egy idő után, amikor már elég sok mindent megmutattál neki, te kérdezed meg őt egy ismeretlen növényre mutatva, hogy “mi ez?”, ő pedig az eddigi ismeretei alapján megmondja, hogy az zöldség vagy gyümölcs. Ha helyesen válaszolt, örülünk, ha nem, akkor korrigáljuk.

2. Ezek a programok tényleg intelligensek. Amikor a levelet elolvassák, nem csak egyszerűen mintákat (precízebben szólva szavakat, kifejezéseket, másképpen tokeneket), hanem koncepciókat (több egymás után következő kifejezés) is képesek azonosítani, ami már az AI szintjére emeli a statisztikai programokat (ld. a sakkozás során képes kiválasztani a lehetséges lépések közül egy (a leg)jobbat).
Csak egy példa, hogy miről beszélek. Tegyük fel, hogy van egy rendszeres levelezőpartnered, akitől sok levelet kapsz. A szűrő megtanulja, pl. hogyan szólít meg, mi az ő email címe, neve, mi az aláírása, szokásos szófordulatai, stb. Most jöjjön egy spammer, aki arra számít, hogy ha a haverod nevében küld neked spamet, az átcsúszik a szűrőn. De vajon tényleg átverheti? Esélye sincs. Mert ugyan szerepel benne a partnered neve és címe, a te neved és címed, de az előbb említett koncepciók közül egy se lesz benne. Ezért amikor megnézed a junk foldered, és látod, hogy a haver levele fennakadt a szűrőn (mert a spamre jellemző koncepciókat, pl. “great night”, “cheap oem”, stb. csont nélkül felismerte), csak nyisd meg, és látni fogod, hogy a szűrőnek volt igaza, és az egy spammertől jött. Én egyszer egy PayPal(-nek látszó) levéllel jártam így.

3. A “későbbi komoly csalódásról” és a “téves biztonságérzetről”

Vagy 2-3 éve fejlesztek egy statisztikai spamszűrőt (és használom is!). Szerintem ennyi idő alatt csalódhattam volna, ha az elv hibás lenne. De folyamatosan 99% feletti pontosságot élvezhetek (novemberben eddig a pillanatig 99.82%-on állok). Más projektek szintén hasonló (vagy jobb) eredményről számolnak be, pl. dspam készítőjének rekordja 99.987% (1 hiba 7000 levélből). Szerintem ennyi bőven elég a spamblog.hu FUD*-ját cáfolni, főleg úgy, hogy ezt az állításukat semmivel nem támasztották alá.

Szóval hogyan lehet legyőzni egy statisztikai, pl. bayes-i szűrőt? Egy módja azért van: ha nem használod, mert bedőlsz a “szakértők” FUD-jának. Gondolataimat elküldöm a yellowcube blogjába is, ami jelenleg spamblog.hu néven fut, kiváncsi vagyok, hogy megint kitörlik-e, mint különösen veszélyes szöveget a “legjobb spamszűrőre”.

*: FUD: Fear, Uncertainty, Doubt, azaz negatívumok és féligazságok terjesztésére alapozott kampány. Gyakran élnek vele a politikában és a marketingben.


“Azonnal tölts le egy statisztikai spamszűrőt, különben megtalállak téged is!”