Nem dió, se nem mák, mi az? Töltelékszó!

A Yellowcube/spamblog egyik blogjában olvastam egy érdekeset. Mivel azt a post-ot lezárták, és ott nem lehet kommenteket hozzáfűzni, ezért itt teszem meg, amit megkövetel a haza.

Mivel a legtöbb otthoni internetező valamilyen fajta ingyenes, tanítható spamszűrőt használ, amelynek először meg kellett mutatni, hogy melyik levél spam és melyik nem, ezért megfigyelhetjük, hogy a fizetett hirdetést tartalmazó levélben már vicces töltelékszöveget is alkalmaznak, ami minden bizonnyal az email szavait statisztikai módszer alapján elemző kéretlen-levél szűrők megkerülésére szolgál. [….] Mindenesetre, ha nem tanítható levélszűrővel, hanem a másik nagy csoportba tartozó, a világméretű közösségi adatbázison alapuló technológiát is alkalmazó spamszűrővel szűrűnk, akkor biztosan elkerülhetjük a hasonló leveleket: ha egyszer egy felhasználó spamként jelöli meg az adott levelet, akkor azt más már nem kapja meg jó levélként.

Addig valóban korrekt, hogy a tanítható szűrőknek meg kell mutatni, hogyan néznek ki a jó ill. a kéretlen levelek. Azonban egy igen elterjedt hiedelem, hogy a statisztikai szűrőket át lehet verni töltelékszavakkal. Azon nem csodálkozom, hogy a spammerek képtelenek ezt a tételt abszolválni, de azon már megütközöm, ha ezt egy anti-spamben utazó cég hazai képviselője sem képes felfogni, sőt terjeszti is ezt a hülyeséget. Ezt a hiedelmet, félreértést egyébként a spam könyvben is igyekszem helyre tenni.

Ha nekem nem hiszel szósaláta ügyben, akkor ajánlom figyelmedbe a How to beat an Adaptive Spam Filter című szösszenetet John Graham-Cumming-tól.

JGC a következő tesztet végezte el: fogott egy piko spamet, amelyet a POPFile (ő írta ezt a statisztikai spamszűrőt) felismert, és N*100 szót adott hozzá a /usr/share/dict/words fájlból. Eredmény? 0.04% jutott át. Na ennyire hatékony a szósaláta. A sikerhez az kell, hogy minden célszemélynek tízezerszámra küldd el ugyanazt a (mindig változó szavakkal megspékelt) spamet. A trükk azért hatástalan, mert a random szavak

  • többsége nem szerepel sem a ham, sem a spam szótárban
  • egy kisebb részük a spam oldalon szerepel
  • és csak egy még kisebb részük szerepel a ham szavak között

Cumming kipróbálta a tesztet a Wikipédia cikkeiben szereplő szavakkal, és a news.google.com híreivel, és hasonló eredményre jutott. A spammereknek ugyanis arra lenne szükségük, hogy kevesebb spamre jellemző szót tegyenek a leveleikbe, és több olyan szót, amelyek a jó leveleinkben szerepelnek. De mégis, hogyan találják ki az ilyen szavainkat? Nem tudom, de sok sikert.

A clapf úgy igyekszik a spammerek “vak tyúk is talál szemet” szerencséjét eliminálni, hogy első körben token párokkal
végzi el a statisztikai számítást. Ha ez eredményes, akkor készen is vagyunk. Ha pedig nehéz olyan egy szóból álló tokeneket is találni, amelyek használnak, akkor mennyivel nehezebb 2 szóból álló megfelelő párokat találni? Ha még azt is figyelembe vesszük, hogy mindezt (lehetőleg) magyar szavakkal kellene megtenni, akkor még nehezebb a spammerek helyzete, úgy hogy sok szerencsét …

Leave a Reply

Your email address will not be published. Required fields are marked *