Egy irtó hatékony spamszűrő mp4



Hatékony védelem a spam ellen pdf ppt mp4




a spam könyv

http://mo.gyo.ro/

November 2007
M T W T F S S
« Oct   Dec »
 1234
567891011
12131415161718
19202122232425
2627282930  


Spam? Szinte már el is felejtettem mi az...

Spammel a myVIP | Home | Passzív ellenállás

2007.11.13.

Hogyan győzzük le a statisztikai szűrőket? Spojler jön!!!

A fenti kérdés bizonyára sok spammer szájából elhangzott már, és elmondhatom neked, hogy a nuke kivételével már szinte mindennel próbálkoztak az email címem ellen (szósaláta, CNN hírek, képes spam, stb), de a statisztikai szűrőm kitart (novemberben az eddigi 709 spamből 708-at felismert), és egyáltalán nem úgy néz ki, mint aki éppen feladni készül.

Szóval a bayes-i szűrők sok mindent tudnak, talán még
sakkozni is
. A spamblog.hu honlapján azonban úgy tűnik, hivatalból orrolnak a statisztikai spamszűrÅ‘kre. Szerintük ugyanis “a valóságban mindössze mintákat hasonlítanak össze szigorú matematikai alapokon. (Ráadásul a megfelelÅ‘ marketinggel sokak számára teljesen hihetÅ‘vé válik a tanuló, intelligens spamszűrÅ‘, viszont késÅ‘bb komoly csalódás éri a téves biztonságérzetű felhasználót… nos, ez egy más lapra tartozik.)

Ha nagyon le akarjuk egyszerűsíteni a dolgot, igaza van a spamblog.hu-nak, a statisztikai szűrők valóban mintákat hasonlítanak össze egy kis matekkal megfűszerezve. De ha valaki egy kicsit jobban beleártotta magát az érintett algoritmusokba, egyáltalán: kapisgálja a koncepciót, akkor látja, hogy azért ennél egy kicsit többről van szó.

1. A mai, modern statisztikai szűrÅ‘k valóban megtanulják, hogy milyenek a jó ill. a spam leveleink, ezért is hívják Å‘ket tanuló szűrÅ‘knek. Ezt a folyamatot úgy képzeld el, mint amikor egy 3 éves gyerek rámutat mindenre, és megkérdezi, hogy “mi ez?”, te pedig megmondod, hogy paradicsom, paprika, alma, dió, stb. Majd egy idÅ‘ után, amikor már elég sok mindent megmutattál neki, te kérdezed meg Å‘t egy ismeretlen növényre mutatva, hogy “mi ez?”, Å‘ pedig az eddigi ismeretei alapján megmondja, hogy az zöldség vagy gyümölcs. Ha helyesen válaszolt, örülünk, ha nem, akkor korrigáljuk.

2. Ezek a programok tényleg intelligensek. Amikor a levelet elolvassák, nem csak egyszerűen mintákat (precízebben szólva szavakat, kifejezéseket, másképpen tokeneket), hanem koncepciókat (több egymás után következő kifejezés) is képesek azonosítani, ami már az AI szintjére emeli a statisztikai programokat (ld. a sakkozás során képes kiválasztani a lehetséges lépések közül egy (a leg)jobbat).
Csak egy példa, hogy mirÅ‘l beszélek. Tegyük fel, hogy van egy rendszeres levelezÅ‘partnered, akitÅ‘l sok levelet kapsz. A szűrÅ‘ megtanulja, pl. hogyan szólít meg, mi az Å‘ email címe, neve, mi az aláírása, szokásos szófordulatai, stb. Most jöjjön egy spammer, aki arra számít, hogy ha a haverod nevében küld neked spamet, az átcsúszik a szűrÅ‘n. De vajon tényleg átverheti? Esélye sincs. Mert ugyan szerepel benne a partnered neve és címe, a te neved és címed, de az elÅ‘bb említett koncepciók közül egy se lesz benne. Ezért amikor megnézed a junk foldered, és látod, hogy a haver levele fennakadt a szűrÅ‘n (mert a spamre jellemzÅ‘ koncepciókat, pl. “great night”, “cheap oem”, stb. csont nélkül felismerte), csak nyisd meg, és látni fogod, hogy a szűrÅ‘nek volt igaza, és az egy spammertÅ‘l jött. Én egyszer egy PayPal(-nek látszó) levéllel jártam így.

3. A “késÅ‘bbi komoly csalódásról” és a “téves biztonságérzetrÅ‘l”

Vagy 2-3 éve fejlesztek egy statisztikai spamszűrőt (és használom is!). Szerintem ennyi idő alatt csalódhattam volna, ha az elv hibás lenne. De folyamatosan 99% feletti pontosságot élvezhetek (novemberben eddig a pillanatig 99.82%-on állok). Más projektek szintén hasonló (vagy jobb) eredményről számolnak be, pl. dspam készítőjének rekordja 99.987% (1 hiba 7000 levélből). Szerintem ennyi bőven elég a spamblog.hu FUD*-ját cáfolni, főleg úgy, hogy ezt az állításukat semmivel nem támasztották alá.

Szóval hogyan lehet legyÅ‘zni egy statisztikai, pl. bayes-i szűrÅ‘t? Egy módja azért van: ha nem használod, mert bedÅ‘lsz a “szakértÅ‘k” FUD-jának. Gondolataimat elküldöm a yellowcube blogjába is, ami jelenleg spamblog.hu néven fut, kiváncsi vagyok, hogy megint kitörlik-e, mint különösen veszélyes szöveget a “legjobb spamszűrÅ‘re”.

*: FUD: Fear, Uncertainty, Doubt, azaz negatívumok és féligazságok terjesztésére alapozott kampány. Gyakran élnek vele a politikában és a marketingben.


“Azonnal tölts le egy statisztikai spamszűrÅ‘t, különben megtalállak téged is!”

7 Responses to “Hogyan gyÅ‘zzük le a statisztikai szűrÅ‘ket? Spojler jön!!!”

  1. Polesz said:

    Én a bogofiltert használom. Mostanában 99%-os a spam fogás aránya. Nagy ritkán átcsúszik 1-2.

  2. sj said:

    Ezt +1 szavazatnak veszem a statisztikai spamszűrők mellett :-)

  3. Polesz said:

    Ha van levelezőprogramba épülő pluginod akkor meggyőzhetesz hogy tied a legjobb, vagy írjak én hozzá plugint? ;-)

  4. sj said:

    Nem az a célom, hogy az én implementációm elsÅ‘bbségét bizonygassam – rengeteg más jó (és még jobb) megoldás létezik még – hanem hogy a statisztikai szűrÅ‘ket propagáljam, hogy a döntéshozók is megismerjék ezeket a programokat.

    Pluginom nincs, de ha írsz egyet, szívesen kipróbálom. Milyen klienshez tudnál egyet írni?

  5. Polesz said:

    Megnézem a claws-mail bogofilter implementációját és ahhoz tudnék egyet gyártani ha nem macerás nagyon :-)

  6. sj said:

    Jó lesz. Ha nem macerás nagyon :-)

  7. msandor said:

    +1 a tanítható szűrőkre

    nálunk talán nem ennyire “4 9-es” a statisztika, de ez betudható annak is, hogy a felhasználóink nemrég vehették saját kezelésükbe a SPAM elleni harcot, ezért még csak pedzegetik a dolgot…

Mondd el a véleményed