Uncategorized

Spam károk és megoldások

Dr. Fehér Gábor készített egy dokumentumot Spam károk és megoldások címmel. Szó van az írásban arról, hogy mi a spam, ill. hogyan lehet ellene védekezni. Az külön kedves volt a szememnek, hogy megemlítette a Bayesian szűrést is, de két dologban nem értünk egyet. Fehér szerint a statisztikai szűrőkkel 2 probléma is van:

  1. folyamatosan tanítani kell a ham és a spam adatbázist
  2. a spam és ham szavak egyediek az egyes felhasználókra nézve, és nincs globális ham ill. spam táblázat

Az valóban igaz, hogy a statisztikai elven működő szűrőket tanítani kell ahhoz, hogy hatékonyan tudják osztályozni a leveleinket. Jó esetben, amikor harcra fogunk egy ilyen szűrőt, van valamennyi jó levelünk (=ham), ill. kéretlen levélszemetünk (=spam). Ha pedig így van, akkor a kezdeti tanítás igen egyszerűen, pár kattintással, esetleg néhány parancs kiadásával elvégezhető.

Miután elkészítettük az adatbázist, azután már csak akkor kell tanítani a szűrőnk “szótárát”, ha a spamszűrőnk hibásan jelölt meg egy levelet. Ahogy telik az idő, és a szűrő egyre jobban megismeri, hogy mely leveleket szeretjük, és melyeket nem, egyre pontosabb lesz, és egyre kevesebbet kell tanítani.

Én is használok egy ilyen elven működő szűrőt, jelenleg kb. 2000 ham, ill. ennél valamivel több spam levél szavait tartalmazza az adatbázisa. Mostanság már, ha heti 1 levéllel kell tanítani, akkor sokat mondok. Ezért saját tapasztalataim alapján állíthatom, hogy ha egy bizonyos idő (ha jobban tetszik levélszám) után már egyáltalán nem kell _folyamatosan_ tanítani.

Nem hallgatom el azt sem, hogy a spammerek időnként új dolgokat találnak ki, ezért ha néha mégis beesik egy spam, akkor azzal a levéllel (eseti jelleggel) tanítom a szűrőt, és kész. Mintha védőoltást kaptam volna, azt a fajta spamet nem látom többet. Probléma megoldva.

A másik tévedésre (miszerint nincs globális spam, ill. ham adatbázis) legyen elég annyi, hogy az én spamszűrőm alapértelmezésben kifejezetten globális adatbázist használ.

Amit Fehér hibaként ró fel – ti. hogy minden felhasználónak saját token adatbázisa van – az valójában rendkívüli előny. Hiszen így minden felhasználó testreszabhatja magának, hogy ő mit tart spam levélnek, ill. mit nem. Ez adja a lehető legnagyobb szabadságot a felhasználóknak. Nincs ugyanis többé az a kellemetlen helyzet, hogy a rendszergazda beállít valamit, vagy a gyártó ki tudja mi alapján állít össze egy uniformizált spam adatbázist, aztán reménykedjünk, hogy az nekünk is jó lesz. (Nem lesz jó, éppen úgy, mint az egyen méretű cipő, valakinek biztosan szorítani fog valahol).

Azt is hozzá kell tenni, hogy egyáltalán nem rossz az, ha egy adott cégnél egy globális spam adatbázist használnak. Ebben az esetben ugyanis nagyon hamar eléri az adatbázis azt a “kritikus tömeget”, amellyel már rendkívül precízen tudja osztályozni a leveleket.

Néhány helyen azonban ötvözik a két megoldás előnyeit. Készítenek egy globális adatbázist, amelyet odaadnak minden felhasználónak, akik aztán a továbbiakban testre tudják szabni, csak saját maguknak. Ha valaki pedig nem akar vagy tud a tanítással foglalkozni, az használhatja az alapértelmezett globális adatbázist.

Az egyénre szabott adatbázisoknak van egy további előnyük. Tegyük fel, hogy egy spammer addig teszteli a levelét egy bizonyos szűrővel, amíg az át nem csúszik rajta. Ez egyáltalán nem lehetetlen, főleg akkor, ha a spammer is megveszi azt a kereskedelmi spamszűrőt, ami az áldozatnál is védi a hálózatot. (Manapság már – szinte – minden appliance esetén lehetséges az ingyenes kipróbálás). De az már a lehetetlenséggel határos, hogy egy adott spam mondjuk 20-30 dolgozó 20-30 testre szabott (és ezért különböző) adatbázisán is átverekedje magát.

Érveimet, gondolataimat elküldtem a YellowCube blogba is, ahol hivatkoztak Fehér Gábor prezentációjára. Kiváncsi vagyok a folytatásra.