2007.03.01.
Spam károk és megoldások
Dr. Fehér Gábor készÃtett egy dokumentumot Spam károk és megoldások cÃmmel. Szó van az Ãrásban arról, hogy mi a spam, ill. hogyan lehet ellene védekezni. Az külön kedves volt a szememnek, hogy megemlÃtette a Bayesian szűrést is, de két dologban nem értünk egyet. Fehér szerint a statisztikai szűrÅ‘kkel 2 probléma is van:
- folyamatosan tanÃtani kell a ham és a spam adatbázist
- a spam és ham szavak egyediek az egyes felhasználókra nézve, és nincs globális ham ill. spam táblázat
Az valóban igaz, hogy a statisztikai elven működÅ‘ szűrÅ‘ket tanÃtani kell ahhoz, hogy hatékonyan tudják osztályozni a leveleinket. Jó esetben, amikor harcra fogunk egy ilyen szűrÅ‘t, van valamennyi jó levelünk (=ham), ill. kéretlen levélszemetünk (=spam). Ha pedig Ãgy van, akkor a kezdeti tanÃtás igen egyszerűen, pár kattintással, esetleg néhány parancs kiadásával elvégezhetÅ‘.
Miután elkészÃtettük az adatbázist, azután már csak akkor kell tanÃtani a szűrÅ‘nk “szótárát”, ha a spamszűrÅ‘nk hibásan jelölt meg egy levelet. Ahogy telik az idÅ‘, és a szűrÅ‘ egyre jobban megismeri, hogy mely leveleket szeretjük, és melyeket nem, egyre pontosabb lesz, és egyre kevesebbet kell tanÃtani.
Én is használok egy ilyen elven működÅ‘ szűrÅ‘t, jelenleg kb. 2000 ham, ill. ennél valamivel több spam levél szavait tartalmazza az adatbázisa. Mostanság már, ha heti 1 levéllel kell tanÃtani, akkor sokat mondok. Ezért saját tapasztalataim alapján állÃthatom, hogy ha egy bizonyos idÅ‘ (ha jobban tetszik levélszám) után már egyáltalán nem kell _folyamatosan_ tanÃtani.
Nem hallgatom el azt sem, hogy a spammerek idÅ‘nként új dolgokat találnak ki, ezért ha néha mégis beesik egy spam, akkor azzal a levéllel (eseti jelleggel) tanÃtom a szűrÅ‘t, és kész. Mintha védÅ‘oltást kaptam volna, azt a fajta spamet nem látom többet. Probléma megoldva.
A másik tévedésre (miszerint nincs globális spam, ill. ham adatbázis) legyen elég annyi, hogy az én spamszűrőm alapértelmezésben kifejezetten globális adatbázist használ.
Amit Fehér hibaként ró fel – ti. hogy minden felhasználónak saját token adatbázisa van – az valójában rendkÃvüli elÅ‘ny. Hiszen Ãgy minden felhasználó testreszabhatja magának, hogy Å‘ mit tart spam levélnek, ill. mit nem. Ez adja a lehetÅ‘ legnagyobb szabadságot a felhasználóknak. Nincs ugyanis többé az a kellemetlen helyzet, hogy a rendszergazda beállÃt valamit, vagy a gyártó ki tudja mi alapján állÃt össze egy uniformizált spam adatbázist, aztán reménykedjünk, hogy az nekünk is jó lesz. (Nem lesz jó, éppen úgy, mint az egyen méretű cipÅ‘, valakinek biztosan szorÃtani fog valahol).
Azt is hozzá kell tenni, hogy egyáltalán nem rossz az, ha egy adott cégnél egy globális spam adatbázist használnak. Ebben az esetben ugyanis nagyon hamar eléri az adatbázis azt a “kritikus tömeget”, amellyel már rendkÃvül precÃzen tudja osztályozni a leveleket.
Néhány helyen azonban ötvözik a két megoldás elÅ‘nyeit. KészÃtenek egy globális adatbázist, amelyet odaadnak minden felhasználónak, akik aztán a továbbiakban testre tudják szabni, csak saját maguknak. Ha valaki pedig nem akar vagy tud a tanÃtással foglalkozni, az használhatja az alapértelmezett globális adatbázist.
Az egyénre szabott adatbázisoknak van egy további elÅ‘nyük. Tegyük fel, hogy egy spammer addig teszteli a levelét egy bizonyos szűrÅ‘vel, amÃg az át nem csúszik rajta. Ez egyáltalán nem lehetetlen, fÅ‘leg akkor, ha a spammer is megveszi azt a kereskedelmi spamszűrÅ‘t, ami az áldozatnál is védi a hálózatot. (Manapság már – szinte – minden appliance esetén lehetséges az ingyenes kipróbálás). De az már a lehetetlenséggel határos, hogy egy adott spam mondjuk 20-30 dolgozó 20-30 testre szabott (és ezért különbözÅ‘) adatbázisán is átverekedje magát.
Érveimet, gondolataimat elküldtem a YellowCube blogba is, ahol hivatkoztak Fehér Gábor prezentációjára. Kiváncsi vagyok a folytatásra.




