2008.04.18.
Nem keverve, szűrve!
A HVG 2008.04.19-ei melléklete a számÃtógépes adatbiztonságról szól, és a fenti cÃmmel egy cikk a kéretlen elektronikus levelekrÅ‘l is megemlékezik. A megkérdezett szakértÅ‘k persze most is mondtak néhány meredek állÃtást.
“… a spamek készÃtÅ‘i olyan trükköket is bevethetnek, például komolynak tűnÅ‘ szavakkal sépkelhetik meg az üzenetet, amelyek a gépi intelligenciát könnyen megtévesztik – mutat rá a gyenge pontra Fórján Tamás, az internetes védelemmel foglalkozó 2F 2000 Kft. operatÃv vezetÅ‘je.”
Ez igaz lehet általában véve, de nem a statisztikai szűrők esetében. Ezek ugyanis immunisak a szósaláta támadással szemben.
Nemes Dániel érdekes tételt állÃtott fel: “A felhasználó a sok szemetet mindenképpen észreveszi, de azt a fontosabb bajt nem feltétlenül, hogy nem érkeznek meg fontos e-mail-ek, pedig biztosan elküldték Å‘ket. [...] A másik ok, hogy a legtöbb szűrÅ‘ a Bayes-elvet használja. [...] A spamküldÅ‘k pedig szándékosan olyan szavakat helyeznek el a kéretlen levélben, amelyek a “valódi” levelekre jellemzÅ‘ek. Ez pedig két bajt is okoz: nem csak azt, hogy az ily módon álcázott spameket átengedi a szűrÅ‘, hanem azt is, hogy az önmagát folyamatosan tanÃtó spamszűrÅ‘ adatbázisa megfertÅ‘zÅ‘dik a komoly levélnek látszó spamek szókincsével. E módszerrel hosszas tanÃtás után is 2 százaléknyi marad a tévesen karanténba helyezett e-mailek aránya.”
Én némileg másképpen látom a dolgot: a statisztikai elv olyannyira sikeres, hogy számos gyártó beépÃtette a termékeibe. Különben miért tettek volna Ãgy? A valószÃnűségszámÃtást használó spamszűrÅ‘k egy olyan képességgel rendelkeznek, amilyennel egyik vetélytársuk sem: képesek megtanulni, hogy az adott felhasználó milyen leveleket szeret, és az ilyen levelekkel nagyon finoman bánnak, Ãgy aligha fordulhat az elÅ‘, hogy a jó levelek 2%-a a spam karanténban végzi.
Februárban ill. márciusban 2-2 levél került tévesen a spam karanténba, ez 0.17, ill. 0.13%, ~1200 levélbÅ‘l mindössze 2. A helyzet azonban még ennél is jobb, mert nem az üzleti levelezésembÅ‘l került a karanténba 2 levél, hanem az egyik egy hÃrlevél volt, a másik pedig egy regisztráció visszaigazolása – 2 olyan levél, amit nagyon ritkán kapok, és nem érintett tragikusan, hogy a karanténból kellett visszaállÃtani.
Az a bizonyos megfertÅ‘zÅ‘dés pedig nem túl életszerű elképzelés: egyrészt a statisztikai spamszűrÅ‘k nagy (>99.5%) pontossággal dolgoznak, Ãgy aligha lehet túl sok jó levélnek látszó spam, másrészt ha nagy néha át is csúszik egy spam, akkor azt 1 kattintással semlegesÃteni lehet, ha a felhasználó tanÃtja vele a token adatbázist.
A cikkbÅ‘l kiderül a “biztosnak látszó védekezés is”, a fehérlista. Ehhez csak össze kell Ãrni a levelezÅ‘partnerek cÃmeit, majd a levélszűrÅ‘t úgy beállÃtani, hogy utasÃtson vissza minden olyan levelet, amely ismeretlen cÃmzettÅ‘l érkezik. Az új ügyfelek sincsenek kizárva, de Å‘k csak a céges honlap saját e-mailes űrlapjának kitöltésével üzenhetnek.
Ez ugyan jónak tűnik, de a spam ellen aligha védi meg a dolgozókat, hiszen az űrlapon keresztül bárki küldhet spamet, és ehhez még az email cÃmeket sem kell kitalálnia. Ez azért is valószÃnű lehetÅ‘ség, mert egyre több helyrÅ‘l érkezik hÃr, hogy a spammerek robot programjai képesk átjutni a népszerű CAPTCHA védelmen, amit pl. a Google vagy a Hotmail is használ. Egy másik probléma ezzel a megközelÃtéssel az, hogy mit csináljanak a “civil”/egyéni felhasználók, akiknek nincs céges honlapjuk?
Nemes Dániel egy furcsa képzavart vezet be: “Másik irány, hogy a valószÃnűség-számÃtással működÅ‘ spamszűrÅ‘ mellé a levelek tartalmát elemzÅ‘ szűrÅ‘t is vásárol az ember”.
Nem akarok túl nagy poént lelőni, de a statisztikai szűrők a tartalomelemző programok csoportjába tartoznak, ugyanis ezek elolvassák a leveleket, és a tartalmuk alapján döntenek felőle. Az meg felettébb különös megoldás, ha az embernek 2 programot is vennie kell egy feldatra. Én azt tanácsolom, próbálj ki egy statisztikai szűrőt, és nem fogod megbánni.
Ha nem elégÃt ki téged ez a nyúlfarknyi cikk a HVG-ben, és többet akarsz megtudni a spamrÅ‘l, ill. a védekezés lehetÅ‘ségeirÅ‘l, akkor olvasd el a SPAMtelenül cÃmű könyvemet, amely remélhetÅ‘leg már a jövÅ‘ héten a boltokba kerül, és amelyben tételesen meg vannak cáfolva ezek az állÃtások. Ha pedig eljössz a jövÅ‘ héten szombaton a XV. Könyvfesztiválra, akkor a G60-as standon (SZAK Kiadó) 20% kedvezménnyel juthatsz hozzá egy dedikált példányhoz (15:00-16:00 között). Igyekszem majd szépen Ãrni…





February 24th, 2009 at 23:39:53
baromsag, ossze teccik keverni a spam szurest a tartalomszuressel – holott a spam szures csak kis szeletkeje a tartalomszuresnek. A leveleket meg nem elolvasni kell, hanem felismerni az adattartalmat – digitalis lenyomat, stb – tessek utana nezni a Websense DSS megoldasanak. Csak egy pelda. Szerveren egy doksi, a tartalomszuro tudja hogy abban a konyvtarban vedendo tartalmak vannak, rendszeresen felolvassa a doksikat, digitalis lenyomatokat keszit beloluk, majd ezeket tarolja. A kifele tarto level (webforgalom, stb) atmegy a szuresen, es ha a level tartalma egyezik bizonyos szazalekokban a lenyomati adatbazisokbol valamivel, akkor blokkol, stb. Tokmindegy hogy mi tortenik a kimeno levelben, fontokat allit hieroglifakra, vagy atrendezi a blokkokat, vagy csak bizonyos reszek kerulnek bele a levelbe, a tartalomszuro meg fogja fogni.
February 25th, 2009 at 9:55:02
Köszönöm a hozzászólást. Azonban nem értem, hogy jön ide a Websense DSS – ami a filtermax-ról letölthetÅ‘ pdf alapján egy adatszivárgás elleni alkalmazás – miközben itt spamszűrésrÅ‘l van szó? Az egyik alma, a másik körte…
Nem tudom, mennyire vagy képben az ujjlenyomatok képzése terén, de szerintem az sem igazán működik anélkül, hogy pl. a DSS el ne olvasná a levelet, ill. a dokumentumot.
Az emlÃtett statisztikai spamszűrÅ‘k pedig úgy működnek, hogy elolvassák a levelet, majd eldöntik a tartalom alapján, hogy a levél jó vagy sem. Azt meg nem tudom, hol állÃtottam, hogy a tartalomszűrés kimerül a spamszűrésben? Tessék egy kissé figyelmesebben olvasni …