pdf spam

Az egyik olvasó kérdezte, hogy miért olyan nagy durranás az, hogy most sok helyről pdf-ben jön a kéretlen levél? Az SG.hu oldalán megjelent egy cikk Már PDF-ben is jöhet a spam címmel. Ebben a blogban igyekszek választ adni arra, hogy mire fel ez az újítás a spammerektől.

A spammerek meglehetősen kreatív lények, ha a spam célba juttatásáról van szó. Kezdetben volt a sima szöveges spam. Ezzel azonban játszi könnyedséggel elbántak a statisztikai szűrők. Azután jött a képes (image) spam. A képek elemzése nem egyszerű feladat a spamszűrők számára. Azonban idővel ezt is megoldották. A spammereknek ismét újítaniuk kellett, ha ismét el akarják érni a korábbi kézbesítési arányt. Erre találták ki a PDF-be ágyazott spamet. De már eleve egy lépéssel tovább mentek, mert nem egyszerűen szöveget tettek PDF-be (amit egyszerűen ki lehetne nyerni
a PDF mellékletből), hanem képet, amivel már korábban is meggyűlt a bajunk.

Azt azonban nem gondolnám, hogy csak a(z ön)tanuló anti-spam programok lennének képesek elbánni ezzel a spammel. Amelyik spamszűrő képes elbánni a képes spammel, az (kis módosítással) ezzel is el tud. A clapf az image spammel úgy bánik el, hogy ha a levélben kép van, és a levél spam valószínűsége egy határ felett van (azaz a levél nagy valószínűséggel nem ham), akkor a levelet spamként jelöli meg. Én ugyan még nem kaptam PDF-spamet, de már meg sem próbálkozom a PDF melléklet kibontásával, hanem az előbbi taktikát fogom ellene használni.

Az SG.hu cikke szerint a PDF spam mérete nagyobb a szokásos képes spamnél, kb. 120 kB-ra teszi a méretét. Kaptam (kölcsön) egy PDF spamet, és annak a mérete alig 12 kB volt. Úgyhogy lehet egy olyan “büntető” tokent is készíteni, amely akkor “kerül elő”, ha kb. 10-30 kB méretű PDF van a levélben. A statisztikai algoritmus szépsége és intelligenciája a primitív heurisztikus megoldásokhoz képest, hogy ha a levél valójában jó, csak éppen egy pont ekkora PDF van benne, ez nem jelent gondot, mert akkor a ham levelekre jellemző jó tokenek ellensúlyozzák ezt a kellemetlenséget.

Ha még sose láttál PDF spamet, tessék, itt van egy:

pdf spam

A BayImg lesz a spammerek legújabb célpontja?

A Spamnation blogján Home of the free címmel jelent meg egy írás, miszerint a Pirate Bay üzemeltetői új szogáltatást indítanak BayImg néven, és ingyenes, cenzúrázatlan image hosting szolgáltatást nyújtanak bármilyen legális kép számára.

A Pirate Bay híres fogalom az Interneten, számos MP3-at, filmeket és más jellegű jogvédett alkotásokat tesz elérhetővé. Legalábbis a RIAA, MPAA meg a ki tudja milyen fantázinevű szervezetek nem szeretik őket.

De hogy mi köze BayImg-nek a spamhez? Nagyon is sok. Az image spamek körében újabban az a divat, hogy a tulajdonképpeni kép nem közvetlenül a levélben szerepel, hanem csak egy hivatkozást tartalmaz a képet hosztoló web oldalra. Bizonyos esetekben a spammerek a spam üzenetet tartalmazó képeket ingyenes image-hosting szolgáltatást nyújtó gépeken helyezik el, máskor meg erre a célra is botnetet vesznek igénybe.

A nagyobb szolgáltatók, mint pl. az imageshack.us ma már aktívan figyelik, hogy ki milyen képet tölt fel hozzájuk, és ha az spam-gyanús, akkor törlik. Azonban ha valaki képes PHP-ben megírni egy file feltöltő scriptet, akkor máris kialakította a saját ingyenes image hoszting szolgáltatását. A kisebb szolgáltatókat azonban valószínűleg nem érdekli a feltöltött tartalom, vagy nincs erejük annak áttekintésére, úgyhogy sok szerencsét, ha le akarod vetetni a spam képet, mégha találsz is kontakt címet az adott géphez.

A BayImg nem lesz kispályás a téren, hiszen a Pirate Bay személyzete, sávszélessége és tárolókapacitása áll mögötte. A spammerek és vírusírók már dörzsölik is a tenyerüket, ha valóban cenzúra mentes lesz a szolgáltatás. Nem kell nagy jóstehetség annak megállapításához, hogy a BayImg web oldalának nagy átkattintási aránya lesz a levelekben, mert a Pirate Bay-nek pozitív csengése van a netezők körében, egyfajta márkanév lett az alapszolgáltatásnak köszönhetően.

A Spamnation bloggere meg is jegyzi, hogy a spamszűrő fejlesztőknek érdemes komolyan megfontolniuk, hogy az összes olyan levelet spamként jelöljék meg, amelyben szerepel a BayImg web oldala, és ismeretlen személytől érkezik.

A problémát alapvetően az jelenti, hogy a spammerek mindent fel(ill. ki)használnak céljaikra, ami ingyen van. Nem csak az ingyenes webmail postafiókokat, de az ingyenes web és -blog hoszting szolgáltatásokat is.

A LEGJOBB spamszűrő

A Yellowcube blogjában olvastam MPP Desktop a legjobb spamszűrő címmel egy PC World tesztről, amelyben 17 különféle spamszűrőt vizsgáltak meg, és a konklúzió: óriási különbségek voltak.

Tegnap (2007.06.14. 17:45:xx CEST) egy kommentben leírtam saját gondolataimat a tesztről és az eredményről. Válasz helyett meglepődve vettem tudomásul ma reggel (2007.06.15. 08:50:xx CEST), hogy eltűnt a hozzászólásom, sőt az egész cikk read-only üzemmódba váltott, amelyhez nem lehet megjegyzéseket fűzni.

A PC World teszt és az eredmény azonban fontosabb annál, hogy egy kattintással el lehessen kenni, ezért igyekszem a saját blogomban felidézni, hogy mit küldtem el a Yellowcube blogjába. Ez annál is egyszerűbb lesz, mert a böngészőm Back gombja segített ebben.

A PC World cikket (2007. júniusi szám, 66-69. oldal) egyébként Tószegi Szabolcs írta, feltételezem, a tesztet is ő végezte. A vizsgálatban számos nagy gyártó terméke is szerepelt. A teszt során 5000 spamet és 1500 jó levelet használtak fel, és ezekből 500-500 levéllel tanították azokat a szűrőket, amelyek erre lehetőséget adnak. Ezután a maradék 4500+1000 levelet kellett a szűrőknek kategorizálni. Tószegi leírja, hogy minden terméket az alapértelmezett beállításokkal használt – bizonyára gondolt az egyszeri felhasználókra is.

Némely nagy gyártók termékei (pl. Norton 360, McAfee Internet Security, Kaspersky Internet Security), elég csúnyán szerepeltek a tesztben, ugyanis a magyar (és jó) levelek jelentős részét (12-30%) spamként értékelték. A tesztben szerepelt pl. a Thunderbird 2.0 is, amely 13%-os fals pozitív (amikor a szűrő jó levelet tévesen spamként osztályoz) hibát vétett, és csak a spamek 90%-t ismerte fel. Az 1. helyen pedig a magyar fejlesztésű MPP Desktop végzett. A Yellowcube blog szerint “Az
MPP a 4.500 levélből mindössze 4-et azonosított tévesen spamként, míg a kéretlen levelek 99,22%-át szűrte ki.”

Az újságcikk meg is jegyzi, hogy a legjobb spamszűrőket az erre szakosodott fejlesztők készítik. Ezt magam is így gondolom, ezért én is végeztem egy gyors tesztet az MPP Desktoppal. Fogtam a legutolsó ~2600 spam levelemet, és átküldtem az MPP Desktop legutolsó verzióján. 2638 közül 2531 darabot ismert fel, ami 2531/2638 = 95.94%. Ez ugyan nem éri el a tesztben szereplő 99.22%-ot, de ahhoz képest nem is rossz, hogy az MPP nem tanítható szűrő.

Ami a PC World tesztelését illeti – ha már tanuló szűrőket is vizsgáltak – van 1-2 apró aggályom. A statisztikai alapú spamszűrők tanításához édeskevés 500-500 levél. Ha valaki komoly tesztet akar végezni, akkor egy hosszabb idő (mondjuk 3-6 hónap) spam ill. ham leveleit kell összegyűjtenie. 1000-2000 levél per ham ill. spam corpus alatt nem igazán / nehezen érik el a statisztikai alapú spamszűrők a 99% feletti eredményt.

Nem derült ki (számomra) a PC World cikkből, hogy honnan vették azt a bizonyos 5000+1500 levelet. Egy korrekt vizsgálat esetében a tanítást követően beérkezett levelekkel történik a vizsgálat. Azaz, ha pl. januártól március végéig tanítottam a szűrőt, akkor az áprilistól beérkezett levelekkel végzem a tesztelést. 2×500 levéllel való tanítás után 5500 levéllel tesztelni, finoman szólva a statisztikai szűrőkkel kapcsolatos ismeretek hiányára utal. Nem is csoda, ha sok fals pozitív hibát vétett a Thunderbird.

Az én MPP tesztemre visszatérve nagyon jól rávilágít a statisztikai és az egyéb típusú szűrők közötti különbségre. Kaptam egy spamet, amelyben valaki betegápolót keres, és ezt nem ismerte fel az MPP Desktop spamként. Ha valaki azzal szórakozik, hogy ezt a bizonyos típusú spamet elküldi 2000 alkalommal, akkor az mind a 2000-szer át fog csúszni az MPP-n, egyszerűen azért, mert a felhasználónak semmi lehetősége nincs a szűrő eredményét befolyásolni (=tanítani). Ezzel szemben egy statisztikai alapú szűrőnek megtanítom, hogy ez a levél spam, és onnantól fogva nem követi el ugyanezt a hibát. Elismerem, hogy az MPP fejlesztők is módosíthatják a programjukat úgy, hogy felismerje a betegápolós spamet, csak éppen sokáig tart, mire elkészül (legalábbis a tanításhoz képest).

Ami a cikkben említett magyar sajátosságokat illeti, szerintem nincs ilyen. Egyszerűen arról van szó, hogy a külföldi gyártók nem (igazán) foglalkoznak a magyar spamekkel, mert az angol, orosz, kínai, koreai, japán, … nyelvű spamhez képest elenyésző a mennyisége, így nem kerül be az adatbázisukba, ezért a magyar spamet sokszor átengedik ezek a termékek. Egy tanuló szűrőnek ez sem gond, képes megtanulni (elvileg) bármilyen nyelvű spamet.

Ezzel szemben a nem tanítható spamszűrők esetében a program fejlesztői döntik el, hogy az én melyik levelem spam ill. jó levél, ezért sose érhetik el azt a pontosságot, amelyre az igazi statisztikai alapú szűrők képesek. Azzal az apró dologgal pedig végképp nem képesek lépést tartani a nem tanítható szűrők, hogy az egyik levél valakinek spam, más valakinek pedig jó levél. Egy testre szabható Bayes-i szűrő esetén ez a világ legtermészetesebb dolga.

Végül, csak az érdekesség kedvéért, hogy mire képes egy igazi statisztikai alapú szűrő: az én rekordom egy jó 15 napos teszt alatt – összesen 1009 (ham+spam) levélből 1 spam csúszott be – 99.9%, ami kb. 40x pontosabb a 95.96%-nál. És ez valóban óriási különbség.

Szerkesztés: az említett 15 napos teszt összesített erdeménye lett 99.9%, ha csak a spam felismerési arányt tekintjük (mert az elért 95.96% is erre vonatkozik), az ~450/451 = 99.77%, amely csak 17.5x jobb. Elnézést a figyelmetlenségért.

Újabb spam trükkök fenyegetik a kis- és középméretű vállalkozásokat

Alig lélegezhettünk fel egy kicsit, hogy a spam királyt lefogták, máris arra kell ébrednünk, hogy a spammerek mindent bevetnek, hogy leveleik eljussanak a felhasználókhoz. Az SC Magazine a Report: New spam tactics threaten SMEs cikkben arról számol be, hogy a MessageLabs szerint csúcsot észleltek a spam mennyiségében, amelyeket célzottan, egyedi domainekre küldtek. Több, mint 10,000 spam érkezett májusban egy domainre.

A spammerek időről-időre taktikát váltanak, és legújabban nem csatolt képekben továbbítják a tulajdonképpeni spamet, hanem olyan hoszting web oldalakon helyezik el ezeket a képeket, amelyek nem igényelnek előzetes regisztrációt. A levélben pedig csak a képre történő hivatkozást helyezik el.

Noha maga a trükk nem új, legfeljebb mostanság kezdték el a spammerek tömegesen alkalmazni. Éppen időben: mára megtanulták az antispam alkalmazások, hogyan bánjanak el az image spammel. Így a versenyfutás folytatódik tovább.

Szakértők szerint egyébként ez ugyanaz a csoport, akik az Imageshack nevű ingyenes image hoszting oldalt támadták. Az elemzők azt is megjegyzik, hogy ez a probléma mindaddig létezni fog, amíg az Imageshack és társai be nem vezetik a kötelező regisztrációt.

Nem lennék meglepődve, ha a jelenség elterjedése miatt a vállalati hálózatokon előbb-utóbb blokkolnák az ingyenes image hoszting oldalakat, ill. ezek meg fognak jelenni a SURBL adatbázisokban is. A levelezőprogramok pedig régóta támogatják a távoli képek megjelenítésének letiltását, ezt is érdemes használni.