Uncategorized

pdf spam

Az egyik olvasó kérdezte, hogy miért olyan nagy durranás az, hogy most sok helyről pdf-ben jön a kéretlen levél? Az SG.hu oldalán megjelent egy cikk Már PDF-ben is jöhet a spam címmel. Ebben a blogban igyekszek választ adni arra, hogy mire fel ez az újítás a spammerektől.

A spammerek meglehetősen kreatív lények, ha a spam célba juttatásáról van szó. Kezdetben volt a sima szöveges spam. Ezzel azonban játszi könnyedséggel elbántak a statisztikai szűrők. Azután jött a képes (image) spam. A képek elemzése nem egyszerű feladat a spamszűrők számára. Azonban idővel ezt is megoldották. A spammereknek ismét újítaniuk kellett, ha ismét el akarják érni a korábbi kézbesítési arányt. Erre találták ki a PDF-be ágyazott spamet. De már eleve egy lépéssel tovább mentek, mert nem egyszerűen szöveget tettek PDF-be (amit egyszerűen ki lehetne nyerni
a PDF mellékletből), hanem képet, amivel már korábban is meggyűlt a bajunk.

Azt azonban nem gondolnám, hogy csak a(z ön)tanuló anti-spam programok lennének képesek elbánni ezzel a spammel. Amelyik spamszűrő képes elbánni a képes spammel, az (kis módosítással) ezzel is el tud. A clapf az image spammel úgy bánik el, hogy ha a levélben kép van, és a levél spam valószínűsége egy határ felett van (azaz a levél nagy valószínűséggel nem ham), akkor a levelet spamként jelöli meg. Én ugyan még nem kaptam PDF-spamet, de már meg sem próbálkozom a PDF melléklet kibontásával, hanem az előbbi taktikát fogom ellene használni.

Az SG.hu cikke szerint a PDF spam mérete nagyobb a szokásos képes spamnél, kb. 120 kB-ra teszi a méretét. Kaptam (kölcsön) egy PDF spamet, és annak a mérete alig 12 kB volt. Úgyhogy lehet egy olyan “büntető” tokent is készíteni, amely akkor “kerül elő”, ha kb. 10-30 kB méretű PDF van a levélben. A statisztikai algoritmus szépsége és intelligenciája a primitív heurisztikus megoldásokhoz képest, hogy ha a levél valójában jó, csak éppen egy pont ekkora PDF van benne, ez nem jelent gondot, mert akkor a ham levelekre jellemző jó tokenek ellensúlyozzák ezt a kellemetlenséget.

Ha még sose láttál PDF spamet, tessék, itt van egy:

pdf spam