2007.07.30.
Excel spam
Már meg se lepődtem, amikor az SC Magazinban arról olvastam, hogy a spammerek Excel mellékletek segítségével próbálnak meg a spamszűrőkön átjutni. Amióta a bűnözők átnyergeltek a PDF mellékletekre, ez a lépés várható volt. A spam tartalma nem változott, csak a szokásos tőzsde spam.
A clapf egy időben gocr-t futtatott a képes spameken, hogy kinyerje belőlük a szöveget, de aztán letettem a dologról. Túl erőforrás igényes volt a művelet (kb. 300 ms alatt futott le a gépemen), és az eredmény sem volt mindig értékelhető. A PDF spamnél – amikor megláttam, hogy ebben is csak kép van – már meg sem próbáltam kinyerni a melléklet tartalmát, és az Excel fájloknál sem fogok ezzel izzadni, hanem a melléklet tulajdonságai (és nem a tartalma alapján) hozzárendelek néhány spam tokent a levélhez. Ha pedig annak tartalma nem elég jó, akkor nagy valószínűséggel a kukában végzi a levél. Úgy hiszem, a statisztikai szűrők számára ez a/egy helyes megközelítés.
Amir Lev, a CommTouch fő technológusa meg is jegyzi, hogy számít arra, hogy a közeljövőben találkozunk még Word, Powerpoint és más Microsoft mellékletekbe ágyazott spammel. Ezeknek az a ‘kellemes’ tulajdonságuk is megvan, hogy Unix alatt – ahol a vállalati spamszűrők (egy része) fut – hagyományosan kihívás a redmondi formátumok helyes kezelése.





July 30th, 2007 at 15:19:14
Vitatom. Mind a catdoc mind az antiword elfogadható sebességgel futnak (ez Word document fájlokra áll). Excelre is vannak dolgok, de ha az ember nagyon akar, még sokféle megoldást találhat a problémára.
July 30th, 2007 at 19:39:57
Az elfogadható sebesség mást jelent, ha a desktopodon egy .doc fájlt akarsz megnézni catdoc-kal, vagy ha egy mail gateway-n paralel több levéllel kell ugyanezt megtenned. Előbbin 2-3 sec bőven belefér, míg utóbbi helyen ez már lassú lehet. Desktopon egy extra processz – system(), exec*() – nem probléma, míg az utóbbin ez 15-20 extra (és erőforrásigényes) processzt okoz, ami nem feltétlen vállalható.
De igazából annak nincs értelme (szerintem), hogy kicsomagoljak egy zip-et, majd abból kiszedjek egy ppt-t, amiben van egy gif, amin a gocr-t futtatva meg tudom állapítani, hogy olyan szinten össze van csíkozva, hogy értékelhetetlen az eredmény. Sok hűhó (erőforrás) a semmiért.
Én találtam egy elfogadható megoldást a problémára, nálam eddig jó.