2007.07.30.
Excel spam
Már meg se lepÅ‘dtem, amikor az SC Magazinban arról olvastam, hogy a spammerek Excel mellékletek segÃtségével próbálnak meg a spamszűrÅ‘kön átjutni. Amióta a bűnözÅ‘k átnyergeltek a PDF mellékletekre, ez a lépés várható volt. A spam tartalma nem változott, csak a szokásos tÅ‘zsde spam.
A clapf egy idÅ‘ben gocr-t futtatott a képes spameken, hogy kinyerje belÅ‘lük a szöveget, de aztán letettem a dologról. Túl erÅ‘forrás igényes volt a művelet (kb. 300 ms alatt futott le a gépemen), és az eredmény sem volt mindig értékelhetÅ‘. A PDF spamnél – amikor megláttam, hogy ebben is csak kép van – már meg sem próbáltam kinyerni a melléklet tartalmát, és az Excel fájloknál sem fogok ezzel izzadni, hanem a melléklet tulajdonságai (és nem a tartalma alapján) hozzárendelek néhány spam tokent a levélhez. Ha pedig annak tartalma nem elég jó, akkor nagy valószÃnűséggel a kukában végzi a levél. Úgy hiszem, a statisztikai szűrÅ‘k számára ez a/egy helyes megközelÃtés.
Amir Lev, a CommTouch fÅ‘ technológusa meg is jegyzi, hogy számÃt arra, hogy a közeljövÅ‘ben találkozunk még Word, Powerpoint és más Microsoft mellékletekbe ágyazott spammel. Ezeknek az a ‘kellemes’ tulajdonságuk is megvan, hogy Unix alatt – ahol a vállalati spamszűrÅ‘k (egy része) fut – hagyományosan kihÃvás a redmondi formátumok helyes kezelése.





July 30th, 2007 at 15:19:14
Vitatom. Mind a catdoc mind az antiword elfogadható sebességgel futnak (ez Word document fájlokra áll). Excelre is vannak dolgok, de ha az ember nagyon akar, még sokféle megoldást találhat a problémára.
July 30th, 2007 at 19:39:57
Az elfogadható sebesség mást jelent, ha a desktopodon egy .doc fájlt akarsz megnézni catdoc-kal, vagy ha egy mail gateway-n paralel több levéllel kell ugyanezt megtenned. ElÅ‘bbin 2-3 sec bÅ‘ven belefér, mÃg utóbbi helyen ez már lassú lehet. Desktopon egy extra processz – system(), exec*() – nem probléma, mÃg az utóbbin ez 15-20 extra (és erÅ‘forrásigényes) processzt okoz, ami nem feltétlen vállalható.
De igazából annak nincs értelme (szerintem), hogy kicsomagoljak egy zip-et, majd abból kiszedjek egy ppt-t, amiben van egy gif, amin a gocr-t futtatva meg tudom állapÃtani, hogy olyan szinten össze van csÃkozva, hogy értékelhetetlen az eredmény. Sok hűhó (erÅ‘forrás) a semmiért.
Én találtam egy elfogadható megoldást a problémára, nálam eddig jó.