Uncategorized

Micro spam – megoldva

A hónapban meglehetős bánatot okozott az, hogy 3 micro/pico spam is becsúszott. 3 spam nem a világ, de már szinte alkotói válságba kerülök, amíg meg nem oldom a problémát. Az alábbi példán az is szembeötlik, hogy aligha lehet ezt a levelet hagyományos értelemben vett spamnek tekinteni: sehol egy URL, sehol egy termék neve, de még egy ár sincs.

Date: Wed, 19 Sep 2007 03:10:06 +0100
From: Dalton Ferrell <khcarlene@juniormail.com>
To: sj@xxxx.hu
Subject: .)!-[[!  - [ [ !*]*: +.]    -++ !]

S:tooo.ccc k F]D:E.G
Last 0.04
Ta*rg  et 0.12

Jellegzetes azonban a tárgy sora: tele van olyan karakterekkel, amelyekből értelmes token aligha származik. Amikor először találkoztam ezzel a típusú spammel, a spam valószínűsége határozottan a jó levelek értéke felett volt (azaz a szűrő biztos volt abban, hogy ez nem jó levél), de alatta maradt a spam limitnek, azaz a szűrő csak a vállát vonogatta, hogy a levél se nem ham, se nem spam.

Ezért első ötletként kipróbáltam azt, hogy ha a szűrő bizonytalan, akkor kérdezzen meg egy feketelistát, hátha szerepel rajta a feladó. Ha igen, akkor hozzáad egy RBL* tokent, ami növeli a spam valószínűséget. Ez szépen megfogott jó pár ‘unsure’ levelet. A fentebb látható azonban nem szerepelt (még) feketelistán, ezért bevetettem még egy trükköt: ha a levélben nem szerepel értékelhető token a Subject sorban, akkor beilleszt a mátrixba egy NO_SUBJECT* nevű extra tokent, ami szintén növeli a spam valószínűséget. Ezzel pedig már ezt a levelet is megfogtam. Ha pedig egyszer megfogtam, el nem eresztem: a spamszűrő ugyanis megtanulja azokat az leveleket, amelyekben új adat van. Így a probléma reményeim szerint megoldva.

Ez a kis mocskos micro spam okozta bosszankodás azonban hozzájárult ahhoz, hogy a clapf egy következő szintre lépjen: a reputációs megoldások körébe.