2008.05.31.
Májusi statisztika
Rendszeresen összesítést végzek, hogy mire képes a clapf a gépemen futtatva. A májusi eredmények részben jók, részben nem annyira jók. Ilyen még nem volt, de májusban ~2254 spamet kaptam, és nem fogod elhinni, de a clapf 100.00% eredményt ért el, azaz egyetlen spam sem csúszott át.
A májusi fals pozitív eredmény azonban már nem ilyen rózsás, de meg tudom magyarázni kérem. Az inbox-omba 1321 levél esett be, és ebből bizony 7 fals pozitív lett (0.53%). (Valójában több ham levelem jött különféle folderekbe szortírozva, amit most nem számoltam – tehát az összesített FP arány azért nem ilyen vészes.)
Nem szoktak a statisztikai szűrők így viselkedni, úgyhogy némi mentegetőzés következik. A clapf/spamdrop automatikus tanulás módban fut. Jönnek levelek mindenféle levelezőlistáról, amelyeket a spam teszt után mappákba szortírozok egy maildrop konfiggal, amelynek a végén egy szabály a spamet a junk folderbe teszi. Ott követtem el egy PEBKAC-ot, hogy ez a szabály leghátul volt, így az történt, hogy a program bár több (angol) nyelvű levelet is megtanult spamként, de azok rendben mentek tovább a szokásos folderbe. Így aztán a token adatbázisban összegyűlt jó pár eléggé kajlára sikeredett token.
Így tehát módosítottam a .mailfilter konfigomat, majd egy sóhajtás után 3 tanítással kezdtem májust (3 angol hírlevél), és vártam, hogy az idő haladtával a korrekciós tanításokkal semlegesített tokenek kihulljanak a token adatbázisból az éjjeli törlések során. Ha a kritikus FP hibákat nézzük, akkor egyet számoltam össze. Ez egy ilyen hónap volt…




