2008.09.12.
Ha nem bírnád ki holnapig
Ha már tűkön ülsz, nem bírsz magaddal, és már elvonási tüneteid vannak, mert nem tudod, miről fogok a holnapi Ubuntu konferencia végén beszélni, akkor íme a bevezető történet. Ha kiváncsi vagy, akkor az előadás anyagát pdf-ben letöltheted a bal felső sarokból. Önmagában nem biztos, hogy érthető a pdf, de aki engem választ 16:30-tól, az mindent érteni fog. A diákon pedig nem a szokásos unalmas felsorolások lesznek, hanem vizuális élményt ígérek.
Íme, a bevezető “történet”:
A statisztikai spamszűrők 2002-ben kerültek reflektorfénybe, amikor Paul Graham megírta a mára híressé vált „Terv a spamre” című esszéjét.
Példáját többen követték, és megírták a saját spamszűrőjüket. Az elv sikerét mi sem jelzi jobban, hogy ma már számos kereskedelmi termék alkalmazza valamilyen módon a bayes-i elvet, sőt még az alapvetően más elven működő SpamAssassin-ban is van már egy bayes-i modul.
Az elv egy XVIII. században élt tudós angol pap, Thomas Bayes nevéhez fűződik, ő alkotta meg a feltételes valószínűség elméletét, és ezt használják a statisztikai spamszűrők (nagy része).
Más megoldások esetén a felhasználó legfeljebb káromkodhat vagy beletörődve nyomogathatja a törlés gombot, ha beesik egy halom spam az email címére. A statisztikai spamszűrőkkel azonban a felhasználó tehet valamit a spamek ellen: taníthatja a szűrőt.
A tanítással a program nem csak azt tanulja meg, hogy milyen leveleket szeretünk, de a spammerek trükkjeit is, és rendkívül pontosan felismeri a kéretlen leveleket, míg a jó leveleinkkel finoman bánik.
Ha csak egy
dolgot emelhetnék ki, hogy miért érdemes egy statisztikai spamszűrőt kipróbálni, akkor az az extrém pontosság: játszi könnyedséggel el lehet érni a 99.5%-os pontosságot, de megfelelő tanítással akár a 99.9% is elérhető.
Két számot szeretnék példaként megosztani, hogy a mindennapi használat során kb. mire képes egy ilyen program. Nálam kb. 5-600 spamből legfeljebb egy csúszik át, a tipikus fals pozitív hiba pedig kevesebb, mint 1 tévesztés 1000 levelenként. A havi átlagos pontosság összesen ~5000 levélnél ~99.88%.



