2008.09.12.
Ha nem bírnád ki holnapig
Ha már tűkön ülsz, nem bírsz magaddal, és már elvonási tüneteid vannak, mert nem tudod, miről fogok a holnapi Ubuntu konferencia végén beszélni, akkor íme a bevezető történet. Ha kiváncsi vagy, akkor az előadás anyagát pdf-ben letöltheted a bal felső sarokból. Önmagában nem biztos, hogy érthető a pdf, de aki engem választ 16:30-tól, az mindent érteni fog. A diákon pedig nem a szokásos unalmas felsorolások lesznek, hanem vizuális élményt ígérek.
Íme, a bevezető “történet”:
A statisztikai spamszűrők 2002-ben kerültek reflektorfénybe, amikor Paul Graham megírta a mára híressé vált „Terv a spamre” című esszéjét.
Példáját többen követték, és megírták a saját spamszűrőjüket. Az elv sikerét mi sem jelzi jobban, hogy ma már számos kereskedelmi termék alkalmazza valamilyen módon a bayes-i elvet, sőt még az alapvetően más elven működő SpamAssassin-ban is van már egy bayes-i modul.
Az elv egy XVIII. században élt tudós angol pap, Thomas Bayes nevéhez fűződik, ő alkotta meg a feltételes valószínűség elméletét, és ezt használják a statisztikai spamszűrők (nagy része).
Más megoldások esetén a felhasználó legfeljebb káromkodhat vagy beletörődve nyomogathatja a törlés gombot, ha beesik egy halom spam az email címére. A statisztikai spamszűrőkkel azonban a felhasználó tehet valamit a spamek ellen: taníthatja a szűrőt.
A tanítással a program nem csak azt tanulja meg, hogy milyen leveleket szeretünk, de a spammerek trükkjeit is, és rendkívül pontosan felismeri a kéretlen leveleket, míg a jó leveleinkkel finoman bánik.
Ha csak egy
dolgot emelhetnék ki, hogy miért érdemes egy statisztikai spamszűrőt kipróbálni, akkor az az extrém pontosság: játszi könnyedséggel el lehet érni a 99.5%-os pontosságot, de megfelelő tanítással akár a 99.9% is elérhető.
Két számot szeretnék példaként megosztani, hogy a mindennapi használat során kb. mire képes egy ilyen program. Nálam kb. 5-600 spamből legfeljebb egy csúszik át, a tipikus fals pozitív hiba pedig kevesebb, mint 1 tévesztés 1000 levelenként. A havi átlagos pontosság összesen ~5000 levélnél ~99.88%.





September 12th, 2008 at 19:30:07
[...] témakör, ugy hogy SJ spamszűrős előadására megyek ebben az idősávban. Bár, ő már felrakta blogjára az előadásának tartalmát is [...]
September 12th, 2008 at 20:20:37
Megtisztelsz, hogy engem választasz.
Amint az pár dián is látszik, lezser stílusban, de szakmailag igényesen igyekszem megközelíteni a témát. Remélem, 1-2 slide-dal némi humort is tudok majd az előadásba csempészni.
Ha pedig hangosan beszélnék, akkor nyugodtan szóljatok, mert nem akarnám ebben a kései időpontban felébreszteni a hátsó sorokban szunyókálókat …
September 13th, 2008 at 19:47:54
Hát. Én nem ilyesmire számítottam. (a diát nem néztem meg előtte).
Sok technikai dolog helyett pl. egy könnyedebb, demóval tarkított előadás, jobban tetszett volna.
Mivel alapvetően ilyesmivel nem foglalkozok, és a konferencia se hardcore hozzáértőknek szólt (elvileg) szerintem jobb lett volna, ha kevesebb száraz technikai, tény, meg stb. lett volna.
Amugy az előadás, stb nem volt rossz
(sőt, maga az előadás is jó, egy olyan helyen, ahol mélyebb témákat érintenek, vagy én jól elértelmeztem ezt az ubuntu konferenciat)
September 13th, 2008 at 21:58:48
Hmmm…. végül is volt benne demó, de némi mélyebb dolgot (a koncepciót) is át akartam adni. Mindenesetre köszönöm, hogy engem választottál, ill. hogy leírtad a véleményed.
September 14th, 2008 at 17:32:11
[...] előadásáról már SJ blogjában leírtam a gondolataimat, szóval idézek magamtól: Hát. én nem ilyesmire számítottam. (a diát nem [...]