2008.01.25.
Ejnye Pityu!
Úgy tűnik, érdemes a junk folderemet sűrűbben átnéznem. Na nem a fals pozitÃv hibák miatt, hanem mert a magyar spammerek is egyre jobban aktivizálják magukat. Biztosan ti is kaptatok már olyan spamet, amely mintha eltévedt volna. Ez a zsivány Pista gyerek szemmel láthatóan egy Tibcsi nevű cÃmzettnek szánta a levelet. Ha pedig elküldöm a levelet az NHH-nak (és el fogom), akkor biztos azzal fog védekezni, hogy “ó bocsánat, biztos a technika ördöge, és félrement a levél.”
Ezt az ügyetlen mosakodást azonban ne vegyétek be, olyan nincs, hogy egy levél eltéved. Ezt a spamet is azért kaptam, mert a Vodafone egyik elÅ‘fizetÅ‘je kifejezetten nekem szánta a spamet. Nem lennék meglepve, ha a meghirdet.hu állna mögötte, de ezt derÃtse ki a hatóság. Ja, és a csúnya Pityu gyerek már másokat is felbosszanthatott, mert az IP-cÃme szerepelt a Spamhaus listáján. A clapf a statisztikai elemzés után nem ismerte fel spamként ezt a szemetet, de mivel képes feketelisták eredményét is felhasználni, Ãgy már összejött a dolog. De ha már itt jártam, tanÃtottam vele a spamszűrÅ‘t, mert vannak még olyan gagyesz maximusz spammerek, akik azt hiszik, ezt az olcsó reklámot el tudják még sütni valahol…
Date: Thu, 24 Jan 2008 21:59:59 +0100
From: “[iso-8859-1] Brichermann István”
To: xxxxx@xxxxx.hu
Subject: [iso-8859-1] az Ãgért link
Szia Tibcsi!
Tudom, hogy már rég Ãgértem, de csak most volt id?m utána nézni.
Az oldal neve ahol a bicajomat eladtam, a meghirdet.hu volt.
Szeritem itt érdemes meghirdetned a lakásodat!
szóval: www.meghirdet.hu
Üdv: Pista





January 25th, 2008 at 17:18:11
Ekkora balfaszt…
January 25th, 2008 at 22:52:21
Nyelv ellenorzest csinal a clapf? (ngram algoritmussal nagyon egyszeruen es eleg pontosan megallapithato, hogy milyen nyelvu a szoveg)
Ha tudod, hogy milyen nyelvu, akkor a kov. lehetosegek allnak rendelkezesre:
- Ha magyar nyelvu a spam, egy kulon folderbe tovabbitod, mert azt az NHH is hasznosithatja.
- Ha olyan nyelvu, amit nem beszelsz, novelheto a spam valoszinusege. (Pl. rendszeresen kapok heber nyelvu levelet, pedig a nyelvtudasom addig terjed, hogy az abc elso karakteret felismerem. Mondjuk itt eleg volt azt a kodlapot szurni. A kinai spammel ugyanez a helyzet.)
January 26th, 2008 at 8:50:49
Eddig nem csinál, hacsak nem annyit, hogy a kÃnai, orosz, japán, stb. karakterekbÅ‘l eltároltam egy adagot egy tömbben, és ha ilyeneket talál, akkor megszámolja, és ha a levél biztosan nem ham, de még nem spam, akkor spamként értékeli.
Egy másik módszer pedig az, hogy ezeket a karaktereket ‘j’-betűvel helyettesÃtem, és Ãgy képezek belÅ‘lük tokeneket.
Figyelem a charset értékét (kódlapot) is, és abból is tokeneket képezek.
De érdekel ez a nyelv ellenÅ‘rzés az ngram-okkal, utánanézek, hogy megy egy ez….
January 26th, 2008 at 21:49:07
ngram (vagy N-gram) algoritmus:
1.lepes: a tokeneket ngramokra bontod.. unigram az 1 betubol allo reszek, digram a 2 betubol allo, stb.. ezt 5 betuig megcsinalod
pl: a TESZT tokennel az n-gram-ok: T,E,S,Z,T,TE,ES,SZ,ZT,T_,TES,ESZ,SZT,ZT_,T__,TESZ,ESZT,SZT_,ZT__,T___,TESZT,ESZT_,SZT__,ZT___,T____
_ jellel jeloltem azt, ahol nincs karakter, ez vmi kiegeszito-szimbolum
2.lepes: a tokeneket elofordulasuk gyakorisaganak sorrendjebe rendezed (igazabol csak a gyakorisaguk sorrendjere lesz szukseg, a pontos szamra nem)
pl egy lehetseges magyar szoveg leggyakoribb ngram-jai:
E 1500 elofordulas
A 1200
S 300
…
SZ 100
AZ 80
T_ 30
nyilvan az unigramok surubben lesznek, mint a tobb betubol alloak
A leggyakoribb 100-200 darab n-gram eleg lesz a tovabbiakban, ezeknek is csak a sorrendje erdekes. Ez lesz a szoveg “ujjlenyomata”.
3. Elkeszitjuk elore ismert szovegek alapjan a nyelvekre jellemzo ujjlenyomatokat (magyarra erdemes ekezettel es anelkul is 1-1 kulonbozot).
4 Szoveg tesztelesekor elkeszitjuk a szoveg ujjlenyomatat is, es megnezzuk, hogy melyik nyelvtol mennyi a tavolsaga. A minimalis tavolsag lesz a megfelelo nyelv.
Tavolsag: Az ngramok sorrendjenek tavolsaganak (a helyezesek tavolsaganak) osszege a ket ujjlenyomatban.
pl egyik eloszlas:
A
E
S
I
masik eloszlas:
A
S
E
U
A mindket eloszlasban 1. helyen van, tavolsaguk 0
S egyikben 2. masikban 3., tavolsaguk 1
E szinten 2. es 3., tavolsaguk 1
I es U nincs csak az egyikben, ilyenkor vesszunk malami maximalis tavolsagot
Az algoritmus maga nem bonyolult, a tokenizalas meg mar adott ugyis (az angolban gyakori ‘s ‘ve es hasonlo vegeket persze le kell kezelni, meg a spec. karaktereket).
A felismerese tobb, mint 10 nyelv eseten emlekeim szerint 95-98% feletti (jellemzoen akkor teveszt, ha sok idegen szo van egy szovegben).
January 27th, 2008 at 10:43:14
Köszönöm az infokat, megkÃsérlek egy implementációt, aztán jelentkezem. Btw. mi a teendÅ‘ a html tag-ekkel, amelyek többsége értelmes angol szó? Egyáltalán lehet HTML tag a teszt ill. a referencia szövegben?
January 27th, 2008 at 17:37:27
szerintem csak a level szoveget add at neki, kulonben meg fog zavarodni, es angolnak nezheti a mas nyelvu szoveget