Egy irtó hatékony spamszűrő mp4



Hatékony védelem a spam ellen pdf ppt mp4




a spam könyv

http://mo.gyo.ro/

January 2008
M T W T F S S
« Dec   Feb »
 123456
78910111213
14151617181920
21222324252627
28293031  


Spam? Szinte már el is felejtettem mi az...

Az én adóforintjaimat ne add a Microsoft-nak! | Home | 1% spam

2008.01.25.

Ejnye Pityu!

Úgy tűnik, érdemes a junk folderemet sűrűbben átnéznem. Na nem a fals pozitív hibák miatt, hanem mert a magyar spammerek is egyre jobban aktivizálják magukat. Biztosan ti is kaptatok már olyan spamet, amely mintha eltévedt volna. Ez a zsivány Pista gyerek szemmel láthatóan egy Tibcsi nevű címzettnek szánta a levelet. Ha pedig elküldöm a levelet az NHH-nak (és el fogom), akkor biztos azzal fog védekezni, hogy “ó bocsánat, biztos a technika ördöge, és félrement a levél.

Ezt az ügyetlen mosakodást azonban ne vegyétek be, olyan nincs, hogy egy levél eltéved. Ezt a spamet is azért kaptam, mert a Vodafone egyik elÅ‘fizetÅ‘je kifejezetten nekem szánta a spamet. Nem lennék meglepve, ha a meghirdet.hu állna mögötte, de ezt derítse ki a hatóság. Ja, és a csúnya Pityu gyerek már másokat is felbosszanthatott, mert az IP-címe szerepelt a Spamhaus listáján. A clapf a statisztikai elemzés után nem ismerte fel spamként ezt a szemetet, de mivel képes feketelisták eredményét is felhasználni, így már összejött a dolog. De ha már itt jártam, tanítottam vele a spamszűrÅ‘t, mert vannak még olyan gagyesz maximusz spammerek, akik azt hiszik, ezt az olcsó reklámot el tudják még sütni valahol…


Date: Thu, 24 Jan 2008 21:59:59 +0100
From: “[iso-8859-1] Brichermann István”
To: xxxxx@xxxxx.hu
Subject: [iso-8859-1] az ígért link

Szia Tibcsi!

Tudom, hogy már rég ígértem, de csak most volt id?m utána nézni.
Az oldal neve ahol a bicajomat eladtam, a meghirdet.hu volt.
Szeritem itt érdemes meghirdetned a lakásodat!

szóval: www.meghirdet.hu

Üdv: Pista

6 Responses to “Ejnye Pityu!”

  1. Tom Benko said:

    Ekkora balfaszt…

  2. nyos said:

    Nyelv ellenorzest csinal a clapf? (ngram algoritmussal nagyon egyszeruen es eleg pontosan megallapithato, hogy milyen nyelvu a szoveg)
    Ha tudod, hogy milyen nyelvu, akkor a kov. lehetosegek allnak rendelkezesre:
    - Ha magyar nyelvu a spam, egy kulon folderbe tovabbitod, mert azt az NHH is hasznosithatja.
    - Ha olyan nyelvu, amit nem beszelsz, novelheto a spam valoszinusege. (Pl. rendszeresen kapok heber nyelvu levelet, pedig a nyelvtudasom addig terjed, hogy az abc elso karakteret felismerem. Mondjuk itt eleg volt azt a kodlapot szurni. A kinai spammel ugyanez a helyzet.)

  3. sj said:

    Eddig nem csinál, hacsak nem annyit, hogy a kínai, orosz, japán, stb. karakterekből eltároltam egy adagot egy tömbben, és ha ilyeneket talál, akkor megszámolja, és ha a levél biztosan nem ham, de még nem spam, akkor spamként értékeli.

    Egy másik módszer pedig az, hogy ezeket a karaktereket ‘j’-betűvel helyettesítem, és így képezek belÅ‘lük tokeneket.

    Figyelem a charset értékét (kódlapot) is, és abból is tokeneket képezek.

    De érdekel ez a nyelv ellenÅ‘rzés az ngram-okkal, utánanézek, hogy megy egy ez….

  4. Nyos said:

    ngram (vagy N-gram) algoritmus:
    1.lepes: a tokeneket ngramokra bontod.. unigram az 1 betubol allo reszek, digram a 2 betubol allo, stb.. ezt 5 betuig megcsinalod
    pl: a TESZT tokennel az n-gram-ok: T,E,S,Z,T,TE,ES,SZ,ZT,T_,TES,ESZ,SZT,ZT_,T__,TESZ,ESZT,SZT_,ZT__,T___,TESZT,ESZT_,SZT__,ZT___,T____
    _ jellel jeloltem azt, ahol nincs karakter, ez vmi kiegeszito-szimbolum
    2.lepes: a tokeneket elofordulasuk gyakorisaganak sorrendjebe rendezed (igazabol csak a gyakorisaguk sorrendjere lesz szukseg, a pontos szamra nem)
    pl egy lehetseges magyar szoveg leggyakoribb ngram-jai:
    E 1500 elofordulas
    A 1200
    S 300

    SZ 100
    AZ 80
    T_ 30
    nyilvan az unigramok surubben lesznek, mint a tobb betubol alloak
    A leggyakoribb 100-200 darab n-gram eleg lesz a tovabbiakban, ezeknek is csak a sorrendje erdekes. Ez lesz a szoveg “ujjlenyomata”.
    3. Elkeszitjuk elore ismert szovegek alapjan a nyelvekre jellemzo ujjlenyomatokat (magyarra erdemes ekezettel es anelkul is 1-1 kulonbozot).
    4 Szoveg tesztelesekor elkeszitjuk a szoveg ujjlenyomatat is, es megnezzuk, hogy melyik nyelvtol mennyi a tavolsaga. A minimalis tavolsag lesz a megfelelo nyelv.
    Tavolsag: Az ngramok sorrendjenek tavolsaganak (a helyezesek tavolsaganak) osszege a ket ujjlenyomatban.
    pl egyik eloszlas:
    A
    E
    S
    I
    masik eloszlas:
    A
    S
    E
    U

    A mindket eloszlasban 1. helyen van, tavolsaguk 0
    S egyikben 2. masikban 3., tavolsaguk 1
    E szinten 2. es 3., tavolsaguk 1
    I es U nincs csak az egyikben, ilyenkor vesszunk malami maximalis tavolsagot

    Az algoritmus maga nem bonyolult, a tokenizalas meg mar adott ugyis (az angolban gyakori ‘s ‘ve es hasonlo vegeket persze le kell kezelni, meg a spec. karaktereket).
    A felismerese tobb, mint 10 nyelv eseten emlekeim szerint 95-98% feletti (jellemzoen akkor teveszt, ha sok idegen szo van egy szovegben).

  5. sj said:

    Köszönöm az infokat, megkísérlek egy implementációt, aztán jelentkezem. Btw. mi a teendő a html tag-ekkel, amelyek többsége értelmes angol szó? Egyáltalán lehet HTML tag a teszt ill. a referencia szövegben?

  6. Nyos said:

    szerintem csak a level szoveget add at neki, kulonben meg fog zavarodni, es angolnak nezheti a mas nyelvu szoveget

Mondd el a véleményed