Uncategorized

Hülyeség szűrő

A HUP címlapján láttam egy új kezdeményezést StupidFilter néven.

A projekt honlapja szerint a StupidFilter-t a szükség hívta életre. Az embereknek elegük van már az Internetet meghódító idióták zsarnokságából. A kezdetben ugyanis az Internet az a hely volt, ahol a magasan képzett, tudós emberek intelligens módon kommunikálhattak egymással. Aztán beköszöntött az Örök Szeptember kora, és szinte elvesztünk az újoncok zajában. A helyzetet pedig csak súlyosbította a felhasználók irányította web tartalom megjelenése, ahol bárki leírhatja a sületlenségeit. Itt az idő visszavágni!

A StupidFilter egy olyan nyílt forrású szoftver, amely detektálni képes az ordas hülyeséget. Ezt a spamszűrésben jól ismert bayes-i elv segítségével végzi el. A problémát az jelenti, hogy a hülyeség nem egy bináris (=kétállapotú) jellemző (azaz vagy hülye, vagy nem hülye), hanem sokkal inkább egy fokozat.

A program szerzői a nyilvános web oldalakon elkövetett (angol nyelvű) felhasználói kommentek között böngészve gyűjtik össze a hülyeségeket, amelyet egy öt pontos skálán értékelnek. Ha ez elkészül, akkor közreadják az eredméynt, aminek a segítségével bárki kiszámolhatja, hogy az adott oldal, ill. az ott tanyázó júzerek mennyire hülyék. A megoldást pedig integrálni lehet különféle tartalomkezelő rendszerekbe, blog-, ill. wiki szoftverekbe, sőt, még Firefox kiterjesztést is készítenek hozzá. Így azt is megérhetjük, hogy a böngésző státuszsorában egy piros felkiáltójel (esetleg halálfej) kezd el villogni, ha a hülyék térfelére tévedtünk.

De ha már statisztikai algoritmus van benne, akkor az igen érdekes és hasznos dolgokra ad lehetőséget, ugyanis a bayes-i módszer – sok emberrel ellentétben – intelligens. Vegyünk indításként egy fórumot, ahol egy jól meghatározható közönség beszélget. Most adjunk a hozzávalók közé egy kicsit nem ügyes – dzsar-dzsar – felhasználót, aki ontja magából a hülyeséget. Mivel a közösség tagjai megtanították a StupidFilter-nek, hogy milyen az, amikor az értelmes emberek beszélnek, és milyen az, ha egy félnótás, a rendszer azonnal felismeri, hogy az x hozzászólást egy buta júzer követte el, és a hozzászólása mellett megjelenhet egy korhatáros karika, vagy esetleg a következő ábra:

A statisztikai algoritmus arra is lehetőséget ad, hogy bizonyos kifejezések értékelése megváltozzon. Vegyük pl. a következő új-magyar szavakat: “köszike”, “bocsika”, “puszika”. Az én szótáramban ezekre tuti kigyulladna a stupid-o-meter. De tegyük fel, hogy a HUP-ot megveszi az Ifjúsági Magazin kiadója, és a megváltozó célközönség ezerrel nyomja ezt a kicsinyítőképzős förtelmet. Ha elég sokan használják ezeket, akkor a statisztikai adatbázisban megváltozik ezeknek a polaritása, és a stupid szavak semlegessé válnak, vagy akár ezek válhatnak a “trendi” (na erre a szóra is villogna nálam az alert) kifejezésekké, és majd azok fognak kilógni a sorból, akik ezeket nem használják.

A statisztikai algoritmus segítségével nem csak az deríthető ki, hogy egy adott felhasználói komment hülye, nem hülye, esetleg kételyeink vannak (részben hülye – részben ok, vagy esetleg olyan ufó, amilyet még sosem láttunk), de az is megállapítható, hogy mennyire hülye. A notórius maflák hozzászólásai 90% feletti értékeket kapnak, és ha 1-2 írásuk gyanúsan alacsony 40-60%-ot kap, akkor biztosak lehetünk abban, hogy plagizáltak valakit, de a legbelső valójukat nem tudják legtagadni. Vagy éppen fordítva: a hozzánk hasonló power userek jellemzően 1-2% hülyeségi mutatóval rendelkeznek, ha pedig felmegy az érték 25-30%-ra, akkor megkérdezhetjük, hogy Most mi van, hülyéskedsz? Az abnormális 70-80% hülyeség-koefficiens érték körül pedig okkal gyanakodhatunk, hogy barátunkat elrabolták, akinek a helyén egy humanoid ül, és az idegenek éppen a Föld átvételére készülnek. Szóval sok mindenre jó egy statisztikai algoritmust használó diszkriminátor program.