I filtri antispam bayesiani calcolano la probabilità che un messaggio sia spam in base al suo contenuto. A differenza dei semplici filtri basati sul contenuto, il filtro antispam bayesiano impara dallo spam e dalla posta elettronica, con un approccio antispam molto robusto, adeguato ed efficiente che, soprattutto, restituisce pochissimi falsi positivi.
Come si riconosce l'e-mail indesiderata?
Pensa a come si rileva lo spam. Una rapida occhiata è spesso sufficiente. Sai com'è lo spam, e sai com'è la buona posta.
La probabilità che lo spam assomigli a una buona posta è intorno a … zero.
Il punteggio dei filtri basati sul contenuto non si adatta
Non sarebbe bello se anche i filtri antispam automatici funzionassero così?
Il punteggio dei filtri spam basati sul contenuto è quello giusto. Cercano parole e altre caratteristiche tipiche dello spam. A ogni elemento caratteristico viene assegnato un punteggio e un punteggio di spam per l'intero messaggio viene calcolato dai singoli punteggi. Alcuni filtri di punteggio cercano anche caratteristiche di posta legittima, riducendo il punteggio finale di un messaggio.
L'approccio dei filtri di punteggio funziona, ma ha anche diversi inconvenienti:
- L'elenco delle caratteristiche è costituito dallo spam (e dalla buona posta) disponibile per gli ingegneri del filtro. Per ottenere una buona conoscenza dello spam tipico che chiunque potrebbe ricevere, la posta deve essere raccolta in centinaia di indirizzi email. Ciò indebolisce l'efficienza dei filtri, soprattutto perché il le caratteristiche della buona posta saranno diverse per ogni persona , ma questo non è preso in considerazione.
- Le caratteristiche da cercare sono più o meno scolpito nella pietra . Se gli spammer si sforzano di adattarsi (e fanno apparire il loro spam come una buona posta per i filtri), le caratteristiche del filtro devono essere ottimizzate manualmente - uno sforzo ancora più grande.
- Il punteggio assegnato a ogni parola è probabilmente basato su una buona stima, ma è ancora arbitrario. E come l'elenco delle caratteristiche, non si adatta né al mondo in continua evoluzione dello spam in generale né alle esigenze di un singolo utente.
I filtri spam bayesiano cambiano se stessi, migliorando e migliorando
I filtri antispam bayesiani sono anche una sorta di filtro basato sul punteggio. Tuttavia, il loro approccio elimina i problemi dei semplici filtri antispam, e lo fa in modo radicale. Dato che la debolezza dei filtri di punteggio si trova nell'elenco delle caratteristiche e dei punteggi realizzati manualmente, questo elenco viene eliminato.
Invece, i filtri antispam bayesiani costruiscono la lista da soli. Idealmente, inizi con un (grande) gruppo di email che hai classificato come spam e un altro gruppo di buoni messaggi. I filtri esaminano entrambi e analizzano la posta legittima e lo spam per calcolare la probabilità che varie caratteristiche compaiano nello spam e in buona posta.
Come un filtro antispam bayesiano esamina un'e-mail
Le caratteristiche di un filtro antispam bayesiano possono essere:
- le parole nel corpo del messaggio, ovviamente, e
- le intestazioni (mittenti e percorsi dei messaggi, ad esempio!), ma anche
- altri aspetti come il codice HTML / CSS (come i colori e altre formattazioni) o anche
- coppie di parole, frasi e
- meta informazione (dove appare una frase particolare, per esempio).
Se una parola "Cartesiano", ad esempio, non compare mai nello spam ma spesso nell'e-mail legittima che ricevi, la probabilità che "Cartesiano" indichi lo spam è vicino allo zero. "Toner", d'altra parte, appare esclusivamente, e spesso, nello spam. "Toner" ha un'alta probabilità di essere trovato nello spam, non molto inferiore a 1 (100%).
Quando arriva un nuovo messaggio, viene analizzato dal filtro antispam bayesiano e la probabilità che il messaggio completo sia spam viene calcolata utilizzando le singole caratteristiche.
Supponiamo che un messaggio contenga sia "cartesiano" che "toner". Da queste parole da sole non è ancora chiaro se abbiamo spam o posta legittima. Altre caratteristiche (si spera e molto probabilmente) indicano una probabilità che consente al filtro di classificare il messaggio come spam o buona posta.
I filtri spam bayesiano possono essere appresi automaticamente
Ora che abbiamo una classificazione, il messaggio può essere utilizzato per addestrare ulteriormente il filtro stesso. In questo caso, la probabilità di "cartesiano" che indica la posta buona viene ridotta (se il messaggio che contiene sia "cartesiano" che "toner" è considerato spam), o la probabilità di "toner" che indica lo spam deve essere riconsiderata.
Usando questa tecnica autoadattativa, i filtri bayesiani possono impara dalle proprie e dalle decisioni dell'utente (se corregge manualmente un errore di valutazione dai filtri). L'adattabilità del filtraggio bayesiano si assicura anche che siano più efficaci per l'utente di posta elettronica individuale. Mentre lo spam della maggior parte delle persone può avere caratteristiche simili, la posta legittima è tipicamente diversa per tutti.
In che modo gli spammer possono superare i filtri bayesiani?
Le caratteristiche della posta legittima sono altrettanto importanti per il processo di filtraggio dello spam bayesiano come lo spam. Se i filtri sono addestrati specificamente per ogni utente, gli spammer avranno un tempo ancora più difficile lavorare intorno ai filtri spam di tutti (o anche di quelli di molte persone) e i filtri possono adattarsi a quasi tutti gli spammer che provano.
Gli spammer riescono a superare i filtri bayesiani ben addestrati se fanno sembrare i loro messaggi spam come l'email ordinaria che tutti possono ricevere.
Gli spammer di solito non inviano email di questo tipo. Supponiamo che questo sia dovuto al fatto che queste e-mail non funzionano come posta indesiderata.Quindi, è probabile che non lo faranno quando le e-mail noiose e ordinarie sono l'unico modo per superare i filtri antispam.
Tuttavia, se gli spammer passano a e-mail per lo più ordinarie, noteremo di nuovo molto spam nella nostra posta in arrivo e le e-mail potrebbero diventare frustranti come nei giorni pre-bayesiani (o anche peggio). Tuttavia, avrà anche rovinato il mercato per la maggior parte dei tipi di spam, e quindi non durerà a lungo.
Forti indicatori Può essere un tallone d'Achille del filtro antispam bayesiano
Un'eccezione può essere percepita perché gli spammer possano farsi strada attraverso i filtri bayesiani anche con i loro soliti contenuti. È nella natura delle statistiche bayesiane che una sola parola o caratteristica che molto spesso appare nella buona posta può essere così significativa da trasformare qualsiasi messaggio dall'aspetto come spam ad essere valutato come ham dal filtro.
Se gli spammer trovano un modo per determinare le tue parole di buona sicurezza, utilizzando le ricevute di ritorno HTML per vedere quali messaggi hai aperto, ad esempio, possono includerne uno in una posta indesiderata e raggiungerti anche attraverso un pozzo filtro Bayesiano addestrato.
John Graham-Cumming ha provato questo facendo sì che due filtri bayesiani funzionassero uno contro l'altro, quello "cattivo" che si adattava a quali messaggi si trovavano per passare attraverso il filtro "buono". Dice che funziona, anche se il processo richiede molto tempo e complessità. Non pensiamo che vedremo molto di questo evento, almeno non su larga scala, e non adattato alle caratteristiche delle email degli individui. Gli spammer possono (provare a) capire alcune parole chiave per le organizzazioni (qualcosa come "Almaden" per alcune persone in IBM forse?) Invece.
Di solito, lo spam sarà sempre (significativamente) diverso dalla posta normale o comunque non sarà spam.
The Bottom Line: La forza del filtraggio bayesiano può essere la sua debolezza
I filtri spam Bayesiani sonofiltri basati sul contenuto quello:
- siamospecificamente addestrato a riconoscere lo spam e la buona posta degli utenti e-mail individuali, rendendoli altamente efficaci e difficili da adattare per gli spammer.
- può continuamente e senza molto sforzo o analisi manualeadattare agli ultimi trucchi degli spammer.
- prendere in considerazione la buona posta del singolo utente e avere un buon risultatobasso tasso di falsi positivi.
- Sfortunatamente, se questo provoca una cieca fiducia nei filtri anti-spam bayesiani, rende ilerrore occasionale ancora più grave. L'effetto opposto difalsi negativi (lo spam che assomiglia esattamente alla posta ordinaria) ha il potenziale per disturbare e frustrare gli utenti.