Donde guarda Thunderbird los datos del spam: training.dat

noviembre 29th, 2005

Para que Thunderbird pueda clasificar nuestros correos en spam y ham necesita tener una lista de tokens con sus probabilidades. Esta lista está inicialmente vacia y se crea entrenando a Thunderbird, es decir, diciendole cuales de nuestros mensajes son ham y cuales son spam. Habitualmente, con repetir este proceso con el correo que recibamos en tres o cuatro días el programa ya será capaz de clasificar con un alto grado de fiabilidad.

Esta lista de palabras se guarda en nuestro directorio de profile (en mi caso “c:Documents and SettingsmadelmanDatos de programaThunderbirdProfilesdefault.ph9”) en el fichero training.dat. Este fichero no es directamente visible ni editable, pero podemos tratarlo gracias a Bayes Junk Tool, una herramienta en Java que permite realizar modificaciones del fichero.

Una vez nos hayamos bajado Bayes Junk Tool lo ejecutamos (necesita un runtime de Java) con:

set classpath=bayesjunktool-0.2.1.jar
java mozilla_training_analyzer.Analyzer

Desde el programa seleccionamos nuestro fichero training.dat, el cual cargará y nos lo mostrará por pantalla.

Bayes1

Con este programa podemos ver todas las palabras con las que Thunderbird intentará clasificar nuestro correo, el número de veces que han aparecido tanto en mensajes ham como en mensajes spam y la probabilidad de cada una. También permite modificar este fichero, añadir y quitar palabras e incluso modificar el número de apariciones.

Guardado en Spam | Comentarios desactivados en Donde guarda Thunderbird los datos del spam: training.dat

Los comentarios están cerrados.