Como leer los datos del fichero training.dat

Diciembre 1st, 2005

Una de las ventajas de los programas de código abierto es que permiten estudiar su código, sus algoritmos y los formatos de los ficheros que utilizan. Por ello, resulta bastante sencillo hacer un pequeño programa que interprete los datos del fichero training.dat, de forma que podremos ver los valores (igual que hacíamos con el Bayes Junk Tool) o tratarlos nosotros.

Si tenemos interés en las técnicas de detección de spam, este es un fichero interesante de analizar y permite realizar fácilmente pruebas de diferentes algoritmos de detección.

El formato del fichero es el siguiente:

[0xFEEDFACE]
[number good messages][number bad messages]
[number good tokens]
[count][length of word]word
...
[number bad tokens]
[count][length of word]word
... 

Donde los valores están guardados con 4 bytes en formato Big Endian.

Dejo aquí un ejemplo de lectura del fichero que nos muestra los 10 tokens de spam con un valor más alto. El resultado con mi training.dat es el siguiente:

[2071, mime-version:1.0]
[1592, and]
[1435, for]
[1117, with]
[1017, have]
[959, envelope-to:madelman@unservidor.com]
[913, our]
[864, x-scaned-fib:antivirus/antispam en otroservidor.es]
[812, not]
[757, will]
[724, x-original-to:e9999999@otroservidor.es]
[684, more]

Si quereis podeis enviarme vuestros resultados para comparar diferentes valores y los subiré en una próxima nota.

File Attachment: read_training.cpp (3 KB)

File Attachment: read_training.exe (428 KB)

Guardado en Spam | Comentarios desactivados en Como leer los datos del fichero training.dat

Los comentarios están cerrados.