El objetivo de la minería de textos es el descubrimiento de información a partir de contenido no estructurado; es decir, texto libre escrito en lenguaje natural. La tarea de minería mas habitual sobre este tipo de contenido es la categorización y clasificación automáticas de textos.
Podemos decir que la categorización es la tarea que identifica las categorías, temas, materias o conceptos presentes en los textos (un texto puede pertenecer a varias categorías); mientras que la clasificación es la tarea de asignar un documento a clases previamente definidas ( y sólo se puede pertenecer a una de estas clases).
Como ejemplo de categorización podemos mencionar un artículo que sea identificado como perteneciente a los temas de automóviles, sistemas ABS y a la seguridad en carreteras, de tal forma que pueda ser indexado para futuras búsquedas a tráves de alguno de estos criterios, reduciendo asi los tiempos de respuesta y permitiendo la generación de estadísticas por temas en una gran biblioteca (o en internet mismo). Por otro lado, un ejemplo de clasificación sería identificar si un contenido de correo entrante es Spam o no.
Una aproximación muy usual a la categorización, teniendo n categorías, es convertir el problema en n subproblemas de clasificación binaria, en el que cada clasificador i se limite a decir si el documento pertenece a la categoría i o no, lo cual puede generar altas probabilidades en más de uno de esos clasificadores.
Cómo se clasifica la Minería de Textos?
Básicamente se trata de convertir un documento a un problema de minería de datos tradicional, donde cada columna de la vista minable represente:
- Una palabra presente en el documento, con valores booleanos (la palabra aparece o no en el texto) o basados en frecuencias (porcentaje que representa todas las apariciones de la palabra en el contenido del documento). Esta representación es una de las más empleadas, aunque ignora el orden de aparición de las palabras.
- Frases, lo que permite considerar el documento como un conjunto de elementos sintácticos y posibilita mantener el contexto en el que ocurra una palabra. Los valores de este tipo de columnas en la vista minable pueden ser binarios (están presentes o no) o basados en frecuencias (qué tantas veces aparecen en el documento en relación a la extensión del mismo)
- Otros, tales como secuencias de mayúsculas, categorías de conceptos, n-gramas, etc
Un paso importante es reducir el conjunto de columnas (características), ya que las palabras únicas presentes en los documentos pueden ser cientos de miles, algo inabordable para muchos algoritmos de minería de datos. La primera aproximación consiste en eliminar palabras con poca semántica, tales como artículos, preposiciones, conjunciones; sin embargo, existen técnicas más elaboradas para reducir dimensionalidad basadas en el ámbito y en la naturaleza del problema. La reducción por ámbito tiene que ver con la universabilidad del conjunto de características, mientras que la reducción por naturaleza describe cómo se seleccionan los atributos.
No hay comentarios:
Publicar un comentario