lunes, 27 de febrero de 2017

Minería de Datos: Arboles de Clasificación

Tiene como meta clasificar una colección de observaciones como miembros de número reducido de clases usando información sobre una serie de atributos.

Como indica su nombre, la clasificación se hace usando un árbol.

El algoritmo clasificará a una persona de acuerdo a sus respuestas a una serie de preguntas con respuestas SI/NO.

La matemática detrás del algoritmo puede ser relativamente sofisticada, pero su presentación (el modelo) es extremadamente simple e intuitivo.

La técnica se asemeja mucho a la manera en la que un doctor llega a un diagnostico.

De hecho, una de las primeras aplicaciones de CART fue la clasificación de pacientes que llegaban a un hospital con ataque al corazón como clientes con riesgo ALTO a BAJO de morir en los próximos 30 días después de ser admitido.

Breiman usó 19 indicadores (test administrados al paciente cuando fue admitido) como predictores.

La variable a clasificar puede tener mas de 2 clases.

En el ejemplo del corazón, podríamos clasificar como riesgo BAJO, MEDIO, ALTO.

Clasificamos nuevamente de acuerdo a la información que podamos extraer de una serie de atributos (las Xs de la regresión logísticas).

Ejemplo: 
Un ejemplo de admisiones a una escuela:




Ejemplo Algoritmo: imagen 1

Ejemplo Algoritmo: imagen 2
Ejemplo Algoritmo: imagen 3

Y Ahora?

Ejemplo Algoritmo: imagen 4

Ejemplo Algoritmo:imagen 5
Ejemplo Algoritmo: imagen 6 EL MODELO

El Algoritmo

El algoritmo utilizado para clasificar se llama partición binaria recursiva. Y funciona de la siguiente forma:

  1. Dividamos la muestra en dos partes: set de entrenamiento y set de validación 
  2. Para hacer crecer el árbol utilizaremos solamente el test de entrenamiento.
  3. Para cada observación, conocemos la clasificación correcta y conocemos los valores de los distintos atributos (esto lo hace un ejemplo de modelo supervisado).
  4. La primera partición que hagamos será la que resulte en el mejor ajuste.
  5. Ajuste, en este caso, está medido en términos de la "pureza" de las particiones.

En el Algoritmo

  • Pureza máxima se logra cuando toda las conversaciones en una partición pertenecen a una sola clase.
  • Pureza mínima ocurre cuando las observaciones en una partición están repartidas igualmente entre las dos clases.
  • En el algoritmo, entonces, selecciona la primera partición de tal manera que la medida de impureza se reduzca lo más que se pueda.
  • Una vez que una partición se selecciona, volvemos a repetir el proceso para las regiones resultantes.

Cuando nos detenemos?

  • Es posible, con un árbol lo suficientemente complejo, eliminar por completo la impureza en cada partición.
  • Esto se vería equivalente a eliminar por completo los errores en una regresión lineal, agregando más y más regresores.
  • Por supuesto, esto resultaría en pobres predicciones con nuevos datos.
  • Por esta razón dividimos la muestra en sets de entrenamiento y de validación.
  • Entrenamos el árbol usando solamente los datos de la muestra de entrenamiento.
  • Pero seleccionamos el mejor árbol comparando su desempeño en la muestra de validación.
  • Esto nos protege contra el sobreajuste.




No hay comentarios:

Publicar un comentario