La Maestria del Ferguson: febrero 2017

martes, 28 de febrero de 2017

Minería de Datos: Minería de Textos

El objetivo de la minería de textos es el descubrimiento de información a partir de contenido no estructurado; es decir, texto libre escrito en lenguaje natural. La tarea de minería mas habitual sobre este tipo de contenido es la categorización y clasificación automáticas de textos.

Podemos decir que la categorización es la tarea que identifica las categorías, temas, materias o conceptos presentes en los textos (un texto puede pertenecer a varias categorías); mientras que la clasificación es la tarea de asignar un documento a clases previamente definidas ( y sólo se puede pertenecer a una de estas clases).

Como ejemplo de categorización podemos mencionar un artículo que sea identificado como perteneciente a los temas de automóviles, sistemas ABS y a la seguridad en carreteras, de tal forma que pueda ser indexado para futuras búsquedas a tráves de alguno de estos criterios, reduciendo asi los tiempos de respuesta y permitiendo la generación de estadísticas por temas en una gran biblioteca (o en internet mismo). Por otro lado, un ejemplo de clasificación sería identificar si un contenido de correo entrante es Spam o no.

Una aproximación muy usual a la categorización, teniendo n categorías, es convertir el problema en n subproblemas de clasificación binaria, en el que cada clasificador i se limite a decir si el documento pertenece a la categoría i o no, lo cual puede generar altas probabilidades en más de uno de esos clasificadores.

Cómo se clasifica la Minería de Textos?

Básicamente se trata de convertir un documento a un problema de minería de datos tradicional, donde cada columna de la vista minable represente:

Una palabra presente en el documento, con valores booleanos (la palabra aparece o no en el texto) o basados en frecuencias (porcentaje que representa todas las apariciones de la palabra en el contenido del documento). Esta representación es una de las más empleadas, aunque ignora el orden de aparición de las palabras.

Frases, lo que permite considerar el documento como un conjunto de elementos sintácticos y posibilita mantener el contexto en el que ocurra una palabra. Los valores de este tipo de columnas en la vista minable pueden ser binarios (están presentes o no) o basados en frecuencias (qué tantas veces aparecen en el documento en relación a la extensión del mismo)

Otros, tales como secuencias de mayúsculas, categorías de conceptos, n-gramas, etc

Un paso importante es reducir el conjunto de columnas (características), ya que las palabras únicas presentes en los documentos pueden ser cientos de miles, algo inabordable para muchos algoritmos de minería de datos. La primera aproximación consiste en eliminar palabras con poca semántica, tales como artículos, preposiciones, conjunciones; sin embargo, existen técnicas más elaboradas para reducir dimensionalidad basadas en el ámbito y en la naturaleza del problema. La reducción por ámbito tiene que ver con la universabilidad del conjunto de características, mientras que la reducción por naturaleza describe cómo se seleccionan los atributos.

lunes, 27 de febrero de 2017

Minería de Datos: Arboles de Clasificación

Tiene como meta clasificar una colección de observaciones como miembros de número reducido de clases usando información sobre una serie de atributos.

Como indica su nombre, la clasificación se hace usando un árbol.

El algoritmo clasificará a una persona de acuerdo a sus respuestas a una serie de preguntas con respuestas SI/NO.

La matemática detrás del algoritmo puede ser relativamente sofisticada, pero su presentación (el modelo) es extremadamente simple e intuitivo.

La técnica se asemeja mucho a la manera en la que un doctor llega a un diagnostico.

De hecho, una de las primeras aplicaciones de CART fue la clasificación de pacientes que llegaban a un hospital con ataque al corazón como clientes con riesgo ALTO a BAJO de morir en los próximos 30 días después de ser admitido.

Breiman usó 19 indicadores (test administrados al paciente cuando fue admitido) como predictores.

La variable a clasificar puede tener mas de 2 clases.

En el ejemplo del corazón, podríamos clasificar como riesgo BAJO, MEDIO, ALTO.

Clasificamos nuevamente de acuerdo a la información que podamos extraer de una serie de atributos (las Xs de la regresión logísticas).

Ejemplo:

Un ejemplo de admisiones a una escuela:

Ejemplo Algoritmo: imagen 1

Ejemplo Algoritmo: imagen 2

Ejemplo Algoritmo: imagen 3

Y Ahora?

Ejemplo Algoritmo: imagen 4

Ejemplo Algoritmo:imagen 5

Ejemplo Algoritmo: imagen 6 EL MODELO

El Algoritmo

El algoritmo utilizado para clasificar se llama partición binaria recursiva. Y funciona de la siguiente forma:

Dividamos la muestra en dos partes: set de entrenamiento y set de validación
Para hacer crecer el árbol utilizaremos solamente el test de entrenamiento.
Para cada observación, conocemos la clasificación correcta y conocemos los valores de los distintos atributos (esto lo hace un ejemplo de modelo supervisado).
La primera partición que hagamos será la que resulte en el mejor ajuste.
Ajuste, en este caso, está medido en términos de la "pureza" de las particiones.

En el Algoritmo

Pureza máxima se logra cuando toda las conversaciones en una partición pertenecen a una sola clase.
Pureza mínima ocurre cuando las observaciones en una partición están repartidas igualmente entre las dos clases.
En el algoritmo, entonces, selecciona la primera partición de tal manera que la medida de impureza se reduzca lo más que se pueda.
Una vez que una partición se selecciona, volvemos a repetir el proceso para las regiones resultantes.

Cuando nos detenemos?

Es posible, con un árbol lo suficientemente complejo, eliminar por completo la impureza en cada partición.
Esto se vería equivalente a eliminar por completo los errores en una regresión lineal, agregando más y más regresores.
Por supuesto, esto resultaría en pobres predicciones con nuevos datos.
Por esta razón dividimos la muestra en sets de entrenamiento y de validación.
Entrenamos el árbol usando solamente los datos de la muestra de entrenamiento.
Pero seleccionamos el mejor árbol comparando su desempeño en la muestra de validación.
Esto nos protege contra el sobreajuste.

martes, 21 de febrero de 2017

Minería de Datos: Data mining Predictivo (Regresión Lineal, árboles de regresión, KNN)

Se crea una variable que relaciona un variable con un conjunto de salida. para esto debemos establecer la varibale dependiente y la independiente
independiente es consecuencia
Para esto ocuparemos una linea recta qe describa la prediccion de puntos. esto lo haremos con una ecuacion
Si tengo 2 variables la puedo graficar
si tengo 3 la puedo graficar en el espacio
si tengo 4 no s epyede grafucar

y=mx+b
que es M= la pendiente
b= es el intercepto

ventas= 5*1.7llamadas

para la rpediccion en rapid miner ocuparemos dos set role creo si asi sera
id= variable a estimar y label a

aqui no se nomaliza porque necesitamos los datos tal como son
ocuparemos: dataset + set role + libear regression
y nos dara una columna coeficiente asi que ahroa ocuparemos una formulas asi:

ventas= 1.184llamadas + 18.947

como meidmos que tan bueno o que tan malo es un modelo? encontrar esa metrica central que englobe todo.

RMSE
RAIZ CUADRADA DE (1/n de la sumatoria de (x-Xestimado) ^ 2 Resultado de imagen de rmse formula

para sacar la cplumna prdictiva en rapidminer se ocupa el apply model

Estudiar metodos de clasificacion.

Metodos descriptivo, predictivo, clasificacion

Porque se llaman supervisado?
porque supervisa coeficiente y reglas de negocios que hagan match con las salidas.

Los no supervisados, deben encontrar un patron que permite conocer dirigir la salida

MInería de Datos: Data Mining Descriptivo (Agrupamiento KMeans)

miércoles, 15 de febrero de 2017

Minería de Datos: Porque y Que es Minería de Datos?

Compañías bien administradas forman relaciones de aprendizaje con sus clientes. A medida pasa el tiempo aprenden mas y más sobre sus clientes, y ese conocimiento les ayuda a servirles mejor. El resultado es un cliente feliz, leal y un negocio rentable. Grandes compañías, con cientos y miles de clientes no gozan del lujo de una relación personal con cada uno de sus clientes. Hoy aprenderemos un poco sobre como pasar de datos de clientes a conocimiento sobre el cliente.

Gestión Analítica de la relación con el cliente.

Ampliamente se sabe que grandes compañías están tratando de emular lo que pequeñas empresas orientadas al servicio están haciendo bien - creando relaciones de uno a uno con sus clientes. Dichas compañías han entendido la importancia de mejorar las habilidades de las formas de relaciones de aprendizaje de sus clientes.

En las compañías visionarias se están movilizando a la meta de entender a cada cliente de manera individual, y usar ese entendimiento para hacer negocios con el cliente mas fácil que con sus competidores. Estas empresas ven los valores aportados por los clientes y ellos evalúan que vale la pena invertir y hacer dinero y en que no invertir.

En el sentido estricto, la Minería de Datos es una colección de datos y técnicas. Es una de varias herramientas tecnológicas requeridas para apoyar a las compañías centradas en los clientes.

Es un sentido mas amplio, la Minería de Datos es un proceso y una metodología para aplicar las herramientas y técnicas.

Para que la Minería de Datos sea efectiva, los otros requerimientos de CRM analíticos deben estar en su lugar.

Para que una empresa pueda formar una relación de aprendizaje con sus clientes debe de:

Notar lo que sus clientes están haciendo
Recordar lo que sus clientes y la misma empresa han hecho en el tiempo
Aprender de lo que se recuerde (aprender del pasado)
Actuar con lo que se ha aprendido para hacer clientes mas rentables.

Al aprender de lo que ha pasado en el pasado, deben haber sistemas que procesen transacciones para capturar las interacciones de los clientes, data warehouses para almacenar información histórica del comportamiento de los clientes, Minería de datos para traducir historial en planes de acción a futuro, y una estrategia de relación de clientes para poner esas acciones en practica.

El Rol de los Sistemas de Procesamiento de Transacciones

Los pequeños negocios basan su trato e inversion en sus negocios al tratar con sus clientes personalmente. Esto les ayuda a conocer cara a cara sus necesidades, sus gustos y sus preferencias. Pero como puede una empresa colosal conocer estas necesidades y preferencias de sus clientes si rara vez tiene un contacto personal o intimo con dichos clientes? Aun cuando haya servicio de call center, siempre sera atendido por una persona diferente cada vez que llame, o en cada sucursal. Como pueden las empresas aprender de estas interacciones?

En una palabra: nada. Pero se puede intentar. En las grandes empresas, el primer paso ya esta ampliamente automatizado: Notar lo que el cliente hace. Sistemas de procesamiento de transacciones están por todas partes, colectando datos de todo. Los registros generados por los cajeros automáticos, switches telefónicos, servidores web, scanners de puntos de venta, y el botón Me Gusta son el material crudo para la Minería de Datos.

En estos días todo lo que hacemos deja un rastro constante de registros de transacciones realizadas. Cuando hablas por teléfono para ordenar una Canoa de un restaurante salvadoreño ;) un registro telefónico es mostrado en la compañía telefónica mostrando entre otras cosas la hora de tu llamada, el número que marcaste, la compañía a la cual llamaste, etc. Estos datos combinados con otros registros que almacenan tu plan de factura, nombre, y dirección para poder generar una factura de esa llamada. En el catálogo de la empresa, un log de tu llamada es guardado también con la información sobre el catalogo particular el cual ordenaste y alguna promoción especial a la cual respondes. El representante del servicio al cliente solicita tu información personal y tu información de tarjeta, la cual es enviada a un sistema de verificación de validación de tarjeta, el cual también crea un registro. Pronto la transacción alcanza los sistemas bancarios que expidieron tu tarjeta, donde se muestra tu balance, tu plan de pago, tus ultimas transacciones, y por supuesto, la cantidad a descontar al comprar tus canoas. En pocas horas tu orden genera mas registros de transacciones en un sistema de envío como Fedex o UPS permitiéndote localizar donde viene tu paquete de canoas.

Estas transacciones no se generan pensando en Minería de Datos, mas bien son creados pensando en satisfacer las necesidades operacionales de la compañía. Cuando y a quien enviar cupones de canoas según la cantidad comprada o según los gustos de cada cliente.

Estos sistemas de transacciones son los puntos de contacto con el cliente, donde la información sobre el comportamiento del cliente entra por primera vez en la empresa. Y como tal, ellos son los ojos, las orejas(y quizá la nariz, la lengua y los dedos) de la empresa.

El Rol de Data Warehousing

Todas las empresas que están enfocadas en sus clientes al registrar cada transacción realizada por cliente, visualizan - cada visita al website, cada compra en linea, cada llamada a su servicio al cliente - como una oportunidad de aprendizaje. Pero aprender conlleva mas que solo reunir toneladas de información. Muchas empresas contienen gigabytes de información sin saber que hacer con ellas. Esa data es almacenada con una finalidad, tal y como se hace como los controles de inventario y facturar.

Para que toda esta información obtenida de comprar online, llamadas al servicio al cliente, etc, etc, debe ser juntada y organizada consistentemente y de forma útil. A esto se le llama Data Warehousing. Data Warehousing le permite a la empresa recordar lo que se ha notado sobre sus clientes.

Uno de los aspectos mas importantes del Data Warehouse es la capacidad de rastrear el comportamiento del cliente en el tiempo. Cuán frecuentemente el cliente regresa? Qué canales prefiere el cliente? A cuales promociones responde dicho cliente mas a menudo?

Un buen Data Warehouse provee acceso a la información recogida por los datos transaccionales en un formato que es mucho mas amistoso que en la forma que es almacenado en los sistemas operacionales donde la data se originó. Idealmente los datos en Warehouse se ha recogido de muchas fuentes, limpia, fusionada, apegada a ciertos clientes, y resumida en varias formas útiles.

El Rol de la Minería de Datos

Los data Warehouse proveen una memoria a la empresa. Pero dicha memoria es de poco uso sin inteligencia. La inteligencia te permite tomar de tus memorias y responder preguntas correctas, aportar nuevas ideas, hacer predicciones sobre el futuro.

Que script de tele-mercadeo es mejor para esta llamada? Donde deberíamos abrir un nuevo local? Respuestas a preguntas como estas yacen enterradas en data corporativa.

La idea central de Minería de Datos para la gestión de relación con el cliente es que la data obtenida del pasado contiene información que sera útil en el futuro. Funciona porque el comportamiento de los clientes capturados en data corporativa no son al azar, pero refleja las necesidades cambiantes, preferencias, y tratamientos a los clientes.

La meta de la minería de datos es encontrar patrones en la data histórica que arroje luz en esas necesidades y preferencias. La tarea se hace difícil por el hecho que los patrones no siempre son fuertes, y las señales enviadas por los clientes es bulliciosa y confusa. Separar el ruido de las señales- reconocer los patrones fundamentales bajo las aparentes variaciones al azar- es una importante rol de la minería de datos.

El rol de la Estrategia para la Gestión de las relaciones con los Clientes

Para ser efectiva, la minería de datos debe ocurrir dentro de un contexto en el que permita a una organización cambiar su comportamiento como resultado de lo que se ha aprendido. De nada sirve saber que los clientes que usan telefonía inalámbrica están en un plan de pago erróneo y están propensos a cancelar sus subscripciones sino hay nadie empoderado que les proponga que se cambien a un mejor plan como sugiere el sistema. Si ocupan mas minutos del plan que pagaron, entonces esos minutos son cobrados a un costo mas caro, lo cual es propenso a que este cliente se marche a nuestra competencia. De lo contrario, si este cliente habla menos del plan que compro, entonces esta pagando minutos que no utiliza. Data Mining ayuda a entender esto y la empresa decide si ofrecer un plan que se ajuste o deja hasta que el cliente lo solicite.

La minería de Datos debería estar incrustada en una estrategia corporativa de relación con los clientes que permita explicarles las acciones a llevarse a cabo como resultado de lo que se ha aprendido a través de la minería de datos.

Cuando los clientes de bajo valor son identificados, como son tratados? Hay planes creados para estimular su uso e incrementar su valor? O tiene mas sentido bajarles el costo del servicio a ellos? Si algunos canales consistentemente traen clientes mas rentables, como se puede cambiar esos recursos a esos canales?

Minería de datos es una herramienta y como tal, no es suficiente entender cómo funciona; Es necesario entender cómo será usada.

Qué es Minería de Datos?

La Minería de Datos (de ahora en adelante mencionado como MD), es la exploración y análisis de una gran cantidad de datos para descubrir patrones y reglas significativos. Asumimos en este caso que tu estas aqui porque tu meta es la de permitir a tu empresa mejorar su mercadeo, sus ventas, y operaciones de soporte al cliente a través de un mejor entendimiento de tus clientes. Aunque ten en mente que las técnicas aportadas aqui son aplicables a cualquier campos de la empresa. El proceso de MD es a menudo referido como descubrimiento de conocimiento o también como KDD.

Qué tareas pueden ser Desarrolladas con la Minería de Datos?

Muchos problemas de interés intelectual, económico, y de negocios pueden ser expresados en términos de las siguientes 6 tareas:

Clasificación
Estimación
Predicción
Agrupamiento por afinidad
Clustering
Descripción y perfilado

Los primeros 3 son todos ejemplos de MD, donde la meta es encontrar el valor de un objetivo particular variable. Agrupamiento por afinidad y clustering son tareas indirectas donde la tarea es descubrir estructura en los datos sin importar un objetivo particular variable. Perfilado es una tarea descriptiva que puede ser directa o indirecta.

Clasificación

Es una de las tareas mas comunes en MD, pareciera ser un imperativa humano. Para entender y comunicar sobre el mundo estamos constantemente clasificando, categorizando, y graduando.

La clasificación consiste en examinar las características de un objeto presente y asignarlo a un set de clases predefinidas. Los objetos a clasificar son generalmente presentados por registros en la base de datos o un archivo, y el acto de clasificarlos consiste en añadir una nueva columna con un código de clase de algún tipo.

La tarea de clasificación es caracterizada por una definición bien definida de las clases y un conjunto de entrenamiento consistente en ejemplos preclasificado. La tarea es de construir un modelo de tal tipo que puede ser aplicado a una data sin clasificar para poder clasificarla.

Ejemplos de tareas de clasificación de tareas que han sido dirigidas usando la técnica descritas previamente, incluyen:

Clasificar aplicantes a créditos como bajo, mediano y alta riesgo
Escoger contenido a mostrar en una página web.
Determinar cuales números de teléfono corresponden a maquinas de fax.
Detectar reclamaciones de seguro fraudulentas.
Asignar códigos industriales y designaciones de trabajo en base a descripciones de trabajo sin texto.

En todos estos ejemplos hay números limitados de clases y esperamos poder asignar cualquier registro en cualquiera de ellos.

Estimación

En la práctica, la estimación es a menudo usada para desarrollar una tarea de clasificación. Una empresa de tarjetas de crédito deseando vender espacios para anuncios en sus sobres de facturas a un fabricante de botines para esquiar, puede construir un modelo de clasificación que ponga a todos sus titulares de tarjetas como esquiadores y no esquiadores. Otro enfoque es construir un modelo que asigne a cada titular la descripción: propenso a la puntuación esquí. Esto podría ser un valor entre 0 y 1 indicando la probabilidad estimada de que el titular es un esquiador. La tarea de asignación se reduce ahora a establecer un límite de puntuación. Cualquier con una puntuación mayor o igual al límite esta clasificado como un esquiador, y cualquier con una puntuación baja sobre el límite es considerado un no esquiador.

El enfoque de estimación tiene la gran ventaja que los registros de cada individuo pueden ser ordenados en rangos de acuerdo a la estimación. Para ver la importancia de esto, imagina que el fabricante de botines para esquiar ha presupuestado para un envío de 500,000 piezas. Si el enfoque de clasificación es usada y 1.5 millones de esquiadores son identificados entonces podría simplemente añadir los anuncios en los sobres de facturas de 500,000 personas seleccionadas al azar. Por otro lado, si cada titular es propenso a la puntuación de esquí, entonces puede enviar el anuncio a los 500,000 candidatos mas probables. Ejemplos de tareas de clasificación incluyen:

Estimación del número de niños en una familia
Estimación de entradas totales de ingresos por familia
Estimación de valor del cliente
Estimación de la probabilidad que alguien responda a la solicitación de transferencia de balance

Predicción

Es lo mismo que clasificación y estimación, excepto que los registros son clasificados de acuerdo a algunos futuros comportamientos predictivos, o valores de futuro estimado. En una tarea de predicción, la única forma de verificar la exactitud de las clasificaciones es esperar y ver. La razón primaria para tratar las predicciones como una tarea separada de la clasificación y la estimación es que en un modelo predictivo hay issues relacionados con respecto a la relación temporal de las variables de entrada o predictores de la variable objetivo.

Cualquiera de las técnicas usadas para clasificar y estimar puede ser adaptada para uso en predicción al usar ejemplos de entrenamiento donde el valor de la variable a predecir ya es conocida, junto con la data histórica para esos ejemplos. La data histórica es usada para construir un modelo que explica el actual comportamiento observado. Cuando este modelo es aplicado a las entradas actuales, el resultado es una predicción de un comportamiento futuro.

Ejemplos de tareas de predicción dirigidas por las técnicas de MD incluyen:

Predecir el tamaño de balance que será transferido si un prospecto de tarjeta de crédito acepta una oferta de transferencia de balance.
Predecir cuales clientes se irán dentro de los siguientes 6 meses.
Predecir cuales suscriptores telefónicos ordenaran un servicio de valor añadido tal como llamadas de tres vías o correo de voz.

Agrupamiento por afinidad o Reglas de Asociación

La tarea de agrupamiento por afinidad es determinar que cosas irán juntas. El ejemplo prototipico es determinar que cosas van juntas en un carrito de compras en el supermercado. Cadenas minoristas pueden usar agrupamiento por afinidad para planear el arreglo de items en los cajones de almacenaje o en un catálogo de items de modo que productos a menudo comprados juntos se verán juntos.

Agrupamiento por afinidad puede ademas ser usado para identificar oportunidades de venta y diseñar paquetes atractivos o grupos de productos o servicios.

Agrupamiento por afinidad es un enfoque simple para generar reglas de la data. Si 2 items, digamos comida perro o de gato, suceden a ambas frecuentemente juntos, podemos generar 2 reglas de asociación:

La gente que compra comida para perro tambien compran comida para gato con probabilida1
La gente que compra comida para gato tambien compra comida para perro con probabilidad2

Minería de Datos: Introducción a la Inteligencia de Negocios

Qué es la Inteligencia de Negocios y Minería de Datos?

Es la asignatura que permite estudiar y aplicar técnicas analíticas que generan conocimiento a partir de datos en las organizaciones.

En esta materia se aprenderá desde una perspectiva de negocios a analizar situaciones empresariales para generar valor y crear ventaja competitiva. Estas situaciones serán principalmente areas de Marketing y Finanzas.

Definición de BI:

Es la habilidad para transformar los datos en información y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios para alcanzar una ventaja competitiva.

Cual es el fin de una empresa?

Impulsar el bienestar económico y social mediante una adecuada inversión de capital. GANAR DINERO.

Cómo gano mas dinero? Obteniendo información, lo cual me dará ventaja competitiva sobre mis competidores. Mejor calidad en mis productos, menor precio, imagen de marca, tecnología, equipo humano.

Las posibles fuentes de ventaja residen en la tecnología, los procesos productivos, y en un determinado sistema informático.

Quienes aportan a esta ventaja competitiva en mi empresa?

Una determinada tecnología que le permite producir productos de muy buena calidad.

Un sistema de distribución eficiente para llegar a mas ventas.

Personal calificado que brinde un excelente servicio al cliente.

Moderna infraestructura que garantice ambiente cómodo y agradable a sus clientes.

Buena ubicación que asegure la visibilidad a sus clientes.

Un proceso productivo eficiente que reduzca los costos, ya sea para obtener margen o para trasladar el beneficio a los clientes.

Un determinado sistema informático que le permite tomar y procesar rápidamente los pedidos del cliente, y brindar asi una rápida atención.

Es importante que al tener conocimiento se tomen decisiones para mejorar, ya sean decisiones tácticas o decisiones estratégicas.

Decisiones Estratégicas	Decisiones Tácticas
Quien sera nuestro mercado meta?	A quien dirigir la publicidad y atraves de que canales?
Que productos o servicios deberiamos ofrecer?	Que acciones tomar para retener a nuestros clientes?
Donde localizamos las sucursales o punto de venta?	Cuanto comprar al proveedor y con que frecuencia?
Que procesos deberiamos subcontratar y cuales dejarse en la compañia?	Como distribuir los productos en un supermercado?
Deberiamos implementar un nuevo sistema de informacion corporativo?	Que politicas de credito implementar?
	Que tipo de beneficios para empleados conviene implementar?
	Cual deberia ser el grado de disponibilidad optimo de los sistemas?

Estas decisiones son cruciales para el crecimiento o ventaja de las compañías. La información que necesitan las empresas para estas decisiones son tomadas de herramientas que permitan mostrarle a detalle estas preguntas. Acá se entra en una etapa donde el análisis toma especial importancia:

Datos + análisis = Conocimiento.

Entre algunas herramientas de inteligencia de negocios se encuentran 2 grandes áreas:

Análisis multimedia (OLAP)
Knowledge Discovery in Databases (KDD)

Preparación de datos
Minería de Datos

Descriptiva
Predictiva
Para la clasificación

Modelos y Patrones
Evaluación e interpretación.

Es aquí donde entra en juego la potencia de las tecnologías de información manejadas con mucho discernimiento, análisis y conocimiento del negocio.

El descubrimiento del conocimiento es todo un proceso llamado KDD (Knowledge Discovery in Databases)

Conocimiento KDD

En los enormes volúmenes de información existe información oculta y de gran importancia estratégica, pero que no puede identificarse con las técnicas básicas de consulta de datos y reportería. Este descubrimiento se logra con la Minería de Datos. Y sus técnicas tanto estadísticas como de inteligencia artificial para encontrar relaciones y patrones que permitan crear modelos de la realidad.

Sin embargo es el KDD el que se encarga de la preparación datos (antes de DM) y la interpretación de resultados (después DM) que den significado a los patrones.

Este conocimiento que proporciona KDD se utiliza en finanzas de la banca que le permite

Obtener un patrón de uso fraudulento de tarjetas de crédito.
Determinación de grupos según el uso de tarjeta de crédito.
Correlaciones entre indicadores financieros.
Análisis de riesgos de créditos.

Análisis en el mercado:

Análisis de la cesta de compra (compras conjuntas, secuenciales, ventas cruzadas, etc)
Evaluación de campañas publicitarias
Patrones de fidelidad y fuga de clientes
Segmentación de clientes

Seguros y Salud:

Determinación de clientes que podrían ser potencialmente caros.
Procedimientos médicos solicitados conjuntamente
predicción de que clientes contratan nuevas pólizas
identificación de patrones de comportamiento para clientes con riesgo
Identificación de comportamiento fraudulento
Predicción de clientes que ampliarán su póliza.

Telecomunicaciones:

Identificar patrones de llamadas
Modelos de carga de redes
Detección de fraude

Sistemas de información

Clasificación de E-mails
Patrones de visitas a la web
Análisis de logs

viernes, 3 de febrero de 2017

Arquitectura de redes y Desarrollo - VoIP

Cuanto Ancho de banda necesito para VoIP?

Si estas planeando en implementar un sistema de voz sobre IP es recomendable que tomes en cuenta lo siguiente:

Minimo Ancho de Banda recomendado para servicio de VoIP

El ancho de banda que tu servicio de VoIP require, depende de la cantidad de llamadas simultaneas que quieras hacer. La tabla a continuacion te muestra el minimo de ancho de banda requerido para hacer llamadas, asi como velocidades recomendadas para un desempeño optimo.

Numero de llamadas concurrentes	Ancho de banda minimo requerido	Velocidad Recomendada
1	100 Kbps Up and Down	3 Mbps Up and Down
3	300 Kbps Up and Down	3 Mbps Up and Down
5	500 Kbps Up and Down	5 Mbps Up and Down
10	1 Mbps Up and Down	5-10 Mbps Up and Down

Como utiliza mi ancho de banda VoIP?

VoIP utiliza varios codecs para comprimir y descomprimir data de voz para permitirle viajar atraves de la internet eficientemente. Algunos codecs utilizan 100 kilobits per second (kbps) para viajar desde su telefono hasta tu telefono. Por lo tanto, si tuvieramos 3 personas en llamada simultaneamente, el minimo requerido es 300Kbps de subida y de bajada.

Calculando el ancho de banda necesario

Si sabes que tu proveedor ISP puede mantener cierta cantidad de velocidad, simplemente multiplica el numero de llamadas concurrentes expectativa por 100kbps.

Por ejemplo, 10 usuarios simultaneos requeririan 1Mbps (10 x 100 kbps x margen de seguridad) lo cual significa que seras lo suficientemente inteligente para permitir 5 a 10 Mbps de subida y bajada.

*Dependiendo en los otros servicios y aplicaciones que esten usando tu conexion a internet y las capacidades de tu Router, 3 a 5 Mbps pueden ser suficientes, or podrias necesitar incrementar tu ancho de banda.

Traducido de: www.phone.com

definicon de problema
presentar diagrama de estructura actual
propuesta de solucion
presentar diagrama de estructura propuesta
equipos a utilizar
definir cantidad de usuarios en estructura actual
definir cantidad de ancho de banda segun cantidad de usuarios