Archive for diciembre, 2011

Obtener Sobremuestreo de Datos con Minería de datos en Excel (II)

Posted by anabisbe on diciembre 23, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

En la entrada anterior mostramos cómo el Asistente para datos de muestra del Cliente de Minería de datos para Excel obtuvo un  resultado se ajustaba exactamente a lo que habíamos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida, no? Bueno, también dejamos la pregunta, ¿Es posible cumplir siempre con la solicitud realizada en la página Sobremuestreo de estados con escasa representación del Asistente? Pues no, la respuesta es: no es posible cumplir siempre con la solicitud.

Recordemos que podemos realizar un sobremuestreo de los datos para asegurarnos de que obtenemos una muestra suficientemente grande del valor en concreto que necesitamos. Cuando se realiza un sobremuestreo, se toma más cantidad de un determinado tipo de datos de la que se esperaría en un muestreo de datos aleatorio. El sobremuestreo resulta útil cuando se tienen pocos ejemplos de un determinado patrón. Gracias al sobremuestreo, aumenta la probabilidad de ese patrón. Podemos aumentar el muestreo para lograr un porcentaje concreto o podemos realizar un sobremuestreo en un determinado número de filas.

Es posible que el asistente no pueda cumplir con nuestras expectativas, veamos este caso:

Según esta imagen estamos pidiendo 1000 registros de los cuales 500 sean Mujeres. Esto no va a ser posible, recordemos la distribución de los valores para esta columna: 509 para Male y  apenas 491 para Female. Recordemos que este recuento lo tenemos cómodamente en el Asistente Cambiar etiquetas que hemos analizado hace muy poco.

Por tanto, a lo más que se podría aspirar para obtener un conjunto de datos con el 50% de Mujeres es 491 filas de mujeres* 2 = 982 filas

Sobre esto nos habla el mensaje emitido por el Cliente de Minería de datos para MS Excel

Tras lo cual obtenemos la nueva Hoja de cálculo Datos muestreados con 982 filas en las que se cumple el 50% solicitado.

Otra vez, misión cumplida, aunque con menos registros. El porcentaje solicitado se ha garantizado.

Hasta la próxima entrada, después de Navidad, en que continuaremos examinando las tareas y opciones del Cliente de Minería de Datos para Excel.

¡¡¡ Feliz Navidad a tod@s !!! :)

Tags: , , , ,

Obtener Sobremuestreo de Datos con Minería de datos en Excel

Posted by anabisbe on diciembre 21, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Hemos visto antes cómo ejecutar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010. Antes hablé de Muestreo de datos con datos Excel, hoy hablaré de Sobremuestreo, también con datos Excel, porque esta opción no admite trabajo con datos externos.

El sobremuestreo crea un conjunto de datos que contiene una relación específica de un elemento de datos seleccionado. Por ejemplo, puede usarse para garantizar un número igual de elementos masculinos y femeninos en los datos, incluso aunque haya una gran diferencia en la relación de los datos de origen.  El valor de destino para el sobremuestreo debe ser un valor discreto; no se puede realizar un sobremuestreo de datos numéricos continuos.

En la ventana Sobremuestreo de estados con escasa representación, se especifica el elemento de datos que se desea equilibrar, la relación deseada para este elemento en el conjunto de datos resultante y el número máximo de filas que contendrá el conjunto resultante. Las filas que no contienen el elemento de datos especificado se seleccionan aleatoriamente para rellenar el conjunto de datos en el tamaño especificado, si hay suficientes filas para ello. Vamos a reproducir la problemática que acabamos de plantear, 50% de mujeres y hombres.

Primero, seleccionamos la columna cuyos datos se obtendrán, luego en Estado del destino, seleccionamos de la lista un valor que está representado de forma insuficiente en el conjunto de datos original. El sobremuestreo aumentará la proporción de filas de datos que incluyen este estado. Para finalizar, indicamos el porcentaje de elementos del conjunto de datos completado que deberían contener el estado de destino y el número de filas que se van a extraer. Este valor representa el tamaño del conjunto de datos final.

Por tanto, podemos dirigir el asistente para que alcance un porcentaje concreto o cree un cierto número de filas. El conjunto de resultados se colocará en una nueva hoja de cálculo con los datos de muestra que se acaban de equilibrar cuyo nombre predeterminado es Datos muestreados. No se crea una hoja independiente para datos no seleccionados de forma predeterminada ni hay opción para hacerlo.

Este método se usa normalmente cuando el elemento de datos que interesa ocurre muy raramente en los datos de origen y queremos un valor de destino que no abunde en los datos y dirigir el asistente para que recopile más filas de ese tipo. Aumentar la distribución de dicho estado puede a menudo mejorar los resultados de minería de datos. Las pruebas deben realizarse en un conjunto de datos que no se haya equilibrado previamente con este método.

Para comprobar que el resultado es el que esperábamos, no tenemos más que regresar a Explorar datos y seleccionar la columna Gender de la hoja Datos Muestreados.

La imagen demuestra que el resultado se ajusta exactamente a lo que hemos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida ¡! :) ¿Es posible cumplir siempre con la solicitud realizada en la página Sobremuestreo de estados con escasa representación del Asistente? Les dejo la pregunta … en la próxima entrada la respuesta :)

Tags: , , , ,

Obtener Datos de muestra con Minería de datos en Excel

Posted by anabisbe on diciembre 19, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

La última tarea que vamos a describir en el grupo Preparación de datos es Datos de muestra. Se trata de un asistente que ofrece dos  métodos para crear conjuntos de datos equilibrados para entrenar y probar modelos. Las dos posibilidades son: muestrear aleatoriamente los datos de conjuntos de datos grandes y sobremuestrear datos para reequilibrar un conjunto de datos.  Aquí vamos a describir las dos.

Lo primero sería pensar, ¿para qué necesitamos dividir el conjunto de datos? Cuando hablamos de minería de datos, hablamos de estructuras y modelos de minería y estos modelos requieren entrenamiento. El entrenamiento de los modelos no lo hacemos con la totalidad de los datos, basta con una muestra aleatoria de los datos que se encuentran almacenados en Excel o en un origen de datos externos y por eso los dividimos. El muestreo aleatorio es la mejor manera de asegurarse de que los datos usados para probar un modelo constituyen una buena representación de los datos usados para crear el modelo.

En algunos casos necesitamos que la muestra sea representativa de lo que necesitamos modelar, por ejemplo, un tanto porciento de mujeres, o de una determinada profesión, etc. Para estos casos hacemos Sobremuestreo. Vamos por partes, como nos enseñó Jack :)

Lo primero que tenemos al llamar al Asistente es la posibilidad de Seleccionar datos de origen y esta vez además de la tabla y el intervalo de datos, tenemos la opción de seleccionar un origen de datos externos.

De momento nos quedamos con la tabla con que venimos trabajando.

Como comenté antes, tenemos dos opciones cuando seleccionamos el tipo de muestreo, de momento vamos a quedarnos con la primera: Muestreo aleatorio.

Cuando seleccionamos la opción de muestreo aleatorio, el Asistente para datos de muestra crea conjuntos de datos de entrenamiento y de prueba automáticamente y los sitúa en hojas de cálculo de Excel independientes para que podamos consultarlos posteriormente.

En cualquier caso, muestreo aleatorio o sobremuestreo, tenemos que indicar cómo queremos dividir la muestra, y esto lo hacemos indicando el tamaño de la muestra, ya sea su porcentaje con relación a la totalidad de la muestra o la cantidad de filas a tener en cuenta. Para el muestreo aleatorio, especificamos el porcentaje de los datos originales que desea usar para pruebas o el número total de filas que desea usar en el conjunto de datos de prueba. Los valores predeterminados son 70.0 y 700 respectivamente. Los datos de la hoja original no se verán afectados.

Para finalizar, sólo nos queda indicar un nombre para la nueva hoja de cálculo en que se almacenarán de forma aleatoria los datos muestreados. El nombre predeterminado es Datos seleccionados. Al crear un muestreo aleatorio de los datos, no es obligatorio obtener como resultado los datos que no se muestrearon. Para obtenerlo, o no, seleccionamos, o no, la casilla Crear una hoja de trabajo para datos no seleccionados. Si optamos por guardar los datos no seleccionados en una hoja de cálculo independiente, escribimos un nombre para la nueva hoja de cálculo. El nombre predeterminado es Datos no seleccionados.

El resultado es la creación de dos hojas de cálculo nuevas para cada conjunto de datos como se muestra en la figura:

Aunque regresaremos a este tema en la medida que avancemos con las opciones de Modelado, es bueno dejar constancia dentro de este tema que la mayoría de los asistentes del Cliente de minería de datos para Excel también disponen de una opción que permite separar los datos aleatoriamente en conjuntos de entrenamiento y de prueba. Sin embargo, si utilizamos los asistentes, los datos permanecen en la misma hoja de cálculo u otro origen de datos y la información sobre si una determinada fila es un caso de prueba o un caso de entrenamiento se almacena internamente. Por el contrario, si utilizamos el Asistente para datos de muestra, los datos de entrenamiento y de prueba se sitúan en hojas de cálculo independientes para facilitar su consulta.

Hemos visto cómo podemos utilizar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010 para crear conjuntos de datos de entrenamiento y de prueba mediante el método de muestreo aleatorio. La próxima vez estaremos hablando de Sobremuestreo.

Tags: , , , ,

Limpiar datos cambiando etiquetas (II)

Posted by anabisbe on diciembre 16, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Vamos a continuar, justo donde lo dejamos la pasada entrega. Para ponernos en situación, recordemos que estamos hablando de cambiar etiquetas de los datos que forma parte de las acciones de Limpieza de datos que a su vez forma parte de las acciones de Preparación de datos con el Cliente de Minería de datos.

Otro caso podría ser cambiar las etiquetas de los datos para reemplazar los códigos numéricos utilizados en los resultados de una encuesta por una descripción de texto con el significado de los códigos numéricos. A partir de los datos que tenemos digamos que necesitamos dividir la población entre familias numerosas o no. En España se considera que existe Familia Numerosa cuando hay 3 ó más hijos. Esta condición es muy importante para acceso a determinados beneficios. Nosotros no tenemos cuáles son numerosas y cuáles no; pero tenemos la columna número de hijos y es todo lo que necesitamos.

La tabla que nos muestra el asistente es la siguiente:

Una vez introducido el texto de la etiqueta y seleccionado según sea el caso, tenemos el siguiente resultado.

Aquí tenemos la tabla con las dos columnas.

Otra funcionalidad de Cambiar Etiquetas es crear nuevos grupos de valores de datos. El ejemplo que acabamos de terminar nos sirve para comentarlo. Según la columna Children tenemos 6 grupos (de 0 a 5), ahora contamos con dos grupos (FamiliaNumerosa y FamiliaNoNumerosa).  En un análisis posterior, por ejemplo en una tabla dinámica (con o sin cubo OLAP), podemos utilizar ambas columnas dentro de una jerarquía de usuarios.  Por otra parte, hay que tener en cuenta que una segunda columna que repita o consolide los datos de la columna original puede sesgar los resultados de análisis de datos posteriores, como siempre, dependerá de la situación, si al final vemos que no necesitamos las dos columnas podemos realizar una copia de la tabla, eliminar la columna original y usar la tabla que tiene la columna con las nuevas etiquetas para análisis posteriores.  O bien, cuando seleccionemos las columnas usadas en el análisis, tenemos que tener en cuenta no seleccionar al mismo tiempo la columna original y la columna cuyas etiquetas han cambiado y seleccionar solo una columna.

Teniendo en cuenta que las nuevas etiquetas se usan como encabezados de columna en los gráficos generados por otros asistentes para minería de datos, deben ser breves a la vez que descriptivas. Acabamos de dejar un texto que quizás sería mejor cambiar por FNN (en lugar de FamiliaNoNumerosa)  y FN (en lugar de FamiliaNumerosa) para garantizar lo de breve, aunque habría que preguntarse si al usuario final le resulta suficientemente descriptiva, y aquí como siempre, va a depender de la situación real que estemos analizando.

Antes de terminar, me gustaría aclarar que hay casos en los que tenemos demasiados valores posibles y el asistente nos avisa de esta situación. El mayor número de valores a mostrar es 500. Para reproducir este caso a partir del juego de datos con que contamos, voy a seleccionar la columna ID… que evidentemente no constituye una columna descriptiva del dato ni sirve para referir ningún comportamiento o patrón; pero es el ID y pa’esto nos vale :) .

Una vez seleccionado aquí tenemos el error.

Como vemos, a partir de los datos con que contamos inicialmente, podemos realizar muchas modificaciones para conseguir tener la información agrupada de tal forma que garantice el buen resultado de los análisis. En la próxima entrega estaremos hablando de Preparación de datos, específicamente de Datos de muestra.

Tags: , , ,

Limpiar datos cambiando etiquetas (I)

Posted by anabisbe on diciembre 14, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Cuando comencé esta serie, allá por el mes de abril de este año 2011 comentaba que nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades. Pues bien, justamente este sigue siendo nuestro objetivo cuando vamos a utilizar la opción Limpiar datos cambiando sus etiquetas, desde el menú Preparación de datos del Cliente de Minería de datos para Excel. Antes hemos estado centrados en la exploración de datos y limpieza de datos atípicos. Vamos a trabajar con las etiquetas y modificar los datos para que resulten más fáciles de leer y usar.

El origen de datos que vamos a utilizar es el mismo. Como no puede ser de otra forma, vamos a basarnos en un asistente para realizar esta transformación, por ejemplo, podemos reemplazar los valores numéricos por etiquetas de texto o asignar una etiqueta de grupo a intervalos de datos continuos, en fin, reorganizar los datos y a crear columnas nuevas para su uso en la minería de datos.  El primer paso del asistente será la selección del origen de datos y la columna específica, como en el resto de casos que hemos estado viendo. Recordemos que al explorar o limpiar datos, sólo se puede trabajar con una columna cada vez.

Una razón para necesitar esta opción podría ser asignar un valor que sea más comprensible al usuario final, es posible que nos resulte difícil leer o interpretar algunos valores debido al método usado a la hora de especificarlos. En nuestro ejemplo los datos relativos al Género aparecen en inglés, pues bien, por ejemplo, nos puede interesar cambiar Female por Mujer y Male por Hombre. El asistente Cambiar etiquetas de datos agrupa los datos por valores para que pueda cambiar las etiquetas de los datos. El resultado es una tabla en la que en la primera columna, Recuento, muestra el número de filas que contienen el valor,en la segunda,  Etiquetas originales, muestra el valor o la etiqueta actual usada para el valor, en este caso nos muestra dos únicos valores posibles: Female y Male.


La tercera columna, Nuevas etiquetas, nos permite seleccionar un valor de etiqueta nueva en la lista de valores o resaltar la etiqueta y escribir una nueva. En este caso vamos a cambiar las dos etiquetas por valores no existentes en la lista, aunque podíamos crear grupos aprovechando algunas de las etiquetas existentes.

En el cuadro de diálogo Seleccionar destino, tal y como vimos en casos anteriores, vamos a especificar dónde desea almacenar los datos cuyas etiquetas ha cambiado. Podemos sobrescribir los valores existentes, crear una nueva hoja de cálculo o agregar una nueva columna a la hoja de cálculo existente.

Vamos a agregar una nueva columna para que se vea el resultado de lo que acabamos de hacer.

La tabla con las dos columnas tendría este aspecto.

En la próxima entrada veremos otro caso que representa la necesidad de utilizar Cambiar Etiquetas dentro de Limpieza de datos en el Cliente de Minería de datos.

Tags: , , ,

¡¡¡ Gracias PASS España !!! Un 10 !!!!

Posted by anabisbe on diciembre 13, 2011
SQL Server 2012 / No Comments

Hola !!

Ayer vivimos otra jornada maratónica, 12 horas de SQL Server 2012, el 12 del mes 12 a las 12.12 !!! Jornada intensa, ilustrativa, dinámica… en fin una fiesta del saber, por todo lo alto como regalo de fin de año por parte de del Grupo de Usuarios de SQL de España (PASS Spanish Group)

Durante 12 horas nos regalaron 12 apasionantes sesiones que trataron diversos temas del SQL Server en su próxima versión 2012. La puesta en escena fue impecable, no sé cuántos nos pudimos conectar; pero a juzgar por twitter con #sql12es que no dejaba de “sonar”, diría que éramos muchos.

Tras una breve introducción en la que a juzgar por los expertos ya se podía imaginar lo que vendría después …pasamos a la primera sesión Enriqueciendo nuestros informes en PowerView con el dúo de ases Rubén Pertusa y Miguel Egea que estuvieron brillantes, para variar, en una magnífica combinación a dos voces y 4 manos …. y por si pareciera poco, repitieron horas más tardes con la charla Cómo migrar nuestra solución multidimensional al nuevo modelo BISM Tabular y no morir en el intento… este dúo es la bomba !!! Muchísimas gracias a los dos. Hey !!! Que Miguel prometió unos ejemplos como bonus track … venga chicos que ya los estamos esperando, como premio al esfuerzo les dejamos deberes :) .

El maestro Eladio Rincón estuvo presente en varias sesiones y entrevistas, con sus comentarios y preguntas enriqueció el debate todo el tiempo. Gran trabajo Eladio … bueno Eladio y trabajo en una misma frase, ya se sabe… grande de verdad !!! Muchas gracias Eladio por tu excelente trabajo y por los invitados que trajeron, fue un regalo contar con Pedro Urbina, Desarrollador en Microsoft Corp, quien nos regaló excelente información sobre dónde estamos y sobre todo hacia dónde nos dirigimos. Además fue muy interesante escuchar a  César Galindo hablando de PDW y Miguel Llopis que estuvo enorme mostrando demos de Data Explorer.

Por su parte Enrique Catalá nos contó sobre Cláusula OVER como una de las nuevas posibilidades con T-SQL 2012, los ejemplos muy ilustrativos, y gracias a Kike por el esfuerzo de grabar la sesión y de esta forma estar en dos lugares a la vez :) . Además … hubo sesión magistral con Eladio Rincón sobre Alta Disponibilidad en SQL Server Denali, espectacular. Buen trabajo de Kike, Eladio y muy bueno también el de Jose Quinto que nos contó y demostró las ventajas y novedades de Reporting Services (SSRS) 2012 para SharePoint 2010. Otro Kike, Enrique Puig, mostró Interioridades y casos realistas sobre índices columnares, me encantó el planteamiento del problema, y el tratamiento desde varias soluciones, gracias Kike, muy ilustrativo. La sesión Novedades en Manejabilidad en SQL Server 2012 impartida con suma destreza por Alberto López fue muy interesante y además instructiva, gracias Alberto, como siempre brillante.

… pasaban las horas; pero no la ilusión y mucho menos bajaba la calidad, disfruté mucho con la sesión de Pau Sempere sobre Data Quality Services, sesión más que didáctiva, las explicaciones no dejaban lugar a la dudad sobre la potencia de la herramienta y lo accesible que está trabajar con ella. Ahora me ha tocado entrar en el Modelado de datos y me ha parecido muy bien dirigida, Gracias Pau !!!! Y llegó el turno del maestro y amigo Salvador Ramos, con la sesión Aplicando las novedades de Integration Services 2012 a nuestros escenarios… y yo que pensaba que iba a tratar de Novedades de trabajo con SSIS, el UI, etc y de eso nada !!! Todo era nuevo para mí, qué cantidad de cosas por descubrir y aprender. Con Salva ya se sabe, el éxito está garantizado, es un profe como la copa de un pino, y esta sesión no fue la excepción. ¡¡¡ Gracias !!! Al final, algo más tarde de lo esperado; pero no menos deseada, llegó la sesión Escenarios en nube con SQL Server y SQL Azure con Miguel López, que estuvo fantástico y nos llevó al mundo Azure desde analogías de la vida cotidiana hasta mostrar la potencia y que nos queda mucho por andar con esto. Gracias Miguel… nos mantendremos en sintonía y estando tú, estamos bien guiados.

Había hablado de esta fiesta aquí y aquí … si te la perdiste, mantente en sintonía, pronto subirán los videos y las presentaciones.

Muchas, muchísimas gracias al Grupo de Usuarios de SQL de España (PASS Spanish Group) !!!!!!!!! Muchas gracias a todos los que apoyaron en este empeño, la transmisión estuvo bien, funcionó de maravilla, la logística impecable, los profes y entrevistados … bueno, de ellos ya se sabía, son todos brillantes, cercanos, amenos y se dejan la piel en estos eventos.

Gracias globbtv !!!

Por todo lo dicho !!! 10 con Matrícula de honor !!!! Hasta la próxima.

Tags: ,

Hoy !!!! 12 horas de SQL Server 2012

Posted by anabisbe on diciembre 12, 2011
Eventos, SQL Server 2012 / No Comments

Hoy es el día !!!

¡¡¡ vamos a celebrar las 12 horas de SQL Server 2012, el 12 del mes 12 a las 12.12 !!! :) Hoy !!!

Y este es un regalo adelantado de los Reyes Mayos que llega de la mano del Grupo de Usuarios de SQL de España (PASS Spanish Group) !!!

Ellos nos regalan 12 sesiones, en las que una constelación de estrellas, expertos ponentes y MVPs de SQL Server contarán novedades y cosas interesantes de temas como: PowerView, T-SQL, SSRS y Sharepoint, BISM, DQS, Azure, SSIS, además entrevistas y temas de Administración.

Mira la Agenda, con todo el detalle de los horarios, sesiones, ponentes, entrevistadores y entrevistados.

Te lo había antes, te lo recuerdo ahora, avisa a todos !!!

No te lo puedes perder, estamos todos invitados a esta fiesta que celebramos hoy, en apenas una horas, con el MS SQL Server 2012 :)

Tags: ,

Tratamiento de valores atípicos continuos en Excel 2010

La pasada entrega estuvimos viendo cómo se pueden procesar los valores discretos identificados como atípicos con el Cliente de Minería de datos para Excel. Continue reading…

Tags: , , , ,

Tratamiento de valores atípicos discretos en Excel 2010

Una vez definidos los umbrales de valores atípicos, para datos continuos o discretos,  estamos en condiciones de definir cómo queremos procesar los valores atípicos seleccionados. Continue reading…

Tags: , , , ,

Detectar valores atípicos continuos con DM desde Excel 2010

En la pasada entrega comencé a hablar de Limpieza de datos, concretamente del tratamiento de los datos discretos  con el Asistente para Valores atípicos, de la Herramienta Limpiar datos del Cliente de Minería de datos de MS Excel 2010. Continue reading…

Tags: , , , ,