Business Intelligence – BI SQL Server 2008

Eventos gratuitos en Febrero en Madrid y Barcelona

Hola !!

Estoy de regreso después de un mes de intensa actividad que no me había dejado tiempo para pasarme por aquí y dejar noticias ni apuntes técnicos.

Bien, en Febrero tendremos 2 eventos importantes gratuitos presenciales en Madrid y Barcelona, se trata de eventos que organizan Danysoft y Microsoft España bajo el título Seminario BI con SQL Server y Excel.

En estos eventos hablaremos de:

Proyectos de inteligencia de negocio con SQL Server
En esta sesión revisaremos los diferentes tipos de proyectos de BI que podemos abordar con SQL Server, y las herramientas que pone a nuestra disposición como son Integration Services para la carga e integración de datos, Analysis Services para la creación de bases de datos multidimensionales (cubos OLAP) y minería de datos, y Reporting Services para la creación de informes y su gestión.

Inteligencia de negocio con Excel y PowerPivot
Excel es la otra herramienta de Microsoft, además de SQL, con la que podemos crear proyectos de análisis de datos, que ahora con PowerPivot, se hacen más potentes, y se amplían al área de integración de datos.

Mejorando los proyectos con Visual Studio y SharePoint
Repasaremos brevemente las herramientas de bases de datos de Visual Studio, especialmente las destinadas a la generación de datos, comparación de esquemas y comparación de datos. Finalmente veremos las funcionalidades de SharePoint para crear proyectos de BI.

Novedades en SQL Server 2012
La nueva versión de SQL Server va a incorporar mejoras y novedades que nos facilitarán el trabajo con bases de datos, y en particular la realización de los proyectos de inteligencia de negocio. Haremos un recorrido por las principales novedades, especialmente en Reporting Services donde los profesionales y usuarios avanzados podrán explorar visualmente sus datos a través de informes a d-h oc, con una forma de hacer consultas sencillas sobre la marcha. También trataremos las mejoras en la integración de SQL Server con SharePoint para trabajar con datos en equipo.

Toda la información sobre estos eventos las tenemos en el sitio de Danysoft:

Barcelona 16.02

Madrid 17.02

¡¡ Nos vemos !!

Tags: , , ,

Obtener Sobremuestreo de Datos con Minería de datos en Excel (II)

Posted by anabisbe on diciembre 23, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

En la entrada anterior mostramos cómo el Asistente para datos de muestra del Cliente de Minería de datos para Excel obtuvo un  resultado se ajustaba exactamente a lo que habíamos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida, no? Bueno, también dejamos la pregunta, ¿Es posible cumplir siempre con la solicitud realizada en la página Sobremuestreo de estados con escasa representación del Asistente? Pues no, la respuesta es: no es posible cumplir siempre con la solicitud.

Recordemos que podemos realizar un sobremuestreo de los datos para asegurarnos de que obtenemos una muestra suficientemente grande del valor en concreto que necesitamos. Cuando se realiza un sobremuestreo, se toma más cantidad de un determinado tipo de datos de la que se esperaría en un muestreo de datos aleatorio. El sobremuestreo resulta útil cuando se tienen pocos ejemplos de un determinado patrón. Gracias al sobremuestreo, aumenta la probabilidad de ese patrón. Podemos aumentar el muestreo para lograr un porcentaje concreto o podemos realizar un sobremuestreo en un determinado número de filas.

Es posible que el asistente no pueda cumplir con nuestras expectativas, veamos este caso:

Según esta imagen estamos pidiendo 1000 registros de los cuales 500 sean Mujeres. Esto no va a ser posible, recordemos la distribución de los valores para esta columna: 509 para Male y  apenas 491 para Female. Recordemos que este recuento lo tenemos cómodamente en el Asistente Cambiar etiquetas que hemos analizado hace muy poco.

Por tanto, a lo más que se podría aspirar para obtener un conjunto de datos con el 50% de Mujeres es 491 filas de mujeres* 2 = 982 filas

Sobre esto nos habla el mensaje emitido por el Cliente de Minería de datos para MS Excel

Tras lo cual obtenemos la nueva Hoja de cálculo Datos muestreados con 982 filas en las que se cumple el 50% solicitado.

Otra vez, misión cumplida, aunque con menos registros. El porcentaje solicitado se ha garantizado.

Hasta la próxima entrada, después de Navidad, en que continuaremos examinando las tareas y opciones del Cliente de Minería de Datos para Excel.

¡¡¡ Feliz Navidad a tod@s !!! :)

Tags: , , , ,

Obtener Sobremuestreo de Datos con Minería de datos en Excel

Posted by anabisbe on diciembre 21, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Hemos visto antes cómo ejecutar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010. Antes hablé de Muestreo de datos con datos Excel, hoy hablaré de Sobremuestreo, también con datos Excel, porque esta opción no admite trabajo con datos externos.

El sobremuestreo crea un conjunto de datos que contiene una relación específica de un elemento de datos seleccionado. Por ejemplo, puede usarse para garantizar un número igual de elementos masculinos y femeninos en los datos, incluso aunque haya una gran diferencia en la relación de los datos de origen.  El valor de destino para el sobremuestreo debe ser un valor discreto; no se puede realizar un sobremuestreo de datos numéricos continuos.

En la ventana Sobremuestreo de estados con escasa representación, se especifica el elemento de datos que se desea equilibrar, la relación deseada para este elemento en el conjunto de datos resultante y el número máximo de filas que contendrá el conjunto resultante. Las filas que no contienen el elemento de datos especificado se seleccionan aleatoriamente para rellenar el conjunto de datos en el tamaño especificado, si hay suficientes filas para ello. Vamos a reproducir la problemática que acabamos de plantear, 50% de mujeres y hombres.

Primero, seleccionamos la columna cuyos datos se obtendrán, luego en Estado del destino, seleccionamos de la lista un valor que está representado de forma insuficiente en el conjunto de datos original. El sobremuestreo aumentará la proporción de filas de datos que incluyen este estado. Para finalizar, indicamos el porcentaje de elementos del conjunto de datos completado que deberían contener el estado de destino y el número de filas que se van a extraer. Este valor representa el tamaño del conjunto de datos final.

Por tanto, podemos dirigir el asistente para que alcance un porcentaje concreto o cree un cierto número de filas. El conjunto de resultados se colocará en una nueva hoja de cálculo con los datos de muestra que se acaban de equilibrar cuyo nombre predeterminado es Datos muestreados. No se crea una hoja independiente para datos no seleccionados de forma predeterminada ni hay opción para hacerlo.

Este método se usa normalmente cuando el elemento de datos que interesa ocurre muy raramente en los datos de origen y queremos un valor de destino que no abunde en los datos y dirigir el asistente para que recopile más filas de ese tipo. Aumentar la distribución de dicho estado puede a menudo mejorar los resultados de minería de datos. Las pruebas deben realizarse en un conjunto de datos que no se haya equilibrado previamente con este método.

Para comprobar que el resultado es el que esperábamos, no tenemos más que regresar a Explorar datos y seleccionar la columna Gender de la hoja Datos Muestreados.

La imagen demuestra que el resultado se ajusta exactamente a lo que hemos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida ¡! :) ¿Es posible cumplir siempre con la solicitud realizada en la página Sobremuestreo de estados con escasa representación del Asistente? Les dejo la pregunta … en la próxima entrada la respuesta :)

Tags: , , , ,

Obtener Datos de muestra con Minería de datos en Excel

Posted by anabisbe on diciembre 19, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

La última tarea que vamos a describir en el grupo Preparación de datos es Datos de muestra. Se trata de un asistente que ofrece dos  métodos para crear conjuntos de datos equilibrados para entrenar y probar modelos. Las dos posibilidades son: muestrear aleatoriamente los datos de conjuntos de datos grandes y sobremuestrear datos para reequilibrar un conjunto de datos.  Aquí vamos a describir las dos.

Lo primero sería pensar, ¿para qué necesitamos dividir el conjunto de datos? Cuando hablamos de minería de datos, hablamos de estructuras y modelos de minería y estos modelos requieren entrenamiento. El entrenamiento de los modelos no lo hacemos con la totalidad de los datos, basta con una muestra aleatoria de los datos que se encuentran almacenados en Excel o en un origen de datos externos y por eso los dividimos. El muestreo aleatorio es la mejor manera de asegurarse de que los datos usados para probar un modelo constituyen una buena representación de los datos usados para crear el modelo.

En algunos casos necesitamos que la muestra sea representativa de lo que necesitamos modelar, por ejemplo, un tanto porciento de mujeres, o de una determinada profesión, etc. Para estos casos hacemos Sobremuestreo. Vamos por partes, como nos enseñó Jack :)

Lo primero que tenemos al llamar al Asistente es la posibilidad de Seleccionar datos de origen y esta vez además de la tabla y el intervalo de datos, tenemos la opción de seleccionar un origen de datos externos.

De momento nos quedamos con la tabla con que venimos trabajando.

Como comenté antes, tenemos dos opciones cuando seleccionamos el tipo de muestreo, de momento vamos a quedarnos con la primera: Muestreo aleatorio.

Cuando seleccionamos la opción de muestreo aleatorio, el Asistente para datos de muestra crea conjuntos de datos de entrenamiento y de prueba automáticamente y los sitúa en hojas de cálculo de Excel independientes para que podamos consultarlos posteriormente.

En cualquier caso, muestreo aleatorio o sobremuestreo, tenemos que indicar cómo queremos dividir la muestra, y esto lo hacemos indicando el tamaño de la muestra, ya sea su porcentaje con relación a la totalidad de la muestra o la cantidad de filas a tener en cuenta. Para el muestreo aleatorio, especificamos el porcentaje de los datos originales que desea usar para pruebas o el número total de filas que desea usar en el conjunto de datos de prueba. Los valores predeterminados son 70.0 y 700 respectivamente. Los datos de la hoja original no se verán afectados.

Para finalizar, sólo nos queda indicar un nombre para la nueva hoja de cálculo en que se almacenarán de forma aleatoria los datos muestreados. El nombre predeterminado es Datos seleccionados. Al crear un muestreo aleatorio de los datos, no es obligatorio obtener como resultado los datos que no se muestrearon. Para obtenerlo, o no, seleccionamos, o no, la casilla Crear una hoja de trabajo para datos no seleccionados. Si optamos por guardar los datos no seleccionados en una hoja de cálculo independiente, escribimos un nombre para la nueva hoja de cálculo. El nombre predeterminado es Datos no seleccionados.

El resultado es la creación de dos hojas de cálculo nuevas para cada conjunto de datos como se muestra en la figura:

Aunque regresaremos a este tema en la medida que avancemos con las opciones de Modelado, es bueno dejar constancia dentro de este tema que la mayoría de los asistentes del Cliente de minería de datos para Excel también disponen de una opción que permite separar los datos aleatoriamente en conjuntos de entrenamiento y de prueba. Sin embargo, si utilizamos los asistentes, los datos permanecen en la misma hoja de cálculo u otro origen de datos y la información sobre si una determinada fila es un caso de prueba o un caso de entrenamiento se almacena internamente. Por el contrario, si utilizamos el Asistente para datos de muestra, los datos de entrenamiento y de prueba se sitúan en hojas de cálculo independientes para facilitar su consulta.

Hemos visto cómo podemos utilizar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010 para crear conjuntos de datos de entrenamiento y de prueba mediante el método de muestreo aleatorio. La próxima vez estaremos hablando de Sobremuestreo.

Tags: , , , ,

Limpiar datos cambiando etiquetas (II)

Posted by anabisbe on diciembre 16, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Vamos a continuar, justo donde lo dejamos la pasada entrega. Para ponernos en situación, recordemos que estamos hablando de cambiar etiquetas de los datos que forma parte de las acciones de Limpieza de datos que a su vez forma parte de las acciones de Preparación de datos con el Cliente de Minería de datos.

Otro caso podría ser cambiar las etiquetas de los datos para reemplazar los códigos numéricos utilizados en los resultados de una encuesta por una descripción de texto con el significado de los códigos numéricos. A partir de los datos que tenemos digamos que necesitamos dividir la población entre familias numerosas o no. En España se considera que existe Familia Numerosa cuando hay 3 ó más hijos. Esta condición es muy importante para acceso a determinados beneficios. Nosotros no tenemos cuáles son numerosas y cuáles no; pero tenemos la columna número de hijos y es todo lo que necesitamos.

La tabla que nos muestra el asistente es la siguiente:

Una vez introducido el texto de la etiqueta y seleccionado según sea el caso, tenemos el siguiente resultado.

Aquí tenemos la tabla con las dos columnas.

Otra funcionalidad de Cambiar Etiquetas es crear nuevos grupos de valores de datos. El ejemplo que acabamos de terminar nos sirve para comentarlo. Según la columna Children tenemos 6 grupos (de 0 a 5), ahora contamos con dos grupos (FamiliaNumerosa y FamiliaNoNumerosa).  En un análisis posterior, por ejemplo en una tabla dinámica (con o sin cubo OLAP), podemos utilizar ambas columnas dentro de una jerarquía de usuarios.  Por otra parte, hay que tener en cuenta que una segunda columna que repita o consolide los datos de la columna original puede sesgar los resultados de análisis de datos posteriores, como siempre, dependerá de la situación, si al final vemos que no necesitamos las dos columnas podemos realizar una copia de la tabla, eliminar la columna original y usar la tabla que tiene la columna con las nuevas etiquetas para análisis posteriores.  O bien, cuando seleccionemos las columnas usadas en el análisis, tenemos que tener en cuenta no seleccionar al mismo tiempo la columna original y la columna cuyas etiquetas han cambiado y seleccionar solo una columna.

Teniendo en cuenta que las nuevas etiquetas se usan como encabezados de columna en los gráficos generados por otros asistentes para minería de datos, deben ser breves a la vez que descriptivas. Acabamos de dejar un texto que quizás sería mejor cambiar por FNN (en lugar de FamiliaNoNumerosa)  y FN (en lugar de FamiliaNumerosa) para garantizar lo de breve, aunque habría que preguntarse si al usuario final le resulta suficientemente descriptiva, y aquí como siempre, va a depender de la situación real que estemos analizando.

Antes de terminar, me gustaría aclarar que hay casos en los que tenemos demasiados valores posibles y el asistente nos avisa de esta situación. El mayor número de valores a mostrar es 500. Para reproducir este caso a partir del juego de datos con que contamos, voy a seleccionar la columna ID… que evidentemente no constituye una columna descriptiva del dato ni sirve para referir ningún comportamiento o patrón; pero es el ID y pa’esto nos vale :) .

Una vez seleccionado aquí tenemos el error.

Como vemos, a partir de los datos con que contamos inicialmente, podemos realizar muchas modificaciones para conseguir tener la información agrupada de tal forma que garantice el buen resultado de los análisis. En la próxima entrega estaremos hablando de Preparación de datos, específicamente de Datos de muestra.

Tags: , , ,

Limpiar datos cambiando etiquetas (I)

Posted by anabisbe on diciembre 14, 2011
Analizar Datos, Excel 2010 y Minería de Datos / No Comments

Cuando comencé esta serie, allá por el mes de abril de este año 2011 comentaba que nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades. Pues bien, justamente este sigue siendo nuestro objetivo cuando vamos a utilizar la opción Limpiar datos cambiando sus etiquetas, desde el menú Preparación de datos del Cliente de Minería de datos para Excel. Antes hemos estado centrados en la exploración de datos y limpieza de datos atípicos. Vamos a trabajar con las etiquetas y modificar los datos para que resulten más fáciles de leer y usar.

El origen de datos que vamos a utilizar es el mismo. Como no puede ser de otra forma, vamos a basarnos en un asistente para realizar esta transformación, por ejemplo, podemos reemplazar los valores numéricos por etiquetas de texto o asignar una etiqueta de grupo a intervalos de datos continuos, en fin, reorganizar los datos y a crear columnas nuevas para su uso en la minería de datos.  El primer paso del asistente será la selección del origen de datos y la columna específica, como en el resto de casos que hemos estado viendo. Recordemos que al explorar o limpiar datos, sólo se puede trabajar con una columna cada vez.

Una razón para necesitar esta opción podría ser asignar un valor que sea más comprensible al usuario final, es posible que nos resulte difícil leer o interpretar algunos valores debido al método usado a la hora de especificarlos. En nuestro ejemplo los datos relativos al Género aparecen en inglés, pues bien, por ejemplo, nos puede interesar cambiar Female por Mujer y Male por Hombre. El asistente Cambiar etiquetas de datos agrupa los datos por valores para que pueda cambiar las etiquetas de los datos. El resultado es una tabla en la que en la primera columna, Recuento, muestra el número de filas que contienen el valor,en la segunda,  Etiquetas originales, muestra el valor o la etiqueta actual usada para el valor, en este caso nos muestra dos únicos valores posibles: Female y Male.


La tercera columna, Nuevas etiquetas, nos permite seleccionar un valor de etiqueta nueva en la lista de valores o resaltar la etiqueta y escribir una nueva. En este caso vamos a cambiar las dos etiquetas por valores no existentes en la lista, aunque podíamos crear grupos aprovechando algunas de las etiquetas existentes.

En el cuadro de diálogo Seleccionar destino, tal y como vimos en casos anteriores, vamos a especificar dónde desea almacenar los datos cuyas etiquetas ha cambiado. Podemos sobrescribir los valores existentes, crear una nueva hoja de cálculo o agregar una nueva columna a la hoja de cálculo existente.

Vamos a agregar una nueva columna para que se vea el resultado de lo que acabamos de hacer.

La tabla con las dos columnas tendría este aspecto.

En la próxima entrada veremos otro caso que representa la necesidad de utilizar Cambiar Etiquetas dentro de Limpieza de datos en el Cliente de Minería de datos.

Tags: , , ,

Tratamiento de valores atípicos continuos en Excel 2010

La pasada entrega estuvimos viendo cómo se pueden procesar los valores discretos identificados como atípicos con el Cliente de Minería de datos para Excel. Continue reading…

Tags: , , , ,

Tratamiento de valores atípicos discretos en Excel 2010

Una vez definidos los umbrales de valores atípicos, para datos continuos o discretos,  estamos en condiciones de definir cómo queremos procesar los valores atípicos seleccionados. Continue reading…

Tags: , , , ,

Detectar valores atípicos continuos con DM desde Excel 2010

En la pasada entrega comencé a hablar de Limpieza de datos, concretamente del tratamiento de los datos discretos  con el Asistente para Valores atípicos, de la Herramienta Limpiar datos del Cliente de Minería de datos de MS Excel 2010. Continue reading…

Tags: , , , ,

Training Kit SQL Server 2012 Disponible !!!

Posted by anabisbe on diciembre 06, 2011
Business Intelligence - BI SQL Server 2008, SQL Server 2012 / No Comments

Ya está aquí el SQL Server 2012 Developer Training Kit Web Installer Preview.

Sin palabras … a disfrutar :) !!!!!

Tags: