<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Amby.Net &#187; Business Intelligence &#8211; BI SQL Server 2008</title>
	<atom:link href="http://amby.net/category/business-intelligence-bi-sql-server/feed/" rel="self" type="application/rss+xml" />
	<link>http://amby.net</link>
	<description>Visual FoxPro, .NET y SQL, entre otras cosas</description>
	<lastBuildDate>Tue, 31 Jan 2012 09:29:56 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.1</generator>
		<item>
		<title>Eventos gratuitos en Febrero en Madrid y Barcelona</title>
		<link>http://amby.net/2012/01/30/eventos-gratuitos-en-febrero/</link>
		<comments>http://amby.net/2012/01/30/eventos-gratuitos-en-febrero/#comments</comments>
		<pubDate>Mon, 30 Jan 2012 07:00:04 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Business Intelligence - BI SQL Server 2008]]></category>
		<category><![CDATA[Denali]]></category>
		<category><![CDATA[Eventos]]></category>
		<category><![CDATA[SQL Server 2012]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[Danysoft]]></category>
		<category><![CDATA[Eventos Danysoft]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3765</guid>
		<description><![CDATA[Hola !! Estoy de regreso después de un mes de intensa actividad que no me había dejado tiempo para pasarme por aquí y dejar noticias ni apuntes técnicos. Bien, en Febrero tendremos 2 eventos importantes gratuitos presenciales en Madrid y Barcelona, se trata de eventos que organizan Danysoft y Microsoft España bajo el título Seminario [...]]]></description>
			<content:encoded><![CDATA[<p>Hola !!</p>
<p>Estoy de regreso después de un mes de intensa actividad que no me había dejado tiempo para pasarme por aquí y dejar noticias ni apuntes técnicos.</p>
<p>Bien, en Febrero tendremos 2 eventos importantes gratuitos presenciales en Madrid y Barcelona, se trata de eventos que organizan <a href="http://www.danysoft.com">Danysoft</a> y <a href="http://www.microsoft.com/es-es/default.aspx">Microsoft España</a> bajo el título <strong><span style="color: #993300;">Seminario BI con SQL Server y Excel</span></strong>.</p>
<p>En estos eventos hablaremos de:</p>
<p><strong><span style="color: #003366;">Proyectos de inteligencia de negocio con SQL Server</span></strong><br />
En esta sesión revisaremos los diferentes tipos de proyectos de BI que podemos abordar con SQL Server, y las herramientas que pone a nuestra disposición como son Integration Services para la carga e integración de datos, Analysis Services para la creación de bases de datos multidimensionales (cubos OLAP) y minería de datos, y Reporting Services para la creación de informes y su gestión.</p>
<p><strong><span style="color: #003366;">Inteligencia de negocio con Excel y PowerPivot</span></strong><br />
Excel es la otra herramienta de Microsoft, además de SQL, con la que podemos crear proyectos de análisis de datos, que ahora con PowerPivot, se hacen más potentes, y se amplían al área de integración de datos.</p>
<p><strong><span style="color: #003366;">Mejorando los proyectos con Visual Studio y SharePoint</span></strong><br />
Repasaremos brevemente las herramientas de bases de datos de Visual Studio, especialmente las destinadas a la generación de datos, comparación de esquemas y comparación de datos. Finalmente veremos las funcionalidades de SharePoint para crear proyectos de BI.</p>
<p><strong><span style="color: #003366;">Novedades en SQL Server 2012</span></strong><br />
La nueva versión de SQL Server va a incorporar mejoras y novedades que nos facilitarán el trabajo con bases de datos, y en particular la realización de los proyectos de inteligencia de negocio. Haremos un recorrido por las principales novedades, especialmente en Reporting Services donde los profesionales y usuarios avanzados podrán explorar visualmente sus datos a través de informes a d-h oc, con una forma de hacer consultas sencillas sobre la marcha. También trataremos las mejoras en la integración de SQL Server con SharePoint para trabajar con datos en equipo.</p>
<p>Toda la información sobre estos eventos las tenemos en el sitio de <a href="http://www.danysoft.com">Danysoft</a>:</p>
<p><a href="http://www.danysoft.com/destacadas/comprendiendo-los-proyectos-de-inteligencia-de-negocio-en-barcelona.html">Barcelona 16.02</a></p>
<p><a href="http://www.danysoft.com/destacadas/comprendiendo-los-proyectos-de-inteligencia-de-negocio-en-madrid.html">Madrid 17.02</a></p>
<p>¡¡ Nos vemos !!</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2012/01/30/eventos-gratuitos-en-febrero/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Obtener Sobremuestreo de Datos con Minería de datos en Excel (II)</title>
		<link>http://amby.net/2011/12/23/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel-ii/</link>
		<comments>http://amby.net/2011/12/23/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel-ii/#comments</comments>
		<pubDate>Fri, 23 Dec 2011 07:00:04 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3724</guid>
		<description><![CDATA[En la entrada anterior mostramos cómo el Asistente para datos de muestra del Cliente de Minería de datos para Excel obtuvo un  resultado se ajustaba exactamente a lo que habíamos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida, no? Bueno, también dejamos la pregunta, ¿Es posible cumplir siempre con la [...]]]></description>
			<content:encoded><![CDATA[<p>En la entrada anterior mostramos cómo el <strong>Asistente para datos de muestra</strong> del <strong><span style="color: #993300;">Cliente de Minería de datos para Excel</span></strong> obtuvo un  resultado se ajustaba exactamente a lo que habíamos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida, no? Bueno, también dejamos la pregunta, ¿Es posible cumplir siempre con la solicitud realizada en la página <strong>Sobremuestreo de estados con escasa representación</strong> del Asistente? Pues no, la respuesta es: no es posible cumplir siempre con la solicitud.</p>
<p>Recordemos que podemos realizar un <strong>sobremuestreo </strong>de los datos para asegurarnos de que obtenemos una <strong>muestra suficientemente grande</strong> del valor en concreto que necesitamos. Cuando se realiza un sobremuestreo, se toma más cantidad de un determinado tipo de datos de la que se esperaría en un muestreo de datos aleatorio. El sobremuestreo resulta útil cuando se tienen pocos ejemplos de un determinado patrón. Gracias al sobremuestreo, <strong>aumenta la probabilidad de ese patrón</strong>. Podemos aumentar el muestreo para lograr un porcentaje concreto o podemos realizar un sobremuestreo en un determinado número de filas.</p>
<p>Es posible que el asistente <strong>no pueda cumplir</strong> con nuestras expectativas, veamos este caso:</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/sobremuestreo1000.png"><img class="alignnone size-full wp-image-3737" title="sobremuestreo1000" src="http://amby.net/wp-content/uploads/2011/12/sobremuestreo1000.png" alt="" width="334" height="135" /></a></p>
<p>Según esta imagen estamos pidiendo 1000 registros de los cuales 500 sean Mujeres. Esto no va a ser posible, recordemos la distribución de los valores para esta columna: 509 para <em>Male </em>y  apenas 491 para <em>Female</em>. Recordemos que este recuento lo tenemos cómodamente en el <strong>Asistente Cambiar etiqueta</strong>s que hemos analizado hace muy poco.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/recuentoHyM.png"><img class="alignnone size-full wp-image-3735" title="recuentoHyM" src="http://amby.net/wp-content/uploads/2011/12/recuentoHyM.png" alt="" width="245" height="78" /></a></p>
<p>Por tanto, a lo más que se podría aspirar para obtener un conjunto de datos con el 50% de Mujeres es 491 filas de mujeres* 2 = 982 filas</p>
<p>Sobre esto nos habla el mensaje emitido por el <strong><span style="color: #993300;">Cliente de Minería de datos para MS Excel</span></strong></p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/errorsobrem.png"><img class="alignnone size-full wp-image-3730" title="errorsobrem" src="http://amby.net/wp-content/uploads/2011/12/errorsobrem.png" alt="" width="507" height="150" /></a></p>
<p>Tras lo cual obtenemos la nueva Hoja de cálculo <em>Datos muestreados</em> con 982 filas en las que se cumple el 50% solicitado.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/compruebasobrem1000.png"><img class="alignnone size-full wp-image-3727" title="compruebasobrem1000" src="http://amby.net/wp-content/uploads/2011/12/compruebasobrem1000.png" alt="" width="557" height="296" /></a></p>
<p>Otra vez, misión cumplida, aunque con menos registros. El porcentaje solicitado se ha garantizado.</p>
<p>Hasta la próxima entrada, después de <strong>Navidad</strong>, en que continuaremos examinando las tareas y opciones del <strong><span style="color: #993300;">Cliente de Minería de Datos para Excel</span></strong>.</p>
<p><strong><span style="color: #0000ff;">¡¡¡ Feliz Navidad a tod@s !!!</span></strong> <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/23/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel-ii/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Obtener Sobremuestreo de Datos con Minería de datos en Excel</title>
		<link>http://amby.net/2011/12/21/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel/</link>
		<comments>http://amby.net/2011/12/21/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel/#comments</comments>
		<pubDate>Wed, 21 Dec 2011 07:00:40 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3722</guid>
		<description><![CDATA[Hemos visto antes cómo ejecutar el Asistente para datos de Muestra en el grupo Preparación de Datos del Cliente de Minería de datos para Excel 2010. Antes hablé de Muestreo de datos con datos Excel, hoy hablaré de Sobremuestreo, también con datos Excel, porque esta opción no admite trabajo con datos externos. El sobremuestreo crea [...]]]></description>
			<content:encoded><![CDATA[<p>Hemos visto antes cómo ejecutar el <span style="color: #993300;"><strong>Asistente para datos de Muestra</strong></span> en el grupo<strong> Preparación de Datos</strong> del <strong><span style="color: #993300;">Cliente de Minería de datos para Excel 2010</span></strong>. Antes hablé de <strong>Muestreo de datos con datos Excel</strong>, hoy hablaré de <span style="color: #993300;"><strong>Sobremuestreo</strong></span>, también con datos Excel, porque esta opción <strong>no admite</strong> trabajo con datos <strong>externos</strong>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/metodomuestreo2.png"><img class="alignnone size-full wp-image-3732" title="metodomuestreo2" src="http://amby.net/wp-content/uploads/2011/12/metodomuestreo2.png" alt="" width="355" height="90" /></a></p>
<p>El <strong>sobremuestreo </strong>crea un conjunto de datos que contiene una relación específica de un elemento de datos seleccionado. Por ejemplo, puede usarse para garantizar un número igual de elementos masculinos y femeninos en los datos, incluso aunque haya una gran diferencia en la relación de los datos de origen.  El <strong>valor de destino</strong> para el sobremuestreo debe ser un valor <strong>discreto</strong>; no se puede realizar un sobremuestreo de datos numéricos continuos.</p>
<p>En la ventana <strong>Sobremuestreo de estados con escasa representación</strong>, se especifica el <strong>elemento </strong>de datos que se desea equilibrar, la <strong>relación </strong>deseada para este elemento en el conjunto de datos resultante y el <strong>número máximo</strong> de filas que contendrá el conjunto resultante. Las filas que no contienen el elemento de datos especificado se seleccionan aleatoriamente para rellenar el conjunto de datos en el tamaño especificado, si hay suficientes filas para ello. Vamos a reproducir la problemática que acabamos de plantear, 50% de <em>mujeres </em>y <em>hombres</em>.</p>
<p>Primero, seleccionamos la <strong>columna </strong>cuyos datos se obtendrán, luego en <strong>Estado del destino</strong>, seleccionamos de la lista un <strong>valor </strong>que está representado de forma <strong>insuficiente </strong>en el conjunto de datos original. El sobremuestreo aumentará la proporción de filas de datos que incluyen este estado. Para finalizar, indicamos el <strong>porcentaje </strong>de elementos del conjunto de datos completado que deberían contener el estado de destino y el <strong>número </strong>de filas que se van a extraer. Este valor representa el tamaño del conjunto de datos final.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/sobremuestreo500.png"><img class="alignnone size-full wp-image-3736" title="sobremuestreo500" src="http://amby.net/wp-content/uploads/2011/12/sobremuestreo500.png" alt="" width="384" height="132" /></a></p>
<p>Por tanto, podemos dirigir el asistente para que alcance un porcentaje concreto o cree un cierto número de filas. El conjunto de resultados se colocará en una nueva hoja de cálculo con los datos de muestra que se acaban de equilibrar cuyo nombre predeterminado es <em>Datos muestreados</em>. No se crea una hoja independiente para datos no seleccionados de forma predeterminada ni hay opción para hacerlo.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/destinosobrem.png"><img class="alignnone size-full wp-image-3729" title="destinosobrem" src="http://amby.net/wp-content/uploads/2011/12/destinosobrem.png" alt="" width="532" height="34" /></a></p>
<p>Este método se usa normalmente cuando el elemento de datos que interesa ocurre muy raramente en los datos de origen y queremos un valor de destino que no abunde en los datos y dirigir el asistente para que recopile más filas de ese tipo. Aumentar la distribución de dicho estado puede a menudo mejorar los resultados de minería de datos. Las pruebas deben realizarse en un conjunto de datos que no se haya equilibrado previamente con este método.</p>
<p>Para comprobar que el resultado es el que esperábamos, no tenemos más que regresar a Explorar datos y seleccionar la columna <em>Gender</em> de la hoja <em><strong>Datos Muestreados</strong></em>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/compruebasobrem500.png"><img class="alignnone size-full wp-image-3726" title="compruebasobrem500" src="http://amby.net/wp-content/uploads/2011/12/compruebasobrem500.png" alt="" width="650" height="349" /></a></p>
<p>La imagen demuestra que el resultado se ajusta exactamente a lo que hemos pedido, 500 casos y de ellos 250 mujeres y 250 hombres. Misión cumplida ¡! <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  ¿Es posible cumplir siempre con la solicitud realizada en la página <strong>Sobremuestreo de estados con escasa representación</strong> del Asistente? Les dejo la pregunta … en la próxima entrada la respuesta <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/21/obtener-sobremuestreo-de-datos-con-mineria-de-datos-en-excel/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Obtener Datos de muestra con Minería de datos en Excel</title>
		<link>http://amby.net/2011/12/19/obtener-datos-de-muestra-con-mineria-de-datos-en-excel/</link>
		<comments>http://amby.net/2011/12/19/obtener-datos-de-muestra-con-mineria-de-datos-en-excel/#comments</comments>
		<pubDate>Mon, 19 Dec 2011 07:00:44 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3720</guid>
		<description><![CDATA[La última tarea que vamos a describir en el grupo Preparación de datos es Datos de muestra. Se trata de un asistente que ofrece dos  métodos para crear conjuntos de datos equilibrados para entrenar y probar modelos. Las dos posibilidades son: muestrear aleatoriamente los datos de conjuntos de datos grandes y sobremuestrear datos para reequilibrar [...]]]></description>
			<content:encoded><![CDATA[<p>La última tarea que vamos a describir en el grupo <strong>Preparación de datos</strong> es <span style="color: #993300;"><strong>Datos de muestra</strong></span>. Se trata de un asistente que ofrece dos  métodos para crear conjuntos de datos <strong>equilibrados </strong>para <strong>entrenar </strong>y <strong>probar </strong>modelos. Las dos posibilidades son: <strong>muestrear aleatoriamente </strong>los datos de conjuntos de datos grandes y <strong>sobremuestrear </strong>datos para reequilibrar un conjunto de datos.  Aquí vamos a describir las dos.</p>
<p>Lo primero sería pensar, ¿para qué necesitamos dividir el conjunto de datos? Cuando hablamos de <strong><span style="color: #993300;">minería de dato</span></strong>s, hablamos de <strong>estructuras </strong>y <strong>modelos </strong>de minería y estos modelos requieren entrenamiento. El entrenamiento de los modelos no lo hacemos con la totalidad de los datos, basta con una muestra aleatoria de los datos que se encuentran almacenados en Excel o en un origen de datos externos y por eso los dividimos. El muestreo aleatorio es la mejor manera de asegurarse de que los datos usados para probar un modelo constituyen una buena representación de los datos usados para crear el modelo.</p>
<p>En algunos casos necesitamos que la muestra sea representativa de lo que necesitamos modelar, por ejemplo, un tanto porciento de mujeres, o de una determinada profesión, etc. Para estos casos hacemos Sobremuestreo. Vamos por partes, como nos enseñó Jack <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Lo primero que tenemos al llamar al Asistente es la posibilidad de <strong>Seleccionar datos de origen</strong> y esta vez además de la tabla y el intervalo de datos, tenemos la opción de seleccionar un <strong>origen de datos externos</strong>.</p>
<p>De momento nos quedamos con la tabla con que venimos trabajando.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/origentabla.png"><img class="alignnone size-full wp-image-3734" title="origentabla" src="http://amby.net/wp-content/uploads/2011/12/origentabla.png" alt="" width="502" height="40" /></a></p>
<p>Como comenté antes, tenemos dos opciones cuando seleccionamos el <strong>tipo de muestreo</strong>, de momento vamos a quedarnos con la primera: <strong>Muestreo aleatorio</strong>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/metodomuestreo.png"><img class="alignnone size-full wp-image-3731" title="metodomuestreo" src="http://amby.net/wp-content/uploads/2011/12/metodomuestreo.png" alt="" width="356" height="88" /></a></p>
<p>Cuando seleccionamos la opción de muestreo aleatorio, el <strong>Asistente para datos de muestra</strong> crea conjuntos de datos de entrenamiento y de prueba automáticamente y los sitúa en hojas de cálculo de Excel independientes para que podamos consultarlos posteriormente.</p>
<p>En cualquier caso, muestreo aleatorio o sobremuestreo, tenemos que indicar cómo queremos dividir la muestra, y esto lo hacemos indicando el tamaño de la muestra, ya sea su porcentaje con relación a la totalidad de la muestra o la cantidad de filas a tener en cuenta. Para el muestreo aleatorio, especificamos el porcentaje de los datos originales que desea usar para pruebas o el número total de filas que desea usar en el conjunto de datos de prueba. Los valores predeterminados son 70.0 y 700 respectivamente. Los datos de la hoja original no se verán afectados.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/tamaniomuestra.png"><img class="alignnone size-full wp-image-3738" title="tamaniomuestra" src="http://amby.net/wp-content/uploads/2011/12/tamaniomuestra.png" alt="" width="420" height="85" /></a></p>
<p>Para finalizar, sólo nos queda indicar un nombre para la nueva hoja de cálculo en que se almacenarán de forma aleatoria los datos muestreados. El nombre predeterminado es <em>Datos seleccionados</em>. Al crear un muestreo aleatorio de los datos, no es obligatorio obtener como resultado los datos que no se muestrearon. Para obtenerlo, o no, seleccionamos, o no, la casilla <strong>Crear una hoja de trabajo para datos no seleccionados</strong>. Si optamos por guardar los datos no seleccionados en una hoja de cálculo independiente, escribimos un nombre para la nueva hoja de cálculo. El nombre predeterminado es <em>Datos no seleccionado</em>s.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/destinomuestra.png"><img class="alignnone size-full wp-image-3728" title="destinomuestra" src="http://amby.net/wp-content/uploads/2011/12/destinomuestra.png" alt="" width="555" height="94" /></a></p>
<p>El resultado es la creación de dos hojas de cálculo nuevas para cada conjunto de datos como se muestra en la figura:</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/muestrahojasnuevas.png"><img class="alignnone size-full wp-image-3733" title="muestrahojasnuevas" src="http://amby.net/wp-content/uploads/2011/12/muestrahojasnuevas.png" alt="" width="344" height="23" /></a></p>
<p>Aunque regresaremos a este tema en la medida que avancemos con las opciones de <strong>Modelado</strong>, es bueno dejar constancia dentro de este tema que la mayoría de los asistentes del <strong><span style="color: #993300;">Cliente de minería de datos para Exce</span></strong>l también disponen de una opción que permite separar los datos aleatoriamente en conjuntos de entrenamiento y de prueba. Sin embargo, si utilizamos los asistentes, los datos permanecen en la misma hoja de cálculo u otro origen de datos y la información sobre si una determinada fila es un caso de prueba o un caso de entrenamiento se almacena internamente. Por el contrario, si utilizamos el <span style="color: #993300;"><strong>Asistente para datos de muestra</strong></span>, los datos de entrenamiento y de prueba se sitúan en hojas de cálculo independientes para facilitar su consulta.</p>
<p>Hemos visto cómo podemos utilizar el Asistente para datos de Muestra en el grupo <strong>Preparación de Datos</strong> del <strong>Cliente de Minería de datos para Excel 2010</strong> para crear conjuntos de datos de entrenamiento y de prueba mediante el método de <strong>muestreo aleatorio</strong>. La próxima vez estaremos hablando de <strong>Sobremuestreo</strong>.</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/19/obtener-datos-de-muestra-con-mineria-de-datos-en-excel/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Limpiar datos cambiando etiquetas (II)</title>
		<link>http://amby.net/2011/12/16/limpiar-datos-cambiando-etiquetas-ii/</link>
		<comments>http://amby.net/2011/12/16/limpiar-datos-cambiando-etiquetas-ii/#comments</comments>
		<pubDate>Fri, 16 Dec 2011 07:00:31 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel 2010]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3673</guid>
		<description><![CDATA[Vamos a continuar, justo donde lo dejamos la pasada entrega. Para ponernos en situación, recordemos que estamos hablando de cambiar etiquetas de los datos que forma parte de las acciones de Limpieza de datos que a su vez forma parte de las acciones de Preparación de datos con el Cliente de Minería de datos. Otro [...]]]></description>
			<content:encoded><![CDATA[<p>Vamos a continuar, justo donde lo dejamos la pasada entrega. Para ponernos en situación, recordemos que estamos hablando de <span style="color: #993300;"><strong>cambiar etiquetas</strong></span> de los datos que forma parte de las acciones de <strong>Limpieza de datos</strong> que a su vez forma parte de las acciones de <strong>Preparación de datos</strong> con el <span style="color: #993300;"><strong>Cliente de Minería de datos</strong><span style="color: #000000;">.</span></span></p>
<p>Otro caso podría ser cambiar las etiquetas de los datos para <strong>reemplazar los códigos numéricos</strong> utilizados en los resultados de una encuesta por una descripción de texto con el significado de los códigos numéricos. A partir de los datos que tenemos digamos que necesitamos dividir la población entre familias numerosas o no. En España se considera que existe <strong>Familia Numerosa</strong> cuando hay 3 ó más hijos. Esta condición es muy importante para acceso a determinados beneficios. Nosotros no tenemos cuáles son numerosas y cuáles no; pero tenemos la columna número de hijos y es todo lo que necesitamos.</p>
<p>La tabla que nos muestra el asistente es la siguiente:</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqhijos.png"><img class="alignnone size-full wp-image-3683" title="etiqhijos" src="http://amby.net/wp-content/uploads/2011/12/etiqhijos.png" alt="" width="460" height="124" /></a></p>
<p>Una vez introducido el texto de la etiqueta y seleccionado según sea el caso, tenemos el siguiente resultado.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqhijosnuevas.png"><img class="alignnone size-full wp-image-3684" title="etiqhijosnuevas" src="http://amby.net/wp-content/uploads/2011/12/etiqhijosnuevas.png" alt="" width="427" height="144" /></a></p>
<p>Aquí tenemos la tabla con las dos columnas.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqhijosnuevastabla.png"><img class="alignnone size-full wp-image-3685" title="etiqhijosnuevastabla" src="http://amby.net/wp-content/uploads/2011/12/etiqhijosnuevastabla.png" alt="" width="204" height="81" /></a></p>
<p>Otra funcionalidad de <strong><span style="color: #993300;">Cambiar Etiquetas</span></strong> es <strong>crear nuevos grupos de valores</strong> de datos. El ejemplo que acabamos de terminar nos sirve para comentarlo. Según la columna <em>Children</em> tenemos 6 grupos (de 0 a 5), ahora contamos con dos grupos (FamiliaNumerosa y FamiliaNoNumerosa).  En un análisis posterior, por ejemplo en una tabla dinámica (con o sin cubo OLAP), podemos utilizar ambas columnas dentro de una jerarquía de usuarios.  Por otra parte, hay que tener en cuenta que una <strong>segunda columna</strong> que repita o consolide los datos de la columna original puede <strong>sesgar los resultados</strong> de análisis de datos posteriores, como siempre, dependerá de la situación, si al final vemos que no necesitamos las dos columnas podemos realizar una copia de la tabla, eliminar la columna original y usar la tabla que tiene la columna con las nuevas etiquetas para análisis posteriores.  O bien, cuando seleccionemos las columnas usadas en el análisis, tenemos que tener en cuenta no seleccionar al mismo tiempo la columna original y la columna cuyas etiquetas han cambiado y seleccionar solo una columna.</p>
<p>Teniendo en cuenta que las nuevas etiquetas se usan como encabezados de columna en los gráficos generados por otros asistentes para minería de datos, deben <strong>ser breves a la vez que descriptivas</strong>. Acabamos de dejar un texto que quizás sería mejor cambiar por FNN (en lugar de FamiliaNoNumerosa)  y FN (en lugar de FamiliaNumerosa) para garantizar lo de <strong>breve</strong>, aunque habría que preguntarse si al usuario final le resulta suficientemente <strong>descriptiva</strong>, y aquí como siempre, va a depender de la situación real que estemos analizando.</p>
<p>Antes de terminar, me gustaría aclarar que hay casos en los que tenemos<strong> demasiados valores posibles</strong> y el asistente nos avisa de esta situación. El mayor número de valores a mostrar es <strong>500</strong>. Para reproducir este caso a partir del juego de datos con que contamos, voy a seleccionar la columna <strong>ID</strong>… que evidentemente <strong>no constituye una columna descriptiva</strong> del dato ni sirve para referir <strong>ningún comportamiento o patrón</strong>; pero es el ID y pa’esto nos vale <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> .</p>
<p>Una vez seleccionado aquí tenemos el error.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqsolo500.png"><img class="alignnone size-full wp-image-3687" title="etiqsolo500" src="http://amby.net/wp-content/uploads/2011/12/etiqsolo500.png" alt="" width="320" height="77" /></a></p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqID.png"><img class="alignnone size-full wp-image-3686" title="etiqID" src="http://amby.net/wp-content/uploads/2011/12/etiqID.png" alt="" width="445" height="103" /></a></p>
<p>Como vemos, a partir de los datos con que contamos inicialmente, podemos realizar muchas modificaciones para conseguir tener la información agrupada de tal forma que garantice el buen resultado de los análisis. En la próxima entrega estaremos hablando de <strong>Preparación de datos</strong>, específicamente de <strong><span style="color: #993300;">Datos de muestra</span></strong>.</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/16/limpiar-datos-cambiando-etiquetas-ii/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Limpiar datos cambiando etiquetas (I)</title>
		<link>http://amby.net/2011/12/14/limpiar-datos-cambiando-etiquetas-i/</link>
		<comments>http://amby.net/2011/12/14/limpiar-datos-cambiando-etiquetas-i/#comments</comments>
		<pubDate>Wed, 14 Dec 2011 07:00:19 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel 2010]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3671</guid>
		<description><![CDATA[Cuando comencé esta serie, allá por el mes de abril de este año 2011 comentaba que nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y [...]]]></description>
			<content:encoded><![CDATA[<p>Cuando <a href="http://amby.net/2011/04/25/introduccion-a-la-serie-examinar-datos/">comencé</a> esta serie, allá por el mes de abril de este año 2011 comentaba que nuestro objetivo es saber qué tipo de datos nos está enviando el cliente, cuál es su estructura y su contenido, ver si es válido y limpio para lo que necesitamos y ver si hay que retocar esta estructura y contenido de alguna forma para que se ajuste a nuestras necesidades. Pues bien, justamente este sigue siendo nuestro objetivo cuando vamos a utilizar la opción <span style="color: #993300;"><strong>Limpiar datos</strong></span> cambiando sus <strong>etiquetas,</strong> desde el menú Preparación de datos del <span style="color: #993300;"><strong>Cliente de Minería de datos para Excel</strong></span><strong>. </strong>Antes hemos estado centrados en la exploración de datos y limpieza de datos atípicos. Vamos a trabajar con las etiquetas y modificar los datos para que resulten más fáciles de leer y usar.</p>
<p>El origen de datos que vamos a utilizar es el mismo. Como no puede ser de otra forma, vamos a basarnos en un <strong>asistente </strong>para realizar esta transformación, por ejemplo, podemos reemplazar los valores numéricos por etiquetas de texto o asignar una etiqueta de grupo a intervalos de datos continuos, en fin, reorganizar los datos y a crear columnas nuevas para su uso en la <span style="color: #993300;"><strong>minería de datos</strong></span>.  El primer paso del asistente será la selección del origen de datos y la columna específica, como en el resto de casos que hemos estado viendo. Recordemos que al explorar o limpiar datos, sólo se puede trabajar con una columna cada vez.</p>
<p>Una razón para necesitar esta opción podría ser <strong>asignar un valor que sea más comprensible al usuario final</strong>, es posible que nos resulte difícil leer o interpretar algunos valores debido al método usado a la hora de especificarlos. En nuestro ejemplo los datos relativos al Género aparecen en inglés, pues bien, por ejemplo, nos puede interesar cambiar <em>Female</em> por <em>Mujer</em> y <em>Male</em> por <em>Hombre</em>. El asistente <span style="color: #993300;"><strong>Cambiar etiquetas de datos</strong></span> agrupa los datos por valores para que pueda cambiar las etiquetas de los datos. El resultado es una tabla en la que en la primera columna, <strong>Recuento</strong>, muestra el número de filas que contienen el valor,en la segunda,  <strong>Etiquetas originales, </strong> muestra el valor o la etiqueta actual usada para el valor, en este caso nos muestra dos únicos valores posibles: <em>Female </em>y <em>Male.</em></p>
<p><em><a href="http://amby.net/wp-content/uploads/2011/12/etiqgenero.png"><img class="alignnone size-full wp-image-3676" title="etiqgenero" src="http://amby.net/wp-content/uploads/2011/12/etiqgenero.png" alt="" width="240" height="60" /></a><br />
</em></p>
<p>La tercera columna, <strong>Nuevas etiquetas</strong>, nos permite seleccionar un valor de etiqueta nueva en la lista de valores o resaltar la etiqueta y escribir una nueva. En este caso vamos a cambiar las dos etiquetas por valores no existentes en la lista, aunque podíamos crear grupos aprovechando algunas de las etiquetas existentes.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqgenero2.png"><img class="alignnone size-full wp-image-3677" title="etiqgenero2" src="http://amby.net/wp-content/uploads/2011/12/etiqgenero2.png" alt="" width="226" height="70" /></a></p>
<p>En el cuadro de diálogo <strong>Seleccionar destino</strong>, tal y como vimos en casos anteriores, vamos a especificar dónde desea almacenar los datos cuyas etiquetas ha cambiado. Podemos sobrescribir los valores existentes, crear una nueva hoja de cálculo o agregar una nueva columna a la hoja de cálculo existente.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/destinocambioeti.png"><img class="alignnone size-full wp-image-3675" title="destinocambioeti" src="http://amby.net/wp-content/uploads/2011/12/destinocambioeti.png" alt="" width="351" height="171" /></a></p>
<p>Vamos a agregar una nueva columna para que se vea el resultado de lo que acabamos de hacer.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/etiqgeneronuevas.png"><img class="alignnone size-full wp-image-3678" title="etiqgeneronuevas" src="http://amby.net/wp-content/uploads/2011/12/etiqgeneronuevas.png" alt="" width="309" height="62" /></a></p>
<p>La tabla con las dos columnas tendría este aspecto.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/12/tablasnuevosgeneros.png"><img class="alignnone size-full wp-image-3679" title="tablasnuevosgeneros" src="http://amby.net/wp-content/uploads/2011/12/tablasnuevosgeneros.png" alt="" width="156" height="59" /></a></p>
<p>En la próxima entrada veremos otro caso que representa la necesidad de utilizar <span style="color: #993300;"><strong>Cambiar Etiquetas</strong></span> dentro de <strong>Limpieza de datos</strong> en el <strong><span style="color: #993300;">Cliente de Minería de datos</span></strong>.</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/14/limpiar-datos-cambiando-etiquetas-i/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Tratamiento de valores atípicos continuos en Excel 2010</title>
		<link>http://amby.net/2011/12/09/tratamiento-de-valores-atipicos-continuos-en-excel-2010/</link>
		<comments>http://amby.net/2011/12/09/tratamiento-de-valores-atipicos-continuos-en-excel-2010/#comments</comments>
		<pubDate>Fri, 09 Dec 2011 07:00:16 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Business Intelligence - BI SQL Server 2008]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel 2010]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3613</guid>
		<description><![CDATA[La pasada entrega estuvimos viendo cómo se pueden procesar los valores discretos identificados como atípicos con el Cliente de Minería de datos para Excel. Hoy veremos lo que podemos hacer con valores continuos. Partimos de la columna Income En el paso Tratamiento de valores atípicos tenemos que indicar cómo deseamos cambiar estos valores. En todos [...]]]></description>
			<content:encoded><![CDATA[<p>La pasada entrega estuvimos viendo cómo se pueden procesar los valores <strong>discretos </strong>identificados como <strong>atípicos </strong>con el <span style="color: #993300;"><strong>Cliente de Minería de datos para Excel</strong></span>.<span id="more-3613"></span></p>
<p>Hoy veremos lo que podemos hacer con valores <strong>continuos</strong>.</p>
<p>Partimos de la columna <em>Income</em></p>
<p><em><a href="http://amby.net/wp-content/uploads/2011/11/continuoincome.png"><img class="alignnone size-full wp-image-3618" title="continuoincome" src="http://amby.net/wp-content/uploads/2011/11/continuoincome.png" alt="" width="562" height="277" /></a><br />
</em></p>
<p>En el paso <strong>Tratamiento de valores atípicos</strong> tenemos que indicar cómo deseamos cambiar estos valores.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/quitaratipcontinuos.png"><img class="alignnone size-full wp-image-3627" title="quitaratipcontinuos" src="http://amby.net/wp-content/uploads/2011/11/quitaratipcontinuos.png" alt="" width="266" height="177" /></a></p>
<p>En todos los casos estas acciones se realizan únicamente sobre los valores atípicos, por lo que los valores que se encuentran en el rango aceptado, que es mayor o igual que <strong>47000 </strong>y menor o igual que <strong>139480</strong> permanecerán sin ninguna modificación.<a href="http://amby.net/wp-content/uploads/2011/11/minmaxincome.png"></a></p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/minmaxincome.png"><img class="alignnone size-full wp-image-3622" title="minmaxincome" src="http://amby.net/wp-content/uploads/2011/11/minmaxincome.png" alt="" width="496" height="32" /></a></p>
<p>En el primer caso, <strong>Cambiar valor a límites especificados</strong>, lo que ocurre es que se van a reemplazar todos los valores atípicos por los límites que establecimos en el paso anterior. Entonces, todos los valores menores que 47000 se van a sustituir por 47000. Por su parte todos los valores mayores que 139480 se van a sustituir por 139480. El resultado se observa en la columna <em>Income2</em>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/income2.png"><img class="alignnone size-full wp-image-3619" title="income2" src="http://amby.net/wp-content/uploads/2011/11/income2.png" alt="" width="145" height="121" /></a></p>
<p>En el segundo caso, <strong>Cambiar valor a promedio</strong>, el valor para sustituir es siempre el mismo, lo que queremos es reemplazar todos los valores atípicos por un único valor, el promedio. El resultado se observa en la columna <em>Income3</em>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/income3.png"><img class="alignnone size-full wp-image-3620" title="income3" src="http://amby.net/wp-content/uploads/2011/11/income3.png" alt="" width="222" height="118" /></a></p>
<p>Una opción extra es <strong>Cambiar valor a NULL (datos vacíos)</strong>, aquí eliminamos el contenidode la celda al  reemplazar los valores atípicos por valores NULL. El resultado se observa en la columna <em>Income3</em>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/income4.png"><img class="alignnone size-full wp-image-3621" title="income4" src="http://amby.net/wp-content/uploads/2011/11/income4.png" alt="" width="304" height="121" /></a></p>
<p>Y por último, la más arriesgada, <strong>Eliminar filas que contengan valores atípicos</strong>, sirve para eliminar cualquier fila que contenga valores atípicos. Antes de eliminar vemos que contamos con 1003 registros y después apenas 553. Esto se puede ver en estos recortes de pantalla.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/quitaincomeantes.png"><img class="alignnone size-full wp-image-3625" title="quitaincomeantes" src="http://amby.net/wp-content/uploads/2011/11/quitaincomeantes.png" alt="" width="177" height="160" /></a> <a href="http://amby.net/wp-content/uploads/2011/11/quitaincomedespues.png"><img class="alignnone size-full wp-image-3626" title="quitaincomedespues" src="http://amby.net/wp-content/uploads/2011/11/quitaincomedespues.png" alt="" width="168" height="120" /></a></p>
<p>Como vimos para datos discretos, el paso final será <strong>Seleccionar destino</strong>, que es igual que en discreto, recordando que paea Eliminar filas &#8230; no es posible utilizar la misma localización de los datos y mantener el resto de columnas &#8230; en fin que o los reemplazamos o buscamos una nueva hoja de cálculo.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/salidaquitaincome.png"><img class="alignnone size-full wp-image-3628" title="salidaquitaincome" src="http://amby.net/wp-content/uploads/2011/11/salidaquitaincome.png" alt="" width="358" height="174" /></a></p>
<p>De esta forma termino el viaje por la Herramienta<span style="color: #993300;"><strong> Limpiar datos atípicos</strong></span>. La siguiente entrega empezaremos a <strong>Limpiar datos</strong> cambiando sus <strong>etiquetas </strong>con el<span style="color: #993300;"><strong> Cliente de Minería de datos para Excel</strong></span></p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/09/tratamiento-de-valores-atipicos-continuos-en-excel-2010/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Tratamiento de valores atípicos discretos en Excel 2010</title>
		<link>http://amby.net/2011/12/08/tratamiento-de-valores-atipicos-discretos-en-excel-2010/</link>
		<comments>http://amby.net/2011/12/08/tratamiento-de-valores-atipicos-discretos-en-excel-2010/#comments</comments>
		<pubDate>Thu, 08 Dec 2011 07:00:03 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Business Intelligence - BI SQL Server 2008]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel 2010]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3611</guid>
		<description><![CDATA[Una vez definidos los umbrales de valores atípicos, para datos continuos o discretos,  estamos en condiciones de definir cómo queremos procesar los valores atípicos seleccionados. Las opciones que tenemos disponibles varían dependiendo de si los datos son discretos o continuos y nos permiten,  por ejemplo, eliminar las filas que contengan los valores atípicos o bien [...]]]></description>
			<content:encoded><![CDATA[<p>Una vez definidos los umbrales de <strong>valores </strong>atípicos, para datos <strong>continuos </strong>o <strong>discretos</strong>,  estamos en condiciones de definir cómo queremos procesar los valores atípicos seleccionados. <span id="more-3611"></span>Las opciones que tenemos disponibles varían dependiendo de si los datos son discretos o continuos y nos permiten,  por ejemplo, eliminar las filas que contengan los valores atípicos o bien reemplazar los valores por un valor promedio, un valor NULL u otro valor especificado.</p>
<p>Para valores <strong>discretos</strong>, las posibilidades que tenemos son las que se muestran a continuación:</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/trataatipicosdiscre.png"><img class="alignnone size-full wp-image-3629" title="trataatipicosdiscre" src="http://amby.net/wp-content/uploads/2011/11/trataatipicosdiscre.png" alt="" width="382" height="213" /></a><a href="http://amby.net/wp-content/uploads/2011/11/otrostratadiscre.png"></a></p>
<p>Si desplegamos el botón veremos el resto de variantes existentes para cambiar el valor.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/otrostratadiscre.png"><img class="alignnone size-full wp-image-3624" title="otrostratadiscre" src="http://amby.net/wp-content/uploads/2011/11/otrostratadiscre.png" alt="" width="46" height="56" /></a></p>
<p>Por lo que tenemos ya la primera de las vías para <strong>limpiar </strong>este valor <em>Casada</em>, en este caso por <em>Married</em>, con lo cual quedaría el dato limpio, tendríamos dos posibles valores (Married / Single ) con un balance lógico en cuanto a sus casos. Esta opción nos vale para reemplazar todos los valores <strong>atípicos </strong>(en este caso es sólo uno), por un valor seleccionado en una lista de valores disponibles o por la cadena “Otro”. Por cierto, esta cadena se puede modificar por cualquier “otra”. <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Tenemos otras opciones, <strong>Cambiar valor a NULL </strong>(datos vacíos), elimina el contenido de la celda,  ya que reemplaza los valores atípicos por valores NULL. También podemos <strong>Eliminar filas que contengan valores atípicos</strong>, lo que nos permite eliminar eliminar cualquier fila donde existan estos valores  que han sido definidos antes como atípicos. Esta opción es muy arriesgada, estamos optando por eliminar todos los datos de este elemento de nuestro conjunto, esto podría atentar contra procesos futuros.</p>
<p>Hemos <strong>limpiado</strong> el dato, muy bien, veamos ahora otra posible funcionalidad que nos ofrece este Asistente, <strong>Crear nuevos Grupos de datos</strong>.</p>
<p>¿Qué pasaría si nos encontramos trabajando sobre la columna <em>Regions</em>? Pues igual, si quitamos la región <em>Pacific</em>, y aun más si quitamos <em>Pacific</em> y <em>Europe</em> podíamos tener todos estos datos agrupados en un nuevo grupo <em>Otros.</em></p>
<p>Para finalizar el Asistente debemos decidir dónde colocar los datos tras cambiarlos y las opciones que se nos ofrecen para datos discretos son:</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/colocardiscre.png"><img class="alignnone size-full wp-image-3617" title="colocardiscre" src="http://amby.net/wp-content/uploads/2011/11/colocardiscre.png" alt="" width="367" height="269" /></a></p>
<p>Las opciones se explican por si solas, la ventaja es que tenemos varias posibles soluciones, por lo que lloverá a gusto de todos <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  En este caso, agregamos el resultado del Asistente en una nueva columna</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/nuevacolumnaregion2.png"><img class="alignnone size-full wp-image-3623" title="nuevacolumnaregion2" src="http://amby.net/wp-content/uploads/2011/11/nuevacolumnaregion2.png" alt="" width="216" height="81" /></a></p>
<p>Con esta <strong>nueva agrupación</strong> de nuestros datos, estamos en condiciones de hacer el análisis de las ventas o lo que sea de <em>North America</em> y el conjunto que forman todos los demás valores agrupados en <em>Otros </em>como muestra la imagen.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/atipicosregion2.png"><img class="alignnone size-full wp-image-3616" title="atipicosregion2" src="http://amby.net/wp-content/uploads/2011/11/atipicosregion2.png" alt="" width="491" height="288" /></a></p>
<p>En la próxima entrega veremos cómo se pueden procesar los valores <strong>continuos </strong>sobre los que sea han definido <strong>valores atípicos</strong> con el <span style="color: #993300;"><strong>Cliente de Minería de datos para Excel 2010</strong></span>.</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/08/tratamiento-de-valores-atipicos-discretos-en-excel-2010/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Detectar valores atípicos continuos con DM desde Excel 2010</title>
		<link>http://amby.net/2011/12/07/detectar-valores-atipicos-continuos-con-dm-desde-excel-2010/</link>
		<comments>http://amby.net/2011/12/07/detectar-valores-atipicos-continuos-con-dm-desde-excel-2010/#comments</comments>
		<pubDate>Wed, 07 Dec 2011 07:00:02 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Analizar Datos]]></category>
		<category><![CDATA[Business Intelligence - BI SQL Server 2008]]></category>
		<category><![CDATA[Excel 2010 y Minería de Datos]]></category>
		<category><![CDATA[Analizar datos]]></category>
		<category><![CDATA[BI]]></category>
		<category><![CDATA[DM]]></category>
		<category><![CDATA[Excel 2010]]></category>
		<category><![CDATA[Minería de Datos]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3598</guid>
		<description><![CDATA[En la pasada entrega comencé a hablar de Limpieza de datos, concretamente del tratamiento de los datos discretos  con el Asistente para Valores atípicos, de la Herramienta Limpiar datos del Cliente de Minería de datos de MS Excel 2010. ¿Qué ocurre con los datos continuos? De igual forma, el asistente muestra los valores continuos en [...]]]></description>
			<content:encoded><![CDATA[<p>En la pasada entrega comencé a hablar de <span style="color: #800000;"><strong>Limpieza de datos</strong></span>, concretamente del tratamiento de los datos discretos  con el Asistente para <strong>Valores atípicos</strong>, de la Herramienta <strong>Limpiar datos</strong> del <span style="color: #800000;"><strong>Cliente de Minería de datos de MS Excel 2010</strong></span>.<span id="more-3598"></span></p>
<p>¿Qué ocurre con los datos <strong>continuos</strong>?</p>
<p>De igual forma, el asistente muestra los valores continuos en un gráfico de <strong>barras </strong>o en un gráfico de <strong>líneas</strong>. Voy a regresar al ejemplo de los hijos (columna <em>Children</em>). Veamos que los valores están debidamente <strong>organizados </strong>de mayor a menor y que solamente admite modificar el <strong>rango mínimo</strong>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/atipicocontinuobarras.png"><img class="alignnone size-full wp-image-3600" title="atipicocontinuobarras" src="http://amby.net/wp-content/uploads/2011/11/atipicocontinuobarras.png" alt="" width="508" height="377" /></a></p>
<p>Desde aquí podemos seleccionar el botón <strong>Ver como discreto</strong> (barras) o en el botón <strong>Ver como numérico</strong> (líneas) para alternar entre ver los valores en un gráfico de barras o en un gráfico de líneas.<br />
En el gráfico de líneas, el valor está representado en el eje X y el recuento de los valores en el eje Y. Al cambiar los valores <strong>Mínimo</strong> y <strong>Máximo</strong> o deslizar las barras, se puede controlar si los valores se quitan de los extremos inferior y superior del gráfico o se conservan en ellos. Cuando se cambia la configuración de valor mínimo y máximo, los datos que se van a eliminar se muestran con un sombreado en el gráfico.<br />
Veamos una imagen de la representación <strong>continua </strong>(gráfico de <strong>líneas</strong>) de la columna <em>Children</em>.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas.png"><img class="alignnone size-full wp-image-3601" title="atipicocontinuolineas" src="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas.png" alt="" width="579" height="412" /></a></p>
<p>La resolución se mueve en <strong>rangos </strong>de <strong>10 </strong>a <strong>100</strong>, siendo <strong>20 </strong>el predeterminado y lo que nos permite es determinar el umbral con mayor o menor grado de exactitud. Veamos el aspecto que tiene visualizar los datos empleando la máxima y mínima resolución.</p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas100.png"><img class="alignnone size-full wp-image-3603" title="atipicocontinuolineas100" src="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas100.png" alt="" width="486" height="325" /></a></p>
<p><a href="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas10.png"><img class="alignnone size-full wp-image-3602" title="atipicocontinuolineas10" src="http://amby.net/wp-content/uploads/2011/11/atipicocontinuolineas10.png" alt="" width="484" height="323" /></a></p>
<p>Hemos visto <strong>representados </strong>los datos como <strong>discretos </strong>o <strong>continuos</strong>, y cómo definir los <span style="color: #993300;"><strong>valores atípicos</strong></span>. Lo que veremos en la siguiente entrega es el tratamiento que podemos dar a estos valores, dividiendo nuevamente en dos casos: discretos y continuos. Para ello seguiremos contando con el <strong>Asistente para quitar Valores atípicos</strong> del<span style="color: #993300;"><strong> Cliente de Minería de Datos</strong></span>.</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/07/detectar-valores-atipicos-continuos-con-dm-desde-excel-2010/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Training Kit SQL Server 2012 Disponible !!!</title>
		<link>http://amby.net/2011/12/06/training-kit-sql-server-2012-disponible/</link>
		<comments>http://amby.net/2011/12/06/training-kit-sql-server-2012-disponible/#comments</comments>
		<pubDate>Tue, 06 Dec 2011 11:53:03 +0000</pubDate>
		<dc:creator>anabisbe</dc:creator>
				<category><![CDATA[Business Intelligence - BI SQL Server 2008]]></category>
		<category><![CDATA[SQL Server 2012]]></category>

		<guid isPermaLink="false">http://amby.net/?p=3706</guid>
		<description><![CDATA[Ya está aquí el SQL Server 2012 Developer Training Kit Web Installer Preview. Sin palabras &#8230; a disfrutar !!!!!]]></description>
			<content:encoded><![CDATA[<p>Ya está <a href="http://www.microsoft.com/download/en/details.aspx?id=27721">aquí</a> el <strong><span style="color: #993300;">SQL Server 2012 Developer Training Kit Web Installer Preview</span></strong>.</p>
<p>Sin palabras &#8230; a disfrutar <img src='http://amby.net/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  !!!!!</p>
]]></content:encoded>
			<wfw:commentRss>http://amby.net/2011/12/06/training-kit-sql-server-2012-disponible/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

