Continuamos hoy nuestro recorrido por las Herramientas de Análisis de tablas en MS Excel 2007 y 2010, específicamente la herramienta llamada Pronóstico, que nos va a permitir realizar predicciones basadas en los datos de una tabla de datos de Excel o de otro origen de datos y, si lo deseamos, nos deja ver las probabilidades asociadas a cada valor de predicción. Si los datos contienen una columna de fecha y otra que muestra las ventas totales de cada día del mes, se podrían predecir las ventas de los días siguientes y se puede especificar el número de predicciones que hay que realizar, es decir, predecir las ventas de cinco días o de treinta.
En este caso vamos a encontrarnos con requisitos para los datos a utilizar. Es imprescindible seleccionar las columnas que deseamos predecir y estas deben contener datos numéricos continuos. La herramienta selecciona automáticamente estas columnas y sólo estas, aunque es posible que no seleccione algunas columnas que tienen datos numéricos continuos si éstas contienen muchos valores NULL o valores cero, ya que los datos ausentes pueden afectar a los resultados, para estos casos tenemos solución dentro del propio MS Excel, una de ellas podría ser utilizar la herramienta de Minería de datos Cambiar etiquetas que veremos en un futuro. Las columnas que se predicen deben contener datos numéricos continuos, como valores de moneda u otros números. Si es posible, los datos también deberían incluir una columna que contenga una serie de fechas o de horas.
Cuando seleccionamos la herramienta nos muestra el asistente y su primera acción es la Selección de columnas y parámetros. Para las columnas tenemos una lista de todas aquellas que están disponibles en los datos de origen, se pueden seleccionar múltiples columnas y se puede aceptar o modificar las sugerencias en cuanto a columnas a predecir.
Luego nos toca decidir el Número de unidades de tiempo para pronosticar. Se trata de decidir cuántos períodos de tiempo (meses, trimestres, años, según sean nuestros datos) queremos pronosticar desde el fin de nuestros datos actuales hacia adelante, un número entero indicará el número de pasos. Las unidades de estos pasos dependen de las unidades usadas en las series de hora y fecha de los datos. Si los datos presentan resultados de ventas por meses, se predecirá una serie de meses.
Las acciones de pronóstico están directamente vinculadas a una Marca de tiempo para lo cual tenemos que seleccionar la columna en la lista que contiene la serie temporal para la que desea crear predicciones, si no especificamos ninguna, tal y como vemos en nuestra figura, la opción predeterminada <sin marca de tiempo>, lleva a la creación de una serie basada en la secuencia de filas de los datos de origen. La marca de tiempo cumple dos objetivos. En primer lugar, identifica de forma única un valor en una serie temporal. Por ejemplo, si estestamos realizando un seguimiento de las ventas diarias, debíamos tener sólo un valor de ventas para cada día. La fecha de calendario se puede usar como marca de tiempo. En segundo lugar, la columna de marca de tiempo indica la unidad para las predicciones. Si está realizando el seguimiento de las ventas diarias, las predicciones también estarán en unidades de días. Si los datos no incluyen ninguna columna de fecha u hora, la herramienta creará automáticamente una clave de serie temporal denominada _RowIndex. La clave se basará en el orden de las filas del conjunto de datos.
Para finalizar los parámetros que se le introducen a este algoritmo, necesitamos indicar la Periodicidad de los datos para lo cual seleccionamos un período de tiempo que pueda contener patrones interesantes. Los valores disponibles son: Cada hora, Diario, Semanal, Mensual, Trimestral, Anual. Si los datos no se ajustan a ninguno de estos patrones, o si no estuviésemos al tanto de la existencia de patrones, debemos seleccionar <detectar automáticamente> para que la herramienta busque los períodos de tiempo que se repiten, ya que un pronóstico se basa en la repetición de patrones durante un período de tiempo. Por consiguiente, el algoritmo de serie temporal de Microsoft realiza cálculos para determinar los períodos de tiempo que tienen los patrones más determinantes. La periodicidad hace referencia a estos períodos de tiempo. Una serie temporal puede contener muchos patrones potenciales. Si sabemos o creemos que los datos se repitan semanalmente, debemos seleccionar Semanal y si el algoritmo no se encuentra ningún patrón semanal determinante, el algoritmo omitirá la sugerencia.
Ufff qué de conceptos no? 🙂
En la próxima entrega veremos los resultados obtenidos.