viernes, 29 de mayo de 2020

CONTINUACIÓN DE LA UNIDAD IV

4.4.1 Establecimiento de la precisión. Una estimación de un parámetro de la población dada por un solo número se llama estimación de punto del parámetro. Una estimación de un parámetro de la población dada por dos puntos, entre los cuales se encuentra el parámetro, se llama estimación de intervalo del parámetro. Las estimaciones de intervalo indican la precisión de una estimación y son, por lo tanto, preferibles a las estimaciones de punto.

Ejemplo: Si se dice que una distancia se ha medido como 5.28 metros (m), se está dando una estimación de punto. Por otra parte, si se dice que la distancia es 5.28 ± 0.03 m, (esto es, que está entre 5.25 y 5.31 m), se está dando una estimación de intervalo. En este caso, el margen de error o la percepción de una estimación brinda información sobre su fiabilidad o precisión.

4.4.2 Cálculo del número mínimo de observaciones necesarias. Para todo proyecto de simulación, es sumamente necesario determinar adecuadamente la cantidad de observaciones que se deben recolectar, a fin de hacer los cálculos lo más preciso posible, y en base a los resultados poder hacer recomendaciones confiables. La siguiente tabla muestra algunas de las fórmulas disponibles para tal efecto.
   Ejemplos: 1. ¿Cuál debe ser el número de observaciones para tener un intervalo de confianza del 95% con un margen de error del 10%, y una desviación estándar de  40 ? Datos:  Nivel de confianza (N.C.) = 95%    z = 1.96  Error permitido (s) = 10%  Desviación estándar () = 40
   
(   ⁄ )

       (    )  (  )      (      ) (     ) 
                       


2. Los salarios anuales iniciales de estudiantes que acaban de terminar una carrera se esperan que estén entre $ 30,000 y $ 45.000. Si se desea utilizar un intervalo de confianza del 95% para estimar la media poblacional de los salarios iniciales: a. ¿cuál es el valor planeado de la desviación estándar poblacional? b. Calcule el tamaño de la muestra para un margen de error de $ 500, $ 200 y $ 100 respectivamente. c. ¿Es recomendable tratar de manejar un error de $ 100? ¿Porqué? Solución:

a. ¿cuál es el valor planeado de la desviación estándar poblacional?                ( )             
       

b. Calcule el tamaño de la muestra para  un  margen  de  error  de  $ 500,  $ 200  y       $ 100 respectivamente. Para un error de $ 500:

 
(   ⁄ )

 
 
 
(    )  (     ) (   )
                           

Para un error de $ 200:
 
(   ⁄ )

 
 
 
(    )  (     ) (   )
                               

Para un error de $ 100:
 
(   ⁄ )

 
 
 
(    )  (     ) (   )
                               

c. ¿Es recomendable tratar de manejar un error de $ 100? ¿Porqué? No es recomendable, dado que el número de observaciones es demasiado grande respecto al error de $ 500 (con el que es mucho más fácil trabajar), además de que en ambas se tiene el mismo nivel de confianza del 95%.

3. Cierta despacho de consultoría industrial realizó un estudio con 1,100 trabajadores de empresas medianas y grandes para medir el nivel de satisfacción respecto a sus trabajos. Del total de trabajadores encuestados, 550 dijeron estar insatisfechos con su trabajo actual.

a. La proporción de empleados a los cuales les disgusta su empleo actual es:              = 0.5

b. A un nivel de confianza de 95%, ¿cuál es el margen de error?                  ( )     ⁄ √  (   )
       √     (     )                             



4.4.3 Intervalos de confianza. Un intervalo de confianza es un rango de valores, derivado de los estadísticos de la muestra, dentro de los cuales se admiten los valores de las variables.  Ejemplo: Retomando el ejemplo de los empleados encuestados para verificar el nivel de   satisfacción de sus trabajos, ¿cuál es el intervalo de confianza de 95% para la proporción de la población de empleados a los cuales les disgusta su empleo actual?                       ⁄ √   (   )
              √     (     )                                                                                                                                        4.5.1
1 Propiedades en muestras grandes (W App C3) 2 Propiedades de muestras pequeñas y simulación 3 Algoritmos de Monte Carlo (DP 3.8) R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Las propiedades de muestras grandes las propiedades de muestras grandes describen cómo un estimador θˆ de un parámetro θ se comporta conforme aumenta el tamaño muestral: 1 si θˆ es muy diferente del verdadero valor θ conforme n → ∞ 2 cómo varía la distribución de θˆ conforme n → ∞? en consonancia con estas dos cuestiones, hay dos conceptos de comportamiento : 1 convergencia en probabilidad: consistencia 2 convergencia en distribución R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Convergencia en probabilidad: consistencia De nición Conforme aumenta la muestra, cualquier diferencia, no importa lo pequeña que sea, entre θˆ y θ será arbitrariamente improbable Técnicamente: Pr θˆ −θ > ε → 0 as n → ∞ θ es la probabilidad en el límite de θˆ θˆ converge en probabilidad a θ plim(θˆ) = θ R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Una interpretación grá ca de la consistencia Source: Wooldrigde (2003) R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen La ley de grandes números: intro en su versión más simple fue formulada por Bernoulli en 1713: le costó 20 años obtener la prueba esencialmente nos dice que la media converge en probabilidad a la esperanza la LGN es importante porque garantiza resultados estables a largo plazo para fenómenos aleatorios R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Una ley de grandes números Para una variable aleatoria y con esperanza µ tal que la media de una muestra de tamaño n es y n . Entonces plim(y n ) = µ Example 1 plim(covˆ n(y,x)) = cov(y,x) Example 2 plim(varˆ n(x)) = var(x) R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Propiedades del operador plim Teorema de Mann-Wald Para cualquier función contínua g(·) y variable aleatoria x: plim(g(x)) = g(plim(x)) Example 1plim(x +y) = plim(x) +plim(y) Example 2plim x y = plim(x) plim(y) if plim(y) 6= 0 R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Ejemplo 1: El Teorema Fundamental de Estadística Supón que X es una variable aleatoria con fda F(X) y que obtenemos una muestra aleatoria de tamaño n donde el elemento típico xi es una realización independiente de X La distribución empírica la distribución discreta que asigna el peso 1 n a cada observación xi , i = 1,...,n La EDF es la función de distribución de la distribución empírica: Fˆ (x) ≡ 1 n n ∑ i=1 I (xi ≤ x) donde I(·) es la función indicador El Teorema Fundamental de la Estadística plim Fˆ (x) = F (x) R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen 14\8 Hypothesis Testing in Linear Regression Models 0.00 0.\10 0.20 0.30 0.\40 0.50 0.60 0.70 0.80 0.90 \1.00 −3.0 −2.0 −1.0 0.0\1.0 2.0 3.0\4.0 5.0 6.0 7.0 8.0 .................................................................................................................................................................................................................................................................................................................................................................................................................................................................. n = 20 ......................................................................................................................................................................................................................................................................................................................................................................................................................................................... n =\100 ................................................................................................................................................................................................................................................................................................................................................................................................................... n = 500 Figure 4.6 EDFs for several sample sizes where the xt are independent random variables, each with its own bounded finite variance σ2 t and with a common mean µ. Then a fairly simple LLN assures us that, as n → ∞, ¯x tends to µ. An example of how useful a law of large numbers can be is the Fundamental Theorem of Statistics, which concerns the empirical distribution function, or EDF, of a random sample. The EDF was introduced in Exercises 1.1 and 3.\4. Suppose that X is a random variable with CDF F(X) and that we obtain a random sample of size n with typical element xt, where each xt is an independent realization of X. The empirical distribution defined by this sample is the discrete distribution that puts a weight of 1/n at each of the xt, t = 1, . . . , n. The EDF is the distribution function of the empirical distribution, and it can be expressed algebraically as Fˆ(x) ≡ 1 −n �n t=1 I(xt ≤ x), (4.44) where I(·) is the indicator function, which takes the value 1 when its argument is true and takes the value 0 otherwise. Thus, for a given argument x, the sum on the right-hand side of (\4.\4\4) counts the number of realizations xt that are smaller than or equal to x. The EDF has the form of a step function: The height of each step is 1/n, and the width is equal to the difference between two successive values of xt. According to the Fundamental Theorem of Statistics, the EDF consistently estimates the CDF of the random variable X. Copyright �c 1999, Russell Davidson and James G. MacKinnon EDFs para tres muestras de 20, 100 y 500 observaciones extraídas de tres distribuciones normales , cada una con varianza 1 y medias 0, 2 y 4, respectivamente R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Ejemplo 2: MCO bajo los supuestos clásicos Supuestos Gauss-Markov A1: Linealidad: y = β +β1x1 +...+βk xk +v A2: Muestreo aleatorio A3: Independencia en media condicionada: E[y |x] = β0 +β1x1 +...+βk xk A4: Invertibilidad de la matriz de varianzas-covarianzas A5: Homoscedasticidad: Var[v |x] = σ 2 Normalidad A6: Normalidad: y |x ∼ N(β0 +β1x1 +...+βk xk ,σ 2 ) R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Consistencia MCO Teorema Bajo Gauss-Markov A1-A4, MCO es consistente Ejemplo: wages = β0 +β1educ +u con cov(educ,u) = 0 ˆβ1 = β1 + covˆ (educi ,ui ) var ˆ (educi ) plim ˆβ1 = plim(β1) + plim( ˆcov(educi ,ui )) plim( ˆvar (educi )) = β1 + cov(educ,u) var (educ) Puesto que cov(educ,u) = 0 ⇒ plim ˆβ1 = β1 R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Un ejemplo de inconsistencia Modelo Verdadero: wages = β0 +β1educ +β2IQ +v cov(educ,v) = cov(IQ,v) = 0 cov(educ,IQ) 6= 0, β2 6= 0 Ecuación estimada por MCO: wages = γˆ0 +γˆ1educ +uˆeduc γˆ1 = ˆβ1 + ˆβ2 covˆ (educ,IQ) var ˆ (educ) ⇒ plim(γˆ1) = β1 +β2 cov(educ,IQ) var (educ) plim(γˆ1) 6= β1 if la inteligencia es relevante:β2 6= 0 la educación está correlacionada con la inteligencia: cov(educ,IQ) 6= 0 R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Normalidad asintótica De nición Conforme aumenta la muestra, la distribución de ˆβj se acerca arbitrariamente a la normal Técnicamente: Pr( ˆβj ≤ z) → Φ(z) as n → ∞ R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen El Teorema Central del Límite: algo de historia probablemente una de las leyes matemáticas más interesantes, la prueba es sorprendentemente sencilla (pero reconozco que el resultado me es intuitivamente inexplicable) el primer matemático que la postula es el francés de Moivre, en 1733 Pierre Simon Laplace, otro francés, demostró la versión más simple en 1812 el ruso Aleksander Liapunov probó el caso general en 1901 R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Las ratas y el TCL ve al sistema de alcantarillas de Madrid captura 100 ratas, mide sus colas, estandariza las medidas y calcula la media por la raiz cuadrada de 100 ahora captura 500 ratas, y vuelve a hacer lo mismo, esta vez multiplicando por la raíz cuadrada de 500 si la distribución de la segunda media se parece más a la normal estándar, éste es intuitivamente el resultado si no, en vez de 500 ratas prueba con 1000 la idea es que si sigues aumentando la muestra de las ratas, SEGURO que te acercarás tanto como quieras a la distribución normal R. Mora MicCua: Propiedades Muestras Grandes y Simulación Propiedades en muestras grandes (W App C3) Propiedades de muestras pequeñas y simulación Algoritmos de Monte Carlo (DP 3.8) Resumen Las estrellas y el TCL mide el brillo de 100 estrellas ½sí, eso es! SEGURO que aumentando el tamaño muestral puedes acercarte a la distribución normal tanto como quieras simplemente calculando la media estandarizada lo sorprendente del TCL es que la distribución aleatoria original es irrelevante: el esplendor de las estrellas no tiene nada que ver con el tamaño de la cola de las ratas el resultado es el producto de la operación matemática                                           

4.5.1. Estadísticas descriptivas
      Los métodos de Análisis Exploratorio o Estadística Descriptiva ayudan a comprender la estructura de los datos, de manera de detectar tanto un patrón de comportamiento general como apartamientos del mismo. Una forma de realizar ésto es mediante gráficos de sencilla realización e interpretación. Otra forma de describir los datos es resumiendo los datos en uno, dos o más números que caractericen al conjunto de datos con fidelidad. Explorar los datos permitirá detectar datos erróneos o inesperados y nos ayudará a decidir qué métodos estadísticos pueden ser empleados en etapas posteriores del análisis de manera de obtener conclusiones válidas. Finalmente, la Inferencia Estadística nos permite tanto hacer predicciones y estimaciones como decidir entre dos hipótesis opuestas relativas a la población de la cual provienen los datos (test de hipótesis). La calidad de las estimaciones puede ser muy variada y están afectadas por errores. La ventaja de los métodos estadísticos es que, aplicados sobre datos obtenidos a partir de muestras aleatorias, permiten cuantificar el error que podemos cometer en una estimación o calcular la probabilidad de cometer un error al tomar una decisión en un test de hipótesis. Para entender qué tipo de problemas consideraremos en Estadística tomemos, por ejemplo, las siguientes mediciones de la proporción de la masa de la Tierra con respecto a la Luna
130 Mariner
II 81.3001
Mariner IV 81.3015
Mariner V 81.3006
Mariner VI 81.3011
Mariner VII 81.2997
Pioneer VI 81.3005
Pioneer VII 81.3021
En Probabilidad podríamos suponer que las posibles mediciones se distribuyen alrededor del verdadero valor 81.3035 siguiendo una distribución determinada y nos preguntaríamos ¿Cuál es la probabilidad de que se obtengan 7 mediciones menores que el verdadero valor de la media? En Estadística, a partir de los 7 observaciones nos preguntaríamos: ¿Son consistentes los datos con la hipótesis de que el verdadero valor del cociente es 81.3035? ¿Cuán confiable es decir que el verdadero valor está en el intervalo (81.2998, 81.3018)? Las técnicas del análisis exploratorio nos ayudan a organizar la información que proveen los datos, de manera de detectar algún patrón de comportamiento así como también apartamientos importantes al modelo subyacente. Nos guían a la estructura subyacente en los datos de manera rápida y simple. Estadística Descriptiva Examinaremos los datos en forma descriptiva con el fin de: • Organizar la información • Sintetizar la información • Ver sus características más relevantes • Presentar la información  

4.5.2. Muestras pequeñas: prueba de Kolmogórov-Smirnov para ajuste de una distribución de probabilidades continua hipotética (en hoja de cálculo o con paquete estadístico)
Prueba Kolmogorov-Smirnov para una muestra: Es una prueba de bondad de ajuste. Se emplea en una muestra independiente. El tipo de variable es cuantitativa continua (debe ser medida en escala al menos ordinal). Esta prueba responde a la pregunta: ¿Ajusta la distribución empírica de datos muestrales de una variable ordinal o cuantitativa a una distribución teórica conocida? Esta prueba no requiere que los datos sean agrupados, lo que permite que ésta haga uso de toda la información del conjunto de datos. Puede utilizarse con muestras de cualquier tamaño (mientras que la X2 requiere que las muestras tengan un tamaño mínimo). Hipótesis: H0: F(x) = FT(x) para toda x desde - ∞ hasta + ∞ H1: F(x) ≠ FT(x) para al menos una x Como es una prueba de bondad de ajuste aquí interesa no rechazar la hipótesis nula, es decir, interesa que el valor de p sea mayor de 0,05 para no rechazar la hipótesis nula (queremos que p > 0,05). Ejemplo: Se efectuaron mediciones del nivel de glucemia de 36 hombres adultos en ayuno, no obesos y aparentemente sanos. Estas mediciones se muestran en la tabla que se presenta. Se pretende saber si es posible concluir que tales datos no pertenecen a una población que sigue una distribución normal, con una media de 80 y una desviación típica de 6. Emplee un α = 0,05. Valores de glucemia en 36 varones sanos 75 92 80 80 84 72 84 77 81 77 75 81 80 92 72 77 78 76 77 86 77 92 80 78 68 78 92 68 80 81 87 76 80 87 77 86 Respuesta: Supuestos: La muestra disponible es una muestra aleatoria simple que se extrajo de una población que sigue una distribución continua. Hipótesis: H0: F(x) = FT(x) para toda x desde - ∞ hasta + ∞ H1: F(x) ≠ FT(x) para al menos una x


4.5.3 Muestras grandes: prueba de Karl-Pearson para ajuste de
una distribución de probabilidades hipotética, discreta ocontinúa.Los procedimientos de hipótesis que se han estudiado en las secciones previasson para problemas en los que se conoce la forma de la función de densidad de lavariable aleatoria y la hipótesis involucra los parámetros de la distribución. Sinembargo, con frecuencia encontramos otro tipo de hipótesis: no conocemos ladistribución de probabilidad de la variable aleatoria bajo estudio, digamos X, ydeseamos probar la hipótesis de que X sigue una distribución de probabilidadparticular. Por ejemplo, podría interesarnos probar la hipótesis de que X sigue ladistribución normal. El procedimiento de prueba requiere una muestra aleatoria de tamaño nde lavariable aleatoria X, cuya función de densidad de probabilidad se desconoce.Estas nobservaciones se arreglan en un histograma de frecuencias, teniendo kintervalos de clase. Sea O, la frecuencia observada en el intervalo de clase i-ésimo. A partir de la distribución de probabilidad hipotética, calculamos lafrecuencia esperada en el intervalo de clase i-ésimo, denotada E¡= La estadísticade prueba es:Puede demostrarse que sigue aproximadamente la distribución ji cuadrada conk – p – 1 grados de libertad,donde prepresenta el número de parámetros de ladistribución hipotética estimada por medio de estadísticas de muestra. Estaaproximación se mejora cuando naumenta. Rechazaríamos la hipótesis de que Xse ajusta a la distribución hipotética si










































4.5.4. Otras pruebas: Anderson-Darling, prueba G, por ejemplo.


El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted puede utlizar el estadístico de Anderson-Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
  • H0: Los datos siguen una distribución especificada
  • H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe matemáticamente para ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para elegir entre ellos.
DistribuciónAnderson-DarlingValor p
Exponencial9.599p < 0.003
Normal0.641p < 0.089
Weibull de 3 parámetros0.376p < 0.432
Exponencial
Normal
Weibull de 3 parámetros
Ejemplo de comparación de distribuciones
Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos.
Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada entre la línea ajustada de la gráfica de probabilidad (con base en la distribución elegida y usando el método de estimación de máxima verosimilitud o las estimaciones de mínimos cuadrados) y la función de paso no paramétrica. El cálculo tiene mayor ponderación en las colas de la distribución.

Mostrar el estadístico de Anderson-Darling en una gráfica de probabilidad normal

Para ver una leyenda que muestre el estadístico de la prueba de Anderson-Darling y el valor p cada vez que usted cree una gráfica de probabilidad normal de los residuos:
  1. Choose Herramientas > Opciones > Gráficas individuales > Gráficas de residuos para series de tiempo and Herramientas > Opciones > Modelos lineales > Gráficas de residuo
  2. Marque Incluir prueba de Anderson-Darling con gráfica normal. Haga clic en AceptarMinitab no muestra la prueba cuando hay menos de 3 grados de libertad para el error.







.

Diseño de la Calidad de la Simulación

4.1  Lista de estimadores a obtener de la simulación.    Un  estimador es  un  estadístico  (una función de la muestra)  utilizado  para  estimar  un  parámetro desconocido de la población. Por ejemplo, si se desea conocer el tiempo de proceso de ensamble de un artículo (parámetro desconocido), se recogen  observaciones de tiempos de proceso en diferentes ciclos (muestra), pudiendo utilizarse la media aritmética de las observaciones para estimar el tiempo de proceso poblacional. 4.1.1 Instrumentos de medición. Los instrumentos de medición típicos para recolectar datos, a fin de obtener los  estimadores necesarios, son:   Aleatorización. La aleatorización es una técnica que se utiliza para equilibrar el efecto de condiciones externas o no controlables que pueden influir en los resultados de un proyecto de simulación. Por ejemplo, la temperatura ambiental, la velocidad de proceso, la materia prima o los operadores pueden cambiar durante un experimento y afectar inadvertidamente los resultados del proyecto. Si las corridas experimentales se realizan en orden aleatorio, se reduce la probabilidad de que las diferencias en los materiales o las condiciones del proyecto sesguen considerablemente los resultados. La aleatorización también permite estimar la variación inherente de los materiales y las condiciones de manera que se puedan hacer inferencias estadísticas válidas con base en los datos del proyecto.  Muestreo. El muestreo es el proceso de seleccionar un conjunto de datos de una población con el fin de estudiarlos y poder caracterizar el total de esa población.   Muestreo probabilístico.


Es una técnica que permite asegurar la objetividad de la selección y generalizar o extrapolar los resultados, pero en algunas ocasiones puede resultar más costoso o difícil de aplicar que el muestreo al azar simple.  Muestreo al azar simple. Este método consiste en identificar a todos los elementos de la población con un número-etiqueta, para luego mediante un procedimiento de generación de números aleatorios seleccionar la cantidad necesaria (tamaño muestral).  Muestreo por cuota. En este método se eligen deliberadamente a elementos para que cumplan cierta cantidad prefijada o cuota para cada grupo. Por ejemplo, ir a un establecimiento de servicio y entrevistar a 200 personas que sean: 25% estudiantes, 25% profesionistas y 50% público en general.

  4.1.2 Medios de registro de datos.  Los métodos más comúnmente utilizados para la recolección y registro de datos para los proyectos de simulación son:  Experimentos. Un experimento es una manera directa, precisa, confiable y muy valiosa de recolectar datos precisos para un estudio de simulación, por lo que es recomendable diseñar un experimento que sea factible, económico y posible de llevar a cabo.  Observación directa. Cuando no es posible diseñar un experimento para recolectar datos, la manera más fácil de hacerlo es estudiando las variables a través de la observación directa. Esta constituye un proceso más complejo, pues por lo general las variables nunca se encuentran aisladas sino que interactúan con otras variables, lo que dificulta el posterior análisis. Sin embargo, es un medio muy útil y sencillo de llevar a cabo.  Encuestas. Una encuesta consiste en un cuestionario de preguntas normalizadas que se hacen a los actores del sistema que se pretende simular, a fin de obtener los datos estadísticos necesarios sobre opiniones, hechos u otras variables, para poder desarrollar el proyecto de simulación.  Entrevistas. Método indirecto, predominantemente cualitativo, definido como una reunión o conversación entre dos o más personas, con el objetivo de obtener información del entrevistado sobre un determinado aspecto.  Grupos de enfoque. Este método consiste en reuniones de grupos pequeños, por lo general de entre 4 y 10 personas, en las cuales los participantes dan sus opiniones respecto a los datos que se requiere recolectar. Se trata básicamente de aprovechar la


experiencia que tiene cada elemento del grupo sobre la situación de la que se quiere obtener dichos datos.  Análisis de contenidos. Método que permite reducir y sistematizar cualquier tipo de información contenida en registros escritos, visuales o auditivos, en datos o valores objetivos. Este método permite extraer datos objetivos, sistemáticos y cuantitativos de fuentes que contienen grandes volúmenes de información dispersa o divergente.   Datos secundarios. Mediante este método se recolectan datos de estudios previamente elaborados y confiables, evitando repetir las actividades de recolección, ahorrando con ello tiempo y dinero. Los datos recabados se denominan secundarios puesto que fueron colectados con anterioridad, en comparación con los datos primarios, que son colectados por primera vez por cualquier otro método.

4.2   Identificación del estimador determinante (estimador líder) del tamaño de la Simulación.   Para  cada  parámetro  pueden  existir  varios  estimadores diferentes. Por lo general, se        elige como estimador líder o determinante aquel que posea mejores propiedades que los        restantes.

4.3   Muestras preliminares de los proyectos aprobados en clase para cada equipo de trabajo.

4.4   Características estadísticas del estimador líder.        Las cuatro características que debe tener un buen estimador son:   Insesgadez. Se dice que un estimador es insesgado si la media de la distribución del estimador es igual al parámetro. Los estimadores insesgados son la media muestral (estimador de la media poblacional) y la varianza (estimador de la varianza de la población). Estimadores insesgados:    ̅    ;   ̌       Ejemplo: En una población de 500 puntuaciones cuya Media () es igual a 5.09, se ha hecho un muestreo aleatorio (cantidad de muestras = 10000, tamaño de las muestras= 100) y se encuentra que la Media de las Medias muestrales es igual a 5.09, (la media poblacional y la media de las medias muestrales coinciden). En cambio, la Mediana de la población es igual a 5 y la Media de las Medianas es igual a 5.1 esto es, hay diferencia ya que la Mediana es un estimador sesgado. La Varianza es un estimador sesgado.        ∑(    ̅( ))
  ;      ̃   ∑(    ̅)   
 Ejemplo: La Media de las Varianzas obtenidas con la Varianza en un muestreo de 1,000 muestras (n = 25) en que la Varianza de la población es igual a 9.56 ha resultado igual a 9.12, esto es, no coinciden. En cambio, al utilizar la Cuasivarianza, la Media de las Varianzas muestrales es igual a 9.5, esto es, coincide con la Varianza de la población, ya que la Cuasivarianza es un estimador insesgado.




 Eficiencia.  La eficiencia de un estimador está vinculada a su varianza muestral. Así, para un mismo parámetro, se dice que el estimador 1 es más eficiente que el estimador 2 si  se  cumple que var(estimador 1) < var(estimador 2). Por lo tanto, si un estadístico es más eficiente que otro, significa que varía menos de unas muestras a otras.  Ejemplo: La Varianza de la distribución muestral de la Media en un muestreo aleatorio (cantidad de muestras: 1,000, n = 25) ha resultado igual a 0.4. La Varianza de la distribución de Medianas ha resultado, en el mismo muestreo, igual a 1.12. Este resultado muestra que la Media es un estimador más eficiente que la Mediana.

 Suficiencia. Un buen estimador es suficiente cuando resume toda la información relevante contenida en la muestra, de forma tal que ningún otro estimador pueda proporcionar información adicional sobre el parámetro desconocido de la población. 

 Robustez (consistencia).  Un estimador es consistente si, además de carecer de sesgo, se aproxima cada vez  más al valor del parámetro a medida que aumenta el tamaño de la muestra. Si el tamaño n se hace indefinidamente grande, los valores del estimador se concentran cada vez más en torno al valor del parámetro, hasta que con un tamaño muestral infinito obtenemos una varianza del estimador nula. Por tanto, un estimador es consistente si cuando n tiende a infinito se cumple que su varianza es igual a cero. Ejemplo: En una población de 500 puntuaciones cuya Media () es igual a 4.9, se han hecho tres muestreos aleatorios (número de muestras = 100) con los siguientes resultados:   n  Media de las medias muestrales 5  4.6 25  4.8 100  4.9

Se observa que el muestreo en que n = 100, la Media de las Medias muestrales toma el mismo valor que la Media de la población.

martes, 31 de marzo de 2020

miércoles, 18 de marzo de 2020

algoritmo multiplicativo

https://app.box.com/s/dtvgvtubvu1jihrekwl2vetxw6mdk1wy



ALGORITMO CONGRUENCIAL MULTIPLICATIVO

Algoritmo congruencial Multiplicativo

De acuerdo con Banks, Carson, Nelson y Nicol, las condiciones que deben cumplir los parámetros para que el algoritmo congruencial multiplicativo alcance su máximo periodo son:
  • a= 3 + 8k ó a = 5 + 8k, En donde: k= 0,1,2,3,..n.
Xo debe ser un numero Impar y (g) un numero entero.
A partir de estas condiciones se logra un período de vida máximo.
Los parámetros de arranque de este algoritmo son:
  • Xo, a y m ; Los cuales deben ser números enteros y mayores que cero.
  • Para transformar los números Xi en el intervalo (0,1), miramos la ecuación:
  • ri = xi / ( m - 1 ), En donde: m = 2^g
Surge de un Algoritmo Congruencial Lineal, cuando C=0;
Entonces la ecuación es:
  • Xi+1 = (aXi) mod (m) En donde: i = 0,1,2,3...n.
La ventaja de este método es que en comparación con el algoritmo lineal, este implica una operación menos.
Generar suficientes números entre 0 y 1 con los parametros:
Xo=17, k=2 y g=5, hasta encontrar el periodo o ciclo de vida.
Formulas: a = 5 + 8k , m = 2^g, Xi+1 = (aXi) mod (m), ri = xi / ( m - 1 ).

martes, 25 de febrero de 2020

cuadrados medios

Método de los cuadrados medios para la generación de números pseudoaleatorios

Ir a la navegaciónIr a la búsqueda

Método de los Cuadrados Medios
Es un método propuesto en los años 40 por los matemáticos John von Neumann y Nicholas Metropolis, siendo utilizado para la generación de números pseudoaleatorios, Esto para obtener una sucesión de números que básicamente se obtienen a partir de recurrencia[1], los cuales son relevantes en los procesos de simulación debido a que con estos números se hace posible comprobar el correcto funcionamiento de una prueba mediante la observación del comportamiento de las variables que se puedan encontrar a lo largo de la simulación.

Simulación[editar]

Es una técnica numérica para conducir experimentos con relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos periodos de tiempo. [2]

Aplicación del Método[editar]

El método consiste en tomar un número al azar, X° de 2n cifras que al ser elevado al cuadrado resulta un número de hasta 4n cifras, de no ser así se deben agregar ceros a la izquierda de dicho resultado para que éste tenga exactamente 4n cifras.
Se denomina X1 al número resultante de seleccionar las 2n cifras centrales del resultado anterior.
Se genera el número pseudoaleatorio U1 ubicando un punto decimal delante de las 2n cifras de X1 y así sucesivamente para los demás números psudoaleatorios.

Requisitos Deseables[editar]

  • Producir muestras según una distribución U(0,1).
  • Pasar los contrastes de aleatoriedad e independencia.
  • La sucesión generada debe ser reproducible a partir de la semilla.
  • Tener una longitud de ciclo tan grande como se desee.
  • Generar valores a alta velocidad.
  • Ocupar poca memoria.[3]}

Ejemplo del Método[editar]

Número al azarNúmero al cuadradonúmero pseudoaleatorio
370813/7492/640,7492
749256/1300/640,1300

Inconvenientes[editar]

  • Tiene una fuerte tendencia a degenerar a cero rapidamente
  • Los números generados pueden repetirse cíclicamente después de una secuencia corta
  • La utilización de números primos puede generar ciclos más largos en la generación de números pseudoaleatorios