OTRAS PUBLICACIONES DE LA UNIVERSIDAD DEL PACÍFICO • Contar para que cuente: una introducción general a los sistemas de información educativa. César Guadalupe. Lima: Universidad del Pacífico, 2015 (publicación virtual de descarga gratuita). • Ejercicios de Microeconomía Intermedia. Elsa Galarza, Francisco Galarza y José Luis Ruiz. Lima: Universidad del Pacífico, 2015. • Ejercicios de Microeconomía: un enfoque didáctico para un curso introductorio. Karlos La Serna y Sergio Serván. Lima: Universidad del Pacífico, 2016. • El desarrollo de la economía peruana en la era moderna. Precios, población, demanda y producción desde 1700. Bruno Seminario. Lima: Universidad del Pacífico, 2015. • Fundamentos de matemáticas. John Cotrina. Lima: Universidad del Pacífico, 2015. • Hacer ciencia. Teoría y práctica de la producción científica. Héctor Maletta. Lima: Universidad del Pacífico, 2015. • Presencia e impacto de la inversión española en el Perú. Editora: Rosario Santa Gadea. Lima: Universidad del Pacífico, COCEP, 2015. • Puentes sobre el Pacífico: Latinoamérica y Asia en el nuevo siglo. Editores: Cynthia Arnson y Jorge Heine, con Christine Zaino. Lima: Woodrow Wilson Center, Universidad del Pacífico, 2015. • Tecnopolítica económica: análisis y propuestas. Germán Alarco. Lima: Universidad del Pacífico, 2015. • Temas de política económica: la experiencia peruana. Jorge González Izquierdo. Lima: Universidad del Pacífico, 2015. • Trigonometría plana. Ricardo Siu K. y Carlos Andaluz Z. Lima: Universidad del Pacífico, 2015. ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO La econometría de series de tiempo es un área de estudio fascinante cuyos resultados más interesantes, desafortunadamente, requieren del manejo de material matemático y estadístico que por lo general va más allá de lo cubierto en clase. Este texto ilustra, a través de un gran número de ejemplos y aplicaciones, cómo el uso de técnicas de simulación de Monte Carlo permite llegar, de una manera muy gráfica y de fácil comunicación, a las mismas conclusiones a las que se llegaría de seguir el camino formal del análisis estadístico avanzado. Hoy en día, cuando el costo del poder computacional es bajo, implementar ejercicios de simulación es realmente accesible. El texto está dirigido a estudiantes que buscan una guía para profundizar los conocimientos adquiridos sobre econometría de series de tiempo, y al docente que podría encontrar un valor didáctico en cómo se estructuran los diseños de simulación para responder preguntas relevantes sobre este tema. 85 EC O N O M ET R ÍA D E S ER IE S D E T IE M PO : EN FO Q U E D E M O N T E C A R LO D IE G O W IN K EL R IE D 85 ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO Apuntes de Estudio DIEGO WINKELRIED DIEGO WINKELRIED Jefe del Departamento Académico de Finanzas de la Universidad del Pacífico. Ha sido jefe del Departamento de Modelos Macroeconómicos del Banco Central de Reserva del Perú. Licenciado en Economía de la Universidad del Pacífico, y máster y Ph. D. en Economía de la University of Cambridge. Su investigación incluye temas de política monetaria, economía del desarrollo y métodos cuantitativos. Sus artículos han aparecido en Journal of International Money and Finance, Journal of Development Economics e International Journal of Central Banking, entre otras revistas especializadas. Además, ha publicado Matemáticas para la economía dinámica, Apuntes de Estudio 44, del Fondo Editorial de la Universidad del Pacífico (en coautoría con José Luis Bonifaz). ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO 85 Apuntes de Estudio DIEGO WINKELRIED OT. 16558 / U. del Pacífico - Econometría de series de tiempo / Lomo OK: 0.95 cm. -172 pp. - ENCOLADO / Medida: 59.45 x 22.0 cm. - TIRA / Javier COLOR PARA RETIRA Apuntes de Estudio DIEGO WINKELRIED ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO 85 © Diego Winkelried, 2017 De esta edición © Universidad del Pacífico Av. Salaverry 2020 Lima 11, Perú www.up.edu.pe ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO Diego Winkelried 1a. edición: marzo 2016, julio 2017 Diseño de la carátula: Icono Comunicadores Tiraje: 300 ejemplares ISBN: 978-9972-57-352-1 Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2017-08995 BUP Winkelried, Diego. Econometría de series de tiempo : enfoque de Monte Carlo / Diego Winkelried. -- 1a edición. -- 7.102 ,ocfiícaP led dadisrevinU : amLi 159 p. -- (Apuntes de estudio ; 85) 1. Econometría 2. Análisis de series de tiempo 3. Método de Monte Carlo I. Universidad del Pacífico (Lima) 330.015195 (SCDD) Miembro de la Asociación Peruana de Editoriales Universitarias y de Escuelas Superiores (Apesu) y miembro de la Asociación de Editoriales Universitarias de América Latina y el Caribe (Eulac). La Universidad del Pacífico no se solidariza necesariamente con el contenido de los trabajos que publica. Prohibida la reproducción total o parcial de este texto por cualquier medio sin permiso de la Universidad del Pacífico. Derechos reservados conforme a Ley. APUNTES DE ESTUDIO Prólogo La econometría de series de tiempo es un área de estudio fascinante a nivel teórico y su importancia práctica no puede exagerarse. Todo investigador que en el curso de sus labores deba lidiar con series de tiempo, datos que comprenden desde cotizaciones bursátiles hasta agregados macroeconómicos, requiere un conocimiento práctico de las técnicas, potencialmente sofisticadas, involucradas en la correcta inferencia estadística y proyección. Hoy por hoy, casi todo artículo de investigación financiera o macroeconómica que contenga una sección empírica, apela al uso de estos métodos estadísticos. Desafortunadamente, los resultados más interesantes y relevantes en este campo son, en general, complejos y requieren del manejo de material matemático y estadístico que normalmente va más allá de lo cubierto a nivel de pregrado. Ante ello, es común que incluso los profesores más exigentes se vean obligados a hacer breves recuentos bibliográficos y, finalmente, a proveer de una suerte de “recetario”, casi dogmático, en la aplicación de los métodos de series de tiempo. El alumno exitoso suele aprender el recetario prolijamente, pero, inevitablemente, tanto su capacidad crítica como la interpretación que puede brindar a los fenómenos sobre los cuales centra su inferencia se ven mermadas ante la falta de un entendimiento más profundo de las propiedades de los estimadores que utiliza. Un aliado poderoso del docente en el objetivo de comunicar eficazmente estos resultados complejos son las simulaciones de Monte Carlo. Esencialmente, un estudio de Monte Carlo descansa en dos principios de estadística ampliamente conocidos (la Ley Débil de Grandes Números y, usualmente, el Teorema del Límite Central) para llegar, de una manera muy gráfica y de fácil comunicación, a las mismas conclusiones a las que se llegaría de seguir el camino formal del análisis matemático y estadístico avanzado. Hoy en día, cuando el costo del poder computacional es bajo, implementar y ejecutar ejercicios de simulación es realmente accesible. En mi experiencia docente, he percibido cómo el ilustrar principios complejos con los resultados de simples ejercicios de Monte Carlo alimenta y fortalece el espíritu crítico de los alumnos, lo que repercute finalmente en un aprendizaje sólido de conocimientos que, como econometristas aplicados, van a necesitar para destacar en el momento de realizar un análisis empírico. El propósito de este texto es, justamente, proveer un breve recuento teórico de algunos importantes resultados de la econometría de series de tiempo que interactúa con el diseño y, finalmente, con los resultados de simulaciones de Monte Carlo. El texto está dirigido a dos tipos de lector. Primero, al estudiante que busca una guía para consolidar y profundizar los conocimientos adquiridos sobre econometría de series de tiempo durante sus estudios, iii para que luego sean utilizados rigurosamente en las aplicaciones empíricas de su interés. Segundo, al instructor o al docente que podría encontrar un valor didáctico en la forma como se escribió este texto, y en cómo se estructuran los diseños de simulación para responder preguntas específicas (muchas de las cuales aparecen en el salón de clase). Es por ello que los programas que implementan las simulaciones preparadas para este texto se encuentran disponibles para ser replicados en casa o en clase (véase el vínculo de descarga en la página 155, al final del texto). Asimismo, el lector también podrá acceder a versiones de alta resolución de las figuras que aparecerán a lo largo del texto, para analizarlas con más detalle o para utilizarlas en sus propias presentaciones. El uso de este material es libre, aunque estaré agradecido de que se reconozca el tiempo dedicado a preparalo y difundirlo, citando adecuadamente este texto. El contenido de este texto se basa en parte de las notas de clase que elaboré al dictar el curso Econometría II de la carrera de Economía de la Universidad del Pacífico, durante el año 2014, y el curso Tópicos de Econometría Avanzada de la Maestría de Economía de la Universidad del Pacífico, durante los años 2011 a 2015. También he utilizado, aunque en menor proporción, material preparado para los módulos de Econometría dictados como parte del Curso de Extensión Universitaria de Economía y del Curso de Actualización para Profesores de Economía, ofrecidos por el Banco Central de Reserva del Perú durante los años 2014 y 2015. La exposición de los temas desarrollados en estas páginas está pensada para estudiantes de pregrado. Por ello, no se es particularmente riguroso en la derivación de algunos resultados asintóticos, y se evita hacer referencias explícitas a los pormenores de procesos de Weiner, a resultados (sumamente relevantes) como el Teorema del Límite Central Funcional, o al uso del operador de rezagos. Con los estudiantes de postgrado, muchas veces a su pesar, sí nos detenemos en estos tecnicismos. No obstante, considero que este grupo más avanzado podría igualmente beneficiarse al complementar su estudio con lo ofrecido en este texto. Es recomendable que el lector esté familiarizado con varios temas, sobre todo de estadística, para que pueda seguir con fluidez la discusión acá presentada. Idealmente, al nivel de los alumnos que empiezan a llevar el curso de Econometría II de la Universidad del Pacífico. Estos temas incluyen: (1) manipulación básica de variables aleatorias, por ejemplo para el cálculo de esperanzas y covarianzas; (2) planteamiento y análisis de pruebas de hipótesis, así como las características de las distribuciones que aparecen al estudiar este tema (normal, chi-cuadrado, t de Student, F de Snedecor); (3) estimación de modelos de regresión por mínimos cuadrados; y (4) una primera noción de teoría asintótica, que incluya distinguir entre modos de convergencia (en probabilidad o en distribución), así como los postulados básicos de la Ley de Grandes Números y del Teorema del Límite Central. En este punto, es conveniente aclarar que este texto no es, ni pretende ser, un libro de texto. Simplemente no está en la capacidad, ni es su objetivo, de brindar una discusión amplia y completa de los temas de series de tiempo que se discuten en estas páginas. iv APUNTES DE ESTUDIO La idea es que se utilice como material adicional, como el complemento a las notas y lecturas de clases, o quizá como el ejemplo o caso ilustrativo que ayude a entender mejor ciertos conceptos o relaciones. A nivel de pregrado, aunque no sea tan introductorio, no he encontrado una mejor referencia que Enders (2010), un libro muy bien escrito, con muchos ejemplos y aplicaciones. A un nivel más intermedio, Hayashi (2000) es una excelente referencia. Aunque se trate de un libro de econometría general, los capítulos donde se discuten tópicos de series de tiempo son bastante claros, con una notación muy amigable que facilita la lectura. En el postgrado, el monumental Hamilton (1994) sigue vigente. Sin embargo, mis favoritos son Maddala y Kim (1998) y Banerjee, Dolado, Galbraith y Hendry (1993), que, en mi opinión, son de lectura obligatoria para quien quiera aventurarse de lleno en el interesante mundo del análisis de series de tiempo no estacionarias. Los programas que implementan las simulaciones son codificados íntegramente en Econometric Views (EViews), que es el software utilizado en la enseñanza de series de tiempo y otros temas econométricos en la Universidad del Pacífico. Estos programas fueron elaborados y probados en los laboratorios de esta universidad, bajo su licencia. La versión utilizada fue inicialmente la 8, aunque se ha hecho un esfuerzo por adecuar los códigos para que puedan ser ejecutados sin complicaciones con la versión 7 (y, muy probablemente, con versiones más antiguas). Es importante mencionar que estos programas se ponen a disposición del lector exclusivamente para su uso académico y docente. No está permitido el uso de estos códigos con fines comerciales. Asimismo, no asumo responsabilidad por (improbables) daños que la ejecución de estos programas pueda ocasionar. La elección de este paquete informático no debería ser una limitante para entender la lógica detrás de las simulaciones y la estructura de su codificación. El lenguaje de programación de EViews es bastante intuitivo y muy comparable con los de otros paquetes estadísticos. No obstante, es altamente recomendable que el lector haya tenido algún tipo de acercamiento previo a este software. Una ventaja de EViews es que el uso del software y sus comandos de programación están cuidadosamente documentados en los archivos de ayuda del paquete. Muchas veces, consultar esta fuente es suficiente para entender un código. Adicionalmente, el libro de Castro y Rivas-Llosa (2007) provee una excelente y muy pedagógica introducción a la programación en EViews. El lector notará a lo largo de este texto un estilo en la redacción de los programas. Este estilo facilita la lectura del código y proviene de una época en que los editores de texto eran monocromáticos y no se tabulaban ni corregían automáticamente. En particular los comandos, que son palabras “prohibidas” o “reservadas”, son escritos en MAYÚSCULAS mientras que los objetos son escritos en minúsculas, siempre con caracteres tipográficos (se recomienda, en general, que los programas sean leídos con una fuente de ancho fijo, monospaced font). Por ejemplo, EQUATION eq.LS y C x declara una ecuación de nombre eq (minúsculas) con el comando EQUATION (mayúsculas), en donde se ejecuta una estimación de mínimos cuadrados con la instrucción LS (mayúsculas), al regresar la serie y (minúsculas) sobre un intercepto C (mayúsculas, por ser un nombre v reservado por EViews para una serie llena de unos) y una variable x (minúsculas). Esta convención es puramente una cuestión de estilo. El lenguaje de programación de EViews no es sensible a si los caracteres son escritos en mayúsculas o minúsculas. EViews interpretará EQUATION EQ.LS Y C X y equation eq.ls y c x exactamente de la misma manera. Los programas son autocontenidos y cada ejercicio de simulación se asocia con un único programa. En todos los casos, los programas crean en sus primeras líneas un workfile, completamente nuevo y sin nombre (UNTITLED, que es el nombre por defecto), sobre el cual realizar los cálculos. Se recomienda, además, ejecutar estos programas en modo Quiet (el modo alternativo y, muchas veces, por defecto es Verbose, que es considerablemente más lento). Como resultado, al término de las simulaciones se generan gráficos y cuadros muy similares a los reportados en este texto. Dado que las simulaciones tienen, por definición, un componente aleatorio, y por posibles errores de redondeo, es poco probable que se obtengan exactamente los mismos resultados que se presentan luego. No obstante, sí se puede esperar que sean lo suficientemente parecidos como para que las diferencias no tengan ninguna consecuencia práctica. Las simulaciones que presentaremos utilizan un gran número de repeticiones, usualmente 100,000. La razón es poder presentar al lector resultados con un mínimo, casi imperceptible, error de simulación. El costo es que la ejecución de algunos de estos programas en una computadora con estándares promedio (digamos, un procesador de 2 GHz y una memoria RAM de 2 GB) puede tardar algunas horas. Sin embargo, y es una práctica que sigo en mis clases, la ejecución de estos mismos programas con un número de, digamos, 2,000 repeticiones es una cuestión de uno o dos minutos. Los resultados, ciertamente, se verán contaminados con algo de error de simulación, pero los patrones serán lo suficientemente claros como para comunicar el mensaje último del ejercicio de simulación. El texto está organizado de la siguiente manera. El capítulo I describe los fundamentos detrás del uso de simulaciones para el análisis estadístico, enfoque conocido como Integración de Monte Carlo. El capítulo II discute los conceptos de estacionariedad y ergodicidad, y sus implicancias para la estimación e inferencia con series de tiempo. El capítulo III extiende el análisis a un contexto en donde las series pueden ser no estacionarias. El capítulo IV se centra en el análisis de cointegración. Al final del texto, se presentan un listado y una breve descripción de los programas de EViews utilizados. Son en total 25 programas (brevemente documentados en la página 147), 23 de los cuales abordan algún problema estadístico de interés (los 2 restantes ilustran el método de Integración de Monte Carlo). Si bien es cierto que los estudios de Monte Carlo responden preguntas específicas, válidas estrictamente bajo los supuestos del diseño de la simulación, considero que los programas provistos cubren muchas situaciones de interés, fácilmente adaptables. Las simulaciones se utilizan para explorar distibuciones muestrales, calcular sesgos y valores críticos de algunas pruebas de hipótesis, estudiar la tasa de cobertura de intervalos de confianza, calcular la potencia estadística de contrastes de hipótesis, entre otros. Se espera ofrecer en versiones futuras los códigos de las simulaciones en otros paquetes como Matlab. vi APUNTES DE ESTUDIO Se han dejado de lado algunos temas que podrían ser de interés, y que posiblemente sean incorporados en versiones futuras de este texto, de los cuales enfatizo tres. Primero, el estudio de las distorsiones generadas por la presencia de quiebres estructurales en el contraste de raíces unitarias, en especial la reducción de la potencia de ciertas pruebas de hipótesis. Ello ocurre básicamente porque, al ignorar un cambio estructural, el modelo que describe los datos bajo la hipótesis alternativa se encuentra mal especificado. El tema se aborda acá de una manera indirecta, ya que son varios los casos y ejemplos en donde se ilustra que el no rechazo de una hipótesis nula es el resultado de una hipótesis alternativa pobre, más que de una hipótesis nula satisfactoria. Segundo, el análisis de cointegración à la Johansen se trata muy marginalmente. En general, el enfoque del texto es hacia el análisis de una sola ecuación de regresión, ya que los resultados más interesantes se generalizan muy fácilmente cuando se pasa a un mundo de sistemas de ecuaciones (digamos, vectores autorregresivos). De hecho, los resultados para sistemas son repeticiones de los resultados para ecuaciones individuales. Finalmente, se excluye el análisis de modelos dinámicos no lineales, por ejemplo modelos de la familia ARCH. Ello responde a que el énfasis del texto es comprender los cambios fundamentales para la inferencia de transitar de un mundo estacionario a uno no estacionario, y en general no es particularmente informativo lo que los modelos no lineales revelen sobre este punto en particular. Deseo expresar mi agradecimiento al Centro de Investigación de la Universidad del Pacífico (representado por su directora durante 2014, Cynthia Sanborn) por financiar e impulsar la publicación y difusión de este texto. Asimismo, agradezco al Departamento Académico de Economía (representado por su jefe durante 2014, Roberto Urrunaga) y a la Dirección de la Maestría en Economía de esta misma universidad (representada por sus directores durante el periodo 2011 a 2015, Eduardo Morón y Juan Mendoza), por compartir mi pasión por la econometría y acompañarme en la ambición de formar futuras generaciones de jóvenes economistas con una sólida orientación econométrica. César Urquizo es un miembro notable de este grupo de jóvenes, y su aporte a la redacción de muchos de los códigos que dan contenido a este texto es especialmente reconocido. Quisiera, además, expresar mi agradecimiento a dos evaluadores anónimos, cuyos acertados comentarios ayudaron a mejorar la exposición de este texto, así como a María Elena Romero del Fondo Editorial de la Universidad del Pacífico por su solícita labor editorial. Agradezco también a Javier Zúñiga por haberme provisto desinteresadamente la plantilla de LaTex sobre la que este texto fue procesado. Cabe enfatizar que el contenido de este texto, así como todos sus errores u omisiones, son de mi entera responsabilidad. Finalmente, este texto está dedicado a mis alumnos, pasados y presentes; a la larga, fue inspirado por ustedes y escrito pensando en ustedes. Diego Winkelried Quezada Lima, noviembre de 2015 vii Índice Prólogo iii Índice viii I Integración de Monte Carlo 1 I.1 Integración de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 I.2 Aproximando π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 I.3 Muestreando distribuciones conocidas . . . . . . . . . . . . . . . . . . . . . . . . 8 I.4 Eficiencia del promedio y la mediana muestrales . . . . . . . . . . . . . . . . . . 12 I.5 Inferencia en modelos de regresión . . . . . . . . . . . . . . . . . . . . . . . . . 15 I.6 Leyes asintóticas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 II Series de tiempo estacionarias 29 II.1 Generando dependencias: procesos ARMA . . . . . . . . . . . . . . . . . . . . . 30 II.2 Leyes asintóticas importantes, revisadas . . . . . . . . . . . . . . . . . . . . . . 34 II.3 Inferencia en la práctica: estimación de la varianza de largo plazo . . . . . . . . . 43 II.4 Estimación de modelos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 II.5 Contrastes de autocorrelación residual . . . . . . . . . . . . . . . . . . . . . . . 52 II.6 Criterios de información y selección de modelos . . . . . . . . . . . . . . . . . . 60 III No estacionariedad 69 III.1 Modelo de tendencia lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 III.2 Procesos integrados y no estacionariedad . . . . . . . . . . . . . . . . . . . . . . 76 III.3 Efectos sobre la inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 III.4 Removiendo tendencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 III.5 Pruebas de raíz unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 III.6 Potencia y consistencia de las pruebas de Dickey y Fuller . . . . . . . . . . . . . 97 III.7 Incrementando la potencia con una prueba LM . . . . . . . . . . . . . . . . . . . 101 III.8 ¿Retorno a la normalidad? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 III.9 Proyecciones y raíces unitarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 III.10 Parámetros fastidiosos y posibles soluciones . . . . . . . . . . . . . . . . . . . . 111 III.11 Estimación e inferencia con series no estacionarias . . . . . . . . . . . . . . . . . 124 IV Cointegración 131 IV.1 Representaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 IV.2 Ausencia de cointegración y regresiones espurias . . . . . . . . . . . . . . . . . . 134 IV.3 Estimación e inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 IV.4 Inferencia sobre el multiplicador de largo plazo . . . . . . . . . . . . . . . . . . . 142 Resumen de programas 147 Bibliografía 157 viii APUNTES DE ESTUDIO Lista de gráficos I.1 Aproximación de π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 I.2 Colas anchas y eficiencia relativa del promedio y la mediana . . . . . . . . . 14 I.3 Desempeño de los estimadores MCO, MCR y PT . . . . . . . . . . . . . . . 22 I.4 Distribuciones muestrales de los estimadores MCO, MCR y PT . . . . . . . 23 I.5 Ley de Grandes Números y Teorema del Límite Central . . . . . . . . . . . . 26 II.1 Leyes asintóticas para procesos dependientes . . . . . . . . . . . . . . . . . 40 II.2 Consistencia de la primera autocorrelación muestral . . . . . . . . . . . . . . 42 II.3 Sesgo del estimador MCO de φ en el modelo yt = φyt−1 + εt . . . . . . . . . 49 II.4 Consistencia y normalidad asintótica de estimadores de mínimos cuadrados . 53 II.5 Correlograma de residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 II.6 Prueba de autocorrelación residual de Breusch-Godfrey . . . . . . . . . . . . 58 II.7 Potencia de las pruebas Q y LM de ausencia de correlación serial . . . . . . . 59 III.1 Superconsistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 III.2 Equivalencia asintótica de estimadores de φ . . . . . . . . . . . . . . . . . . 75 III.3 Comportamiento asintótico de promedios muestrales de un paseo aleatorio . 83 III.4 Distribuciones empíricas de ratios t para la pendiente de la tendencia . . . . 89 III.5 Distribuciones de Dickey-Fuller . . . . . . . . . . . . . . . . . . . . . . . . . 93 III.6 Probabilidad de rechazo en las pruebas de Dickey y Fuller . . . . . . . . . . . 99 III.7 Probabilidad de rechazo en las pruebas DF y LM . . . . . . . . . . . . . . . 103 III.8 Funciones de distribución empíricas de τφ para un proceso con tendencia . . . 105 III.9 Superconsistencia de ρ en la regresión básica de Dickey y Fuller . . . . . . . 113 III.10 Parámetros fastidiosos y posibles soluciones . . . . . . . . . . . . . . . . . . 114 III.11 Prueba de Phillips y Perron . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 III.12 Prueba de Dickey y Fuller Aumentada . . . . . . . . . . . . . . . . . . . . . 117 III.13 Superconsistencia en la regresión de Dickey y Fuller Aumentada . . . . . . . 126 III.14 Equivalencia asintótica en la regresión de Dickey y Fuller Aumentada . . . . . 127 IV.1 Función de distribución empírica de estadísticos de regresión . . . . . . . . . 136 IV.2 Superconsistencia del MLP en el procedimiento de Engle y Granger . . . . . 140 IV.3 Equivalencias asintóticas en el procedimiento de Engle y Granger . . . . . . . 141 IV.4 Inferencia sobre el multiplicador de largo plazo . . . . . . . . . . . . . . . . . 145 ix Lista de cuadros I.1 Aproximación de cantidades poblacionales para distribuciones conocidas . . . 10 II.1 Probabilidad de cobertura con el estimador HAC de Newey-West . . . . . . . 46 II.2 Desempeño de criterios de información . . . . . . . . . . . . . . . . . . . . . 65 III.1 Convergencia de promedios de series estacionarias y no estacionarias . . . . . 84 III.2 Contrastes de raíz unitaria de Dickey y Fuller . . . . . . . . . . . . . . . . . 95 III.3 Desempeño predictivo de tres estrategias de proyección . . . . . . . . . . . . 110 III.4 Probabilidad de rechazo real (probabilidad nominal de 5%) . . . . . . . . . . 122 x APUNTES DE ESTUDIO I Integración de Monte Carlo El punto de partida de todo análisis estadístico es la formulación de un modelo poblacional, muchas veces denominado proceso generador de datos, que establece las relaciones bajo estudio entre un grupo de variables aleatorias. El fin último de los ejercicios de estimación e inferencia en el análisis empírico es revelar o descubrir aspectos relevantes del modelo poblacional, a partir demuestras (típicamente de tamaño finito) que constituyen el conjunto de información a disposición del investigador. Así, es imperativo evaluar tanto las propiedades de los estimadores utilizados como las posibilidades de inferencia sobre las cantidades poblacionales de interés. Para ello, el investigador debe tener en cuenta tanto las características del modelo poblacional como las reglas del muestreo. Usualmente, es prohibitivamente complicado caracterizar exacta o analíticamente el comportamiento de los estadísticos muestrales que se utilizan en la práctica. El uso de técnicas de simulación responde a la promesa de que pueden aproximarse, con niveles de precisión arbitrariamente altos, las propiedades de estos estadísticos (en concreto, sus funciones de distribución) mediante métodos de Monte Carlo. Bajo este enfoque, se le da al investigador la oportunidad de muestrear directamente, bajo reglas conocidas y controladas, de un proceso generador de datos hipotetizado para así calcular los estadísticos de interés en esta muestra ficticia. La repetición de este procedimiento (un gran número de veces) aproxima numéricamente las propiedades deseadas de los estadísticos muestrales. Esta es la esencia del método de Integración de Monte Carlo que se discute en la sección I.1. El funcionamiento del método es ilustrado con dos aplicaciones, en las secciones I.2 y I.3. Finalmente, las secciones I.4 y I.6 estudian las propiedades de estadísticos muestrales, en especial de promedios, mediante simulaciones. I.1 Integración de Monte Carlo El resultado fundamental detrás de los métodos de simulación es la Ley Débil de Grandes Números, a veces denominada el Teorema de Khinchine. Considere una variable aleatoria ξ cuya función de distribución es fξ(·), y tome independientemente (aleatoriamente) R realizaciones de esta función de distribución, ξ(i) ∼ fξ(ξ), para así conseguir una muestra o colección de valores {ξ(1), ξ(2), . . . , ξ(R)}. Considere, además, una función g(·) para formar otra variable aleatoria g(ξ). La evaluación de esta función para toda realización de ξ da como resultado una nueva colección de valores, {g(ξ(1)), g(ξ(2)), . . . , g(ξ(R))}. La Ley Débil de 1 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Grandes Números establece que el promedio muestral de los R valores de g(ξ(i)) se aproxima (en estricto, converge en probabilidad) a la esperanza poblacional de g(ξ) conforme R se incrementa. Explícitamente, 1 R R∑ i=1 g(ξ(i)) p−→ E(g(ξ)) para R→∞ . (I.1) Esta ley indica que la esperanza de una variable aleatoria puede aproximarse “muestreando” repetidas veces de fξ(·) y tomando promedios a las observaciones de este muestreo. Puesto de otra forma, promedios muestrales se acercan, y a la larga convergen, a esperanzas poblacionales1. Este resultado es de suma importancia, ya que, básicamente, toda cantidad poblacional de interés que caracteriza el comportamiento aleatorio de ξ puede ser expresada como una esperanza y, por tanto, puede ser cuantificada a través de simulaciones. Un primer grupo de resultados se relaciona con los momentos de ξ. El p-ésimo momento de ξ, donde p es un número entero positivo, se define como E(ξp), por lo que una aplicación directa de (I.1), con g(ξ) = ξp, conlleva 1 R R∑ i=1 ξp(i) p−→ E(ξp) . El primer momento, p = 1, corresponde a la media poblacional y es aproximado por ξ̄R = 1 R R∑ i=1 ξ(i) , el promedio simple de {ξ(1), ξ(2), . . . , ξ(R)}. El segundo momento se relaciona con el cálculo de la varianza, quizá la medida de dispersión más común en estadística. En concreto, se tiene que V(ξ) = E(ξ2) − E(ξ)2. El primer término es aproximado por el promedio muestral de ξ2 (i), mientras que el segundo, por el cuadrado de ξ̄R2. De este modo, la Ley Débil de Grandes Números garantiza que la varianza muestral converge a la poblacional, VR = 1 R R∑ i=1 (ξ(i) − ξ̄R)2 = 1 R R∑ i=1 ξ2 (i) − ξ̄ 2 R p−→ E(ξ2)− E(ξ)2 ≡ V(ξ) . 1 El calificativo de débil se refiere al hecho de que el Teorema de Khinchine establece un límite en probabilidad, que es una forma relativamente general (o “débil”) de convergencia de variables aleatorias. Existen leyes fuertes de grandes números (por ejemplo, la Ley de Kolmogorov) que involucran tipos de convergencia más exigentes, como convergencia casi segura (almost surely). No obstante, para fines del presente texto la distinción entre leyes débiles o fuertes no es importante, ya que el interés se centra en situaciones o muestreos en donde ambas se cumplen. Por ello y por motivos pedagógicos, únicamente se discuten las implicancias de la ley débil. 2 Esta es una aplicación del Teorema de Slutsky que, en términos simples, establece que los límites probabilísticos pueden ser manipulados como límites ordinarios o determinísticos: si plim aR = a, entonces para cualquier función g(·) bien comportada, plim g(aR) = g(a). Así, el límite probabilístico del cuadrado de ξ̄R es igual al cuadrado del límite probabilístico de ξ̄R. 2 APUNTES DE ESTUDIO Note que la varianza muestral, normalmente, divide la suma de desvíos cuadráticos respecto al promedio entre R−1 en lugar de R. Por supuesto, esta distinción no es relevante cuando R es lo suficientemente grande. Otra aplicación útil del resultado en (I.1) es el cálculo de probabilidades, que involucra una elección particular de la función g(·). Suponga que el soporte de ξ (es decir, el conjunto de todos los posibles valores que esta variable aleatoria toma) se denota como Ξ. Por definición, la esperanza de g(ξ) es un promedio ponderado de todos los posibles valores de esta variable, donde las ponderaciones vienen dadas por la probabilidad de ocurrencia de cada valor. Para un soporte continuo3, E(g(ξ)) = ∫ Ξ g(t)fξ(t)dt . (I.2) Considere ahora que el soporte de Ξ se divide en dos regiones complementarias, es decir mutuamente excluyentes {ΞA ∩ΞB} = {∅} y exhaustivas {ΞA ∪ΞB} = {Ξ}. Sea, además, 1{x} una función indicador tal que 1{x} = 1 si x es verdadero y 1{x} = 0 si x es falso. Se tiene que E(1{ξ ∈ ΞA}) = ∫ ΞA 1 · fξ(t)dt + ∫ ΞB 0 · fξ(t)dt = ∫ ΞA fξ(t)dt = Pr(ξ ∈ ΞA) . Es decir, la esperanza de 1{x} es la probabilidad de que x sea verdadero. Así, tomando la colección {ξ(1), ξ(2), . . . , ξ(R)} pueden identificarse aquellas realizaciones que satisfagan ξ(i) ∈ ΞA, y la Ley Débil de Grandes Números indica que la frecuencia relativa de este evento, que es el promedio muestral del indicador 1(ξ(i) ∈ ΞA), converge a la probabilidad deseada 1 R R∑ i=1 1{ξ(i) ∈ ΞA} p−→ Pr(ξ ∈ ΞA) . (I.3) Usualmente, la función de distribución acumulada de ξ describe completamente el comportamiento aleatorio de esta variable. Por definición, Fξ(A) = Pr(ξ ≤ A). Dado que Fξ(·) se define a partir de una probabilidad, puede ser aproximada por una frecuencia relativa. Esta frecuencia relativa se conoce como función de distribución empírica (FDE), FDEξ(A) = Número de veces en las que ξ(i) ≤ A R = 1 R R∑ i=1 1(ξ(i) ≤ A) p−→ Fξ(A) . Del mismo modo, en ocasiones el interés se centra en la función de densidad de ξ, fξ(·), que es igual a la primera derivada de la función de distribución acumulada. Existen varias formas de escribir la relación entre fξ(·) y Fξ(·); la más conveniente para nuestros 3 Las esperanzas pueden representarse como integrales. De ahí el nombre de Integración de Monte Carlo que recibe el método de aproximar esperanzas mediante simulaciones. 3 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO propósitos es la variación de la probabilidad acumulada en un intervalo infinitesimalmente pequeño centrado en ξ. A saber, fξ(ξ) = ĺım h→0 Fξ(ξ + 1 2 h)− Fξ(ξ − 1 2 h) h . Al reemplazar Fξ(·) por su aproximación FDEξ(·) y para un valor de h finito y pequeño, FDEξ(ξ + 1 2 h)− FDEξ(ξ − 1 2 h) h = Número de veces en las que ξ − 1 2 h ≤ ξ(i) ≤ ξ + 1 2 h Rh p−→ fξ(ξ) , conforme R → ∞ y h → 0. El lector familiarizado con estadísticas descriptivas habrá notado que la definición anterior corresponde a la frecuencia relativa utilizada en el cálculo de un histograma, dividida entre h. Ciertamente, en el contexto de simulaciones con un R lo suficientemente grande y un ancho de intervalo h lo suficientemente pequeño (una práctica común es h ' R−1/3), el histograma de {ξ(1), ξ(2), . . . , ξ(R)} aproxima razonablemente bien a h veces la función de densidad4. I.2 Aproximando π Un ejemplo clásico sobre el funcionamiento del método de Integración de Monte Carlo es la aproximación del número π ' 3.1416 a partir del área de un círculo. El conjunto {(x, y) ∈ R2 | x2 + y 2 ≤ 1} define a un círculo en R2, centrado en el origen y con radio igual a r = 1. Se sabe que el área de este círculo es igual a πr 2 = π. Por simetría, si únicamente se considera la región del círculo correspondiente al primer cuadrante, es decir los pares (x, y) que pertecencen al conjunto A(x, y) = {(x, y) ∈ R2 | x2 + y 2 ≤ 1, x ≥ 0 ∧ y ≥ 0} , se tiene una región cuya área es igual a 1 4 π. El conjunto A(x, y) puede ser representado gráficamente en el plano (x, y), como el área por debajo la función implícita x2 + y 2 = 1, 4 Una mejor manera de aproximar o estimar la densidad de una variable aleatoria es a través del método no paramétrico “kernel density ”. Este método guarda muchas similitudes con la lógica detrás de la construcción de un histograma, pero produce una versión suavizada (el histograma es generalmente un gráfico de barras discretas), con mejores propiedades de convergencia para variables aleatorias continuas. Escapa al alcance de este texto profundizar sobre este tema. Sin embargo, es bueno mencionar que dado que versiones automáticas del método se encuentran implementadas en paquetes como EViews, muchos de los resultados en secciones posteriores se presentan como densidades kernel, que son, dados los números elevados de repeticiones R que utilizamos, cualitativamente similares a los que se obtendrían con un histograma. 4 APUNTES DE ESTUDIO a la derecha de x = 0, y por encima de y = 0. Puesto de otro modo, al expresar y como una función explícita de x (o viceversa), se consigue la siguiente igualdad:∫ 1 0 4 √ 1− t2dt = π . La integral al lado izquierdo de la identidad anterior puede ser aproximada mediante el método de Monte Carlo. En particular, note que si x tiene como soporte al intervalo [0, 1] (los límites de integración) y como función de distribución fx(t) = 1, entonces la integral en cuestión corresponde al valor esperado de la variable aleatoria g(x) = 4 √ 1− x2. Estas propiedades son satisfechas si x ∼ Uniforme(0, 1). Así pues, tras muestrear R valores {x(1), x(2), . . . , x(R)} de una distribución uniforme y calcular {g(x(1)), g(x(2)), . . . , g(x(R))}, la Ley Débil de Grandes Números indica que el promedio muestral de los R valores de g(x(i)) se aproximará a π conforme R se incrementa. En el gráfico I.1(a) se presenta el valor de este promedio como función de R, el número de observaciones promediadas, para dos muestreos distintos e independientes. Se aprecia cómo opera la Ley Débil de Grandes Números. Inicialmente, con valores reducidos de R, la calidad de la aproximación es baja. Conforme R se incrementa, el promedio se va acercando a π. Note que la convergencia hacia π no es necesariamente monotónica, sino que es más bien irregular. El comportamiento errático del promedio muestral como función de R es simplemente una manifestación de la naturaleza aleatoria de x . De hecho, la Ley Débil de Grandes Números predice que el promedio de {g(x(1)), g(x(2)), . . . , g(x(R))} podría dejar de pensarse como una variable aleatoria únicamente en el límite, cuando R→∞. Esta simulación puede ser implementada fácilmente en EViews, y se encuentra disponible en el programa Prog11_pi.prg. Operando sobre un workfile con R observaciones, se genera una serie que contiene R números aleatorios independientes provenientes de una distribución uniforme, a través del comando SERIES x = RND . Luego, se genera una nueva serie con la transformación de estos datos g(x), que será promediada con el propósito de conseguir la aproximación deseada, a través del comando SERIES gx = 4*@SQRT(1 - x^2) . El gráfico I.1(a) presenta los promedios acumulados de gx: el valor de la i-ésima observación corresponde a la suma de las primeras i observaciones en gx, dividida entre i . El comando SERIES prom = @CUMSUM(gx)/@CUMSUM(1) genera una serie prom que contiene, precisamente, estos promedios acumulados. Al aplicar el comando @CUMSUM(.) a un objeto serie, se obtiene como resultado otro objeto serie 5 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Gráfico I.1 Aproximación de π (a) Promediando 4 √ 1− x2 (b) Lanzando dardos (R = 100) 100 1,000 10,000 100,000 3.00 3.14 3.30 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Notas: (Prog11_pi.prg) En el panel (a), el eje horizontal muestra el valor de R (en escala logarítmica), mientras que el eje vertical muestra el promedio muestral de g(x) = 4 √ 1− x2, donde x ∼ Uniforme(0, 1). Se presentan los resultados de dos muestreos independientes. La línea horizontal corresponde al valor de π. En el panel (b), la línea continua es la curva x2 + y2 = 1 en el plano (x, y). Los puntos sólidos (81 de 100) representan pares (x, y) que satisfacen x2 + y2 ≤ 1, mientras que los puntos vacíos (19 de 100) corresponden a pares que satisfacen x2 + y2 > 1. El área cubierta por los puntos sólidos converge a 1 4 π conforme R→∞. con las sumas acumuladas de la serie original. Más formalmente, ante la instrucción z = @CUMSUM(w), EViews procede recursivamente partiendo de z(1) = w(1) y, para valores de !i mayores de 1, desarrollando z(!i) = z(!i - 1) + w(!i), hasta la última observación disponible. Así, el numerador de prom, @CUMSUM(gx), reditúa una serie con las sumas parciales de los elementos de gx, mientras que el denominador, @CUMSUM(1), es la suma acumulada de una serie llena de unos, es decir una serie cuya i-ésima observación es igual a i . Se puede obtener un gráfico similar al gráfico I.1(a) al visualizar la serie prom, por ejemplo con el comando prom.LINE. Una manera alternativa de aplicar el método de Integración de Monte Carlo en el cálculo de π, descansa en la aproximación de una probabilidad a partir de una frecuencia relativa (véase la ecuación I.3), y se ilustra en el gráfico I.1(b). El área total del gráfico es igual a uno, y corresponde al área del cuadrado formado por los vértices (0, 0), (0, 1), (1, 1) y (1, 0). Suponga ahora que se “lanzan dardos” a este cuadrado, y que la probabilidad de que el dardo caiga sobre un punto (x0, y0) sobre el cuadrado es igual a la probabilidad de que caiga sobre cualquier otro punto (x1, y1). Así, si se lanzara un número muy grande de dardos (en estricto, infinitos dardos), todos los puntos del cuadrado serían cubiertos. El cuadrado, a su vez, puede ser separado en dos regiones. La primera corresponde al conjunto A(x, y) definido previamente; en el gráfico I.1(b), los dardos que caen dentro 6 APUNTES DE ESTUDIO de este conjunto se marcan con puntos sólidos. La segunda región es simplemente el complemento del conjunto A(x, y); los dardos que caen en este conjunto se marcan con puntos vacíos. Luego, en el escenario donde se lanzan infinitos dardos, puede deducirse que la proporción de puntos sólidos respecto al total de puntos será exactamente igual al área del conjunto A(x, y), que sabemos es igual a 1 4 π ' 0.7854. En el gráfico I.1(b) se lanzaron R = 100 dardos, de los cuales 81 cayeron dentro del conjunto A(x, y). La proporción de puntos oscuros respecto al total de puntos es 0.81, que es una aproximación bastante cruda de 0.7854. Sin embargo, en línea con lo establecido por la Ley Débil de Grandes Números, las aproximaciones mejoran conforme R se incrementa: en una simulación con R = 1, 000 se obtiene una proporción igual a 0.7950, mientras que con R = 10, 000 la aproximación asciende a 0.7827. El programa Prog11_pi.prg también contiene la implementación del “lanzamiento de dardos”. El hecho de que el dardo caiga en cualquier punto del cuadrado con la misma probabilidad, implica que tanto x como y son variables uniforme e independientemente distribuidas, cada una con soporte [0, 1]. El comando SERIES y = RND genera una serie de números uniformemente distribuidos e independientes de los contenidos en la serie x, generada previamente. Por su parte, el comando SERIES ind = (x^2 + y^2 <= 1) genera una variable binaria (dummy) que toma únicamente los valores de 0 o 1. Esta sintaxis explota las capacidades de EViews para manipular operadores lógicos, como la función indicador 1{·}. Así, ind es igual a uno si el par de observaciones (x, y) pertenece al conjunto A(x, y), y es igual a cero de otro modo. Las observaciones con ind = 1 corresponden a los puntos oscuros del gráfico I.1(b), mientras que las observaciones con ind = 0 corresponden a los puntos claros. De esta manera, el promedio de ind es la proporción que aproxima a 1 4 π. Una aproximación de π, entonces, puede ser recuperada a través del comando !pi_aprox = 4*@MEAN(ind) que genera un escalar temporal o volátil (es decir, que se elimina automáticamente tras la ejecución del programa) de nombre !pi_aprox con 4 veces el promedio muestral de ind. Si se desea que este escalar se preserve en el workfile luego de ejecutado el programa, debe optarse por el comando SCALAR pi_aprox = 4*@MEAN(ind) (note que el uso del símbolo ! ya no es permitido). El programa Prog11_pi.prg varía el tamaño muestral sobre el que se toma este promedio (el comando relevante es SMPL 1 !obs, donde !obs es el número de observaciones), consiguiendo así distintas aproximaciones para distintos valores de R. Para finalizar, es importante mencionar que no es necesario establecer resultados adicionales para generalizar la Ley Débil de Grandes Números a contextos multivariados. Nótese que bajo el segundo enfoque, donde el promedio muestral de ind busca aproximar a 7 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO la esperanza E(ind), el método de Monte Carlo efectivamente aproxima una integral doble. Conviene verificar los detalles. Primero, el valor esperado del indicador de pertenencia al conjunto A(x, y) viene dado por E(ind) = ∫ 1 0 ∫ 1 0 1{t2 + s2 ≤ 1}fxy (t, s)dtds = ∫ 1 0 ∫ 1 0 1{t2 + s2 ≤ 1}fx(t)fy (s)dtds , donde fxy (·, ·) es la función de distribución conjunta de las variables aleatorias x e y . Dado que x e y son independientes, se cumple que la función de distribución conjunta es igual al producto de las funciones de distribución marginales, fxy (t, s) = fx(t)fy (s). Más aún, al ser ambas variables uniformemente distribuidas en el soporte [0, 1], fx(t) = fy (s) = 1. Así, se tiene que E(ind) = ∫ 1 0 ∫ 1 0 1{t2 + s2 ≤ 1}dtds = ∫ 1 0 (∫ 1 0 1{t2 + s2 ≤ 1}ds ) dt . La integral interna puede descomponerse como la suma de dos integrales. En la primera, el dominio de integración son los valores de s entre 0 y s(t) ≡ √ 1− t2, región en donde el par (t, s) pertenece al conjunto A(·, ·). En la segunda, el dominio de integración abarca los valores de s entre s(t) y 1, y corresponde a la región fuera del conjunto A(·, ·). De esta manera, la esperanza de ind se simplifica a E(ind) = ∫ 1 0 (∫ s(t) 0 1 · ds + ∫ 1 s(t) 0 · ds ) dt = ∫ 1 0 (∫ s(t) 0 ds ) dt . Finalmente, al resolver la integral interior resultante se consigue el resultado deseado E(ind) = ∫ 1 0 s(t)dt = ∫ 1 0 √ 1− t2dt = π 4 . I.3 Muestreando distribuciones conocidas El método de Integración de Monte Carlo se basa en un resultado asintótico (la Ley Débil de Grandes Números) que emerge cuando R→∞. Por ello, la calidad de las aproximaciones obtenidas con este método dependerá del valor de R elegido. Desafortunadamente, no existen “fórmulas mágicas” o criterios ampliamente aceptados para elegir un valor adecuado del número de repeticiones. Lo único que puede concluirse con certeza es que cuanto más grande R, mejor será la calidad de la aproximación5. 5 Existen varias técnicas de reducción de varianza (variables antitéticas, variables de control, muestreos de importancia, entre otras) que permiten incrementar la precisión de las simulaciones sin necesidad de incrementar R. Estas técnicas no son desarrolladas en este texto, ya que para los problemas que se analizan el uso de “fuerza bruta”, es decir el simple incremento R, es una solución que acarrea un costo computacional razonable. Para mayor detalle sobre estas técnicas, consúltese el capítulo 13 de Davidson y MacKinnon (1993). 8 APUNTES DE ESTUDIO Pero ¿cuán grande debería ser R? Quizá la mejor respuesta es “lo más grande posible”. Ello dependerá de la complejidad del problema bajo estudio y de la rapidez con la que el procesador pueda realizar las simulaciones. Para problemas simples o fáciles de evaluar, valores razonables de R podrían ser algunas decenas de miles, mientras que para problemas más complejos muchas veces nos tenemos que contentar con unos cientos de repeticiones. A lo largo de este texto, se utilizarán valores relativamente elevados de R, con el propópisto de aminorar la influencia de los errores de simulación en nuestras aproximaciones. No obstante, las principales conclusiones cualitativas usualmente pueden obtenerse con un número considerablemente menor de repeticiones, del orden de unos pocos miles. El programa Prog12_MC.prg implementa un ejercicio de Monte Carlo diseñado para ilustrar la sensibilidad de las aproximaciones al valor de R. Este programa genera números aleatorios de un grupo de distribuciones conocidas y ∼ fy (·) cuyos momentos de interés tienen una forma analítica exacta, y compara estos valores con las aproximaciones obtenidas para R = 10i repeticiones, donde i = 2, 3, 4, 5. En particular, el interés se centra en la media de la distribución µ, su varianza σ2 y el valor del percentil 90, Q90. Recuerde que si Fy (·) denota la función de distribución acumulada de y , el α-ésimo percentil es el (mínimo) valor Qα que satisface Fy (Qα) = 1 100 α. No debería sorprender el hecho de que el percentil muestral, calculado tras ordenar ascendentemente los R valores de y en la muestra e identificar aquel valor que se ubica en la R 100 α-ésima posición, converge en probabilidad a Qα conforme R→∞6. El cuadro I.1 presenta los resultados. Las filas etiquetadas con µ corresponden a la media; las etiquetadas con σ2, a la varianza; y las de nombre Q90, al percentil 90. Los valores teóricos de cada una de estas cantidades se muestran en la columna R → ∞. Dependiendo del estadístico de interés y de la distribución de la que provienen los datos, las aproximaciones obtenidas con R = 100 repeticiones pueden resultar razonables, aunque en términos generales los errores de aproximación son notorios, de entre 5 % y 20 %. Asimismo, en todos los casos, se aprecia una mejora sustancial en la precisión de estas aproximaciones al incrementar el número de repeticiones a R = 1, 000. Las aproximaciones son casi indistinguibles de los valores teóricos con R = 10, 000 y, más aún, con R = 100, 000. La estructura del programa Prog12_MC.prg es bastante simple. En un workfile con 105 observaciones, se generan números aleatorios almacenados en la serie y. Luego, se ejecuta un bucle que incrementa el tamaño muestral secuencialmente de manera exponencial: de 102 a 103, a 104 y a 105. Finalmente, para cada tamaño muestral se calculan y almacenan los estadísticos de interés. Explícitamente, 6 Se consigue este resultado al notar que el percentil muestral qα se define como FDEy (qα) = 1 100 α, y por tanto FDEy (qα) = Fy (Qα), donde FDEy (·) es la función de distribución empírica de y . Se sabe que para cualquier A, plimFDEy (A) = Fy (A), por lo que plimFDEy (qα) = Fy (qα). Al utilizar las igualdades resultantes, se concluye que plim qα = Qα. 9 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Cuadro I.1 Aproximación de cantidades poblacionales para distribuciones conocidas R = 102 R = 103 R = 104 R = 105 R→∞ Uniforme U(0, 1) µ 0.546 0.492 0.498 0.500 0.500 σ2 0.088 0.083 0.082 0.083 0.083 Q90 0.914 0.897 0.896 0.901 0.900 4 · EEN 0.114 0.036 0.011 0.004 Normal N(0, 1) µ −0.056 −0.013 0.000 0.001 0.000 σ2 0.858 1.052 1.006 0.998 1.000 Q90 1.012 1.283 1.278 1.282 1.282 4 · EEN 0.444 0.124 0.039 0.012 t de Student t(4) µ −0.312 −0.028 0.007 0.001 0.000 σ2 2.583 2.156 2.015 2.001 2.000 Q90 1.304 1.554 1.529 1.534 1.533 4 · EEN 0.633 0.182 0.056 0.018 Chi cuadrado χ2(3) µ 3.300 3.140 3.033 3.007 3.000 σ2 6.202 6.155 6.090 6.043 6.000 Q90 6.791 6.405 6.239 6.268 6.251 4 · EEN 0.934 0.312 0.096 0.030 Exponencial exp(5) µ 4.749 4.910 4.958 5.001 5.000 σ2 21.818 24.918 24.854 25.043 25.000 Q90 9.941 11.253 11.474 11.547 11.513 4 · EEN 1.922 0.597 0.199 0.062 Beta B(3, 2) µ 0.613 0.602 0.604 0.601 0.600 σ2 0.040 0.039 0.039 0.040 0.040 Q90 0.862 0.862 0.859 0.858 0.857 4 · EEN 0.074 0.024 0.008 0.002 Notas: (Prog12_MC.prg) Las filas etiquetadas con µ corresponden a la media; las etiquetadas con σ2, a la varianza; y las de nombre Q90, al percentil 90. Los valores teóricos de cada una de estas cantidades se muestran en la columna R → ∞. En el caso de las medias y varianzas se tiene lo siguiente: para y ∼ U(a, b), µ = (a + b)/2 y σ2 = (b − a)2/12; para y ∼ N(0, 1), µ = 0 y σ2 = 1; para y ∼ t(ν), µ = 0 y σ2 = ν/(ν − 2); para y ∼ χ2(ν), µ = ν y σ2 = 2ν; para y ∼ exp(a), µ = a y σ2 = a2; y, finalmente, para y ∼ B(a, b), µ = a/(a + b) y σ2 = ab/[(a+b)2(a+b−1)]. En el caso de los percentiles, se utilizan, respectivamente, los siguientes comandos de integración exacta de EViews: @QNORM(0.9), @QTDIST(0.90, !v), @QCHISQ(0.90, !v), @QEXP(0.90, !a) y @QBETA(0.90, !a, !b). Las filas de nombre 4 ·EEN muestran el valor aproximado del ancho del intervalo al 95% de confianza de la media. FOR !i = 2 TO 5 !obs = 10^!i SMPL 1 !obs Cálculo y almacenamiento del promedio, @MEAN(y) Cálculo y almacenamiento de la varianza, @VAR(y) Cálculo y almacenamiento del percentil 90, @QUANTILE(y, 0.90) NEXT !i 10 APUNTES DE ESTUDIO Las distribuciones utilizadas y los comandos que generan los correspondientes números aleatorios son los siguientes (considere que los escalares !a, !b, !mu, !sigma2 y !v han sido definidos previamente en el programa): Uniforme, y ∼ U(a, b), SERIES y = !a + (!b - !a)*RND Normal, y ∼ N(µ, σ2), SERIES y = !mu + @SQRT(!sigma2)*NRND t de Student, y ∼ t(ν), SERIES y = @RTDIST(!v) Chi cuadrado, y ∼ χ2(ν), SERIES y = @RCHISQ(!v) Exponencial, y ∼ exp(a), SERIES y = @REXP(!a) Beta, y ∼ B(a, b), SERIES y = @RBETA(!a,!b) Al revisar los resultados del cuadro I.1, se confirma que para problemas relativamente simples, algunos miles de repeticiones proveen aproximaciones bastante aceptables. No obstante, considerando que la ejecución del programa Prog12_MC.prg tarda tan solo unos segundos en una computadora moderna (que no es particularmente sofisticada), el costo computacional de utilizar algunas decenas de miles repeticiones, y obtener así aproximaciones realmente buenas, no es alto. Otro punto por resaltar de los resultados del cuadro I.1 es una concavidad en la precisión conforme R crece: la mejora de pasar de R = 100 a R = 1, 000 es cualitativamente similar a la mejora de pasar de R = 1, 000 a R = 10, 000 y, a su vez, de pasar de R = 10, 000 a R = 100, 000. Es decir, se consiguen incrementos aproximadamente lineales en precisión ante aumentos exponenciales en el número de repeticiones. La explicación de este fenómeno se relaciona con el hecho de que el promedio muestral ȳ , que es una aproximación de µ, es en sí mismo una variable aleatoria. En estricto, ȳ es un estimador de µ, y al ser aleatorio presenta cierta dispersión. Dado que todas las observaciones en la muestra {y1, y2, . . . , yR} provienen de la misma distribución, comparten los mismos momentos: E(yi) = µ y V(yi) = σ2, para todo i = 1, 2, . . . , R, una consecuencia de que el muestreo sea idéntico. Más aún, dado que el muestreo es también independiente, la covarianza entre cualquier par de observaciones es igual a cero, C(yi , yj) = 0 para i = 1, 2, . . . , R, j = 1, 2, . . . , R e i 6= j . Con ello, E(ȳ) = 1 R E ( R∑ i=1 yi ) = 1 R R∑ i=1 E(yi) = 1 R R∑ i=1 µ = µ , y V(ȳ) = 1 R2 V ( R∑ i=1 yi ) = 1 R2 R∑ i=1 V(yi) + covarianzas = 1 R2 R∑ i=1 σ2 = σ2 R . El promedio es una variable aleatoria centrada en µ y con una desviación estándar igual a σ/ √ R. Al valor EEN = σ̂/ √ R, donde σ̂ es la desviación estándar muestral, se le conoce como error estándar numérico y cuantifica la dispersión de ȳ alrededor de µ. En particular, 11 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO el Teorema del Límite central (que se estudia con detalle en la sección I.6) permite concluir que cuando R es lo suficientemente grande, ȳ se comporta como una variable normalmente distribuida. De este modo, puede construirse un intervalo de confianza para el valor de µ como ȳ±zα ·EEN, donde zα es el α-ésimo percentil de una variable distribuida como normal estándar. Para un intervalo del 95% de confianza, z2.5 ' 1.96. El ancho de este intervalo, 2 · zα · EEN, da una medida precisa de la calidad de ȳ como aproximación de µ. En consecuencia, dado que EEN tiene como numerador √ R, se explica la concavidad en la precisión. Cuando R se ve multiplicado por 10, el ancho de los intervalos de confianza asociados con la incertidumbre de estas aproximaciones se divide entre √ 10 ' 3.16. Este es exactamente el comportamiento reportado en las filas de nombre 4 · EEN en el cuadro I.1, que contienen el resultado de evaluar 4*@STDEV(y)/@SQRT(!obs). Desde la perspectiva del ancho del intervalo de confianza para la media, se confirma que las simulaciones con R = 1, 000 resultan en aproximaciones bastante aceptables, y que las aproximaciones pueden ser excelentes si se dispone de suficiente poder computacional como para utilizar R ≥ 10, 000. I.4 Eficiencia del promedio y la mediana muestrales A continuación, se utiliza el método de Integración de Monte Carlo para estudiar un problema estadístico interesante. En econometría, es común encontrar varios estimadores alternativos, con propiedades distintas, para un mismo parámetro poblacional de interés. Surge, entonces, la necesidad de contar con criterios que permitan al investigador discriminar entre estimadores y, a la larga, preferir un estimador sobre otro. Una aplicación ampliamente documentada, y bastante ilustrativa, sobre esta disyuntiva es la comparación entre el promedio y la mediana muestrales como estimadores de un parámetro de locación µ. En adelante, considere una variable aleatoria y cuya función de densidad fy (·) es simétrica, por lo que el parámetro de locación µ es igual tanto a la media como a la mediana poblacional. Considere una muestra de tamaño T con observaciones {y1, y2, . . . , yT } extraídas aleatoriamente de fy (·). Además, sea ȳ el promedio muestral y sea ỹ la mediana muestral de y , calculados con esta muestra (mantenemos la dependencia de T de estos estadísticos implícita para aliviar la notación). La eficiencia relativa del promedio respecto a la mediana se define como ER(ȳ , ỹ) = V(ȳ) V(ỹ) . En palabras, ER es simplemente la razón de varianzas de los dos estimadores alternativos7. 7 Un criterio de comparación más amplio es la razón de errores cuadráticos medios, E((ȳ − µ)2)/E((ỹ − µ)2). Cuando los estimadores de µ en cuestión son insesgados, lo que de hecho ocurre con el promedio y la mediana muestrales de datos provenientes de distribuciones simétricas E(ȳ) = E(ỹ) = µ, se tiene que E((ȳ−µ)2) = V(ȳ) y E((ỹ − µ)2) = V(ỹ), por lo que la razón de errores cuadráticos medios equivale al criterio ER. 12 APUNTES DE ESTUDIO Al involucrar varianzas, el criterio ER alude a la precisión con la que los estimadores aproximan a µ en una muestra. La interpretación más directa del criterio es la siguiente: se necesita una muestra de T × ER(ȳ , ỹ) observaciones para que la varianza de la media sea igual a la varianza de la mediana calculada en una muestra de T observaciones. De esta forma, si ER(ȳ , ỹ) > 1, entonces se favorece a la mediana ỹ como un estimador de µ con mejores propiedades; mientras que si ER(ȳ , ỹ) < 1, entonces la media ȳ es el estimador dominante. Como se discutió en la sección anterior, para un muestreo aleatorio e idéntico (todas las observaciones en la muestra provienen de la misma distribución), donde V(y) = σ2 es la varianza de la observación típica en la muestra, V(ȳ) = σ2 T . Si bien es cierto que no se cuenta con un resultado exacto para la mediana, cuando T es relativamente grande se tiene que V(ỹ) ' 1 4T fy (µ)2 , donde fy (µ) es el valor de la función de densidad de y evaluada en la mediana µ (típicamente, es el máximo valor de la función de densidad). Con ello, ER(ȳ , ỹ) ' 4σ2fy (µ)2 . En el caso de una distribución normal con parámetro de locación (media) µ y varianza σ2, se tiene como función de densidad a fy (y) = 1√ 2πσ exp { −1 2 ( y − µ σ )2 } , por lo que fy (µ)2 = (2πσ2)−1 y, finalmente, ER(ȳ , ỹ) = 2/π ' 0.64 < 1: la media es un estimador de µ más eficiente que la mediana. La mediana requiere de 100 observaciones para alcanzar el nivel de precisión que la media consigue con 64 observaciones. Se sabe que la mediana es un estimador de locación robusto, insensible a observaciones extremas o outliers. Para datos normalmente distribuidos, las observaciones extremas son lo suficientemente infrecuentes como para que la pérdida en eficiencia (la mayor varianza de la mediana relativa al promedio) resulte ser un precio muy alto que pagar por una mayor robustez. No obstante, la mediana podría ser el estimador dominante en un contexto de observaciones extremas más frecuentes. Investigamos esta posiblidad a través del estudio de Monte Carlo disponible en el programa Prog13_Eficiencia.prg. Acá, se muestrean datos provenientes de distribuciones t de Student con ν grados de libertad. Esta distribución es sumamente conveniente, ya que, 13 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Gráfico I.2 Colas anchas y eficiencia relativa del promedio y la mediana (a) Distribuciones Cauchy y normal (b) Eficiencia relativa promedio/mediana −4 −2 0 2 4 0.0 0.1 0.2 0.3 0.4 Cauchy Normal 2 4 6 8 10 12 14 16 18 20 0.6 0.8 1.0 1.2 1.4 1.6 2/π Notas: (Prog13_Eficiencia.prg) El panel (a) ilustra que la distribución Cauchy (o, en términos más generales, distribuciones t de Student con pocos grados de libertad) presenta colas mucho más anchas que la distribución normal y, por tanto, una mayor probabilidad de ocurrencia de valores extremos. El panel (b) muestra el valor simulado de ER(ȳ , ŷ), en el eje vertical, como función del número de grados de libertad ν, en el eje horizontal. además de ser simétrica, permite calibrar la ocurrencia de eventos extremos únicamente con el parámetro ν. Cuando ν es grande, el comportamiento de la distribución t de Student es muy parecido al de una distribución normal estándar (de hecho, cuando ν → ∞ ambas distribuciones coinciden). Por el contrario, cuando ν es pequeño, la distribución t de Student presenta colas anchas, asignando así una mayor probabilidad a la ocurrencia de valores extremos. El caso límite ocurre con ν = 1, que es cuando la distribución t de Student pasa a ser una distribución Cauchy. Esta distribución es famosa en estadística porque ninguno de sus momentos (media, varianza, asimetría o curtosis) está bien definido. El gráfico I.2(a) compara las densidades de una distribución Cauchy y una distribución normal estándar, y se aprecia que la primera presenta colas considerablemente más anchas que la segunda. Cuando ν > 1, la media de la distribución t de Student se encuentra bien definida, y es igual a cero, mientras que cuando ν > 2, también lo está su varianza, que es igual a ν/(ν − 2). En el programa, dado el número de grados de libertad !v, se muestrean números aleatorios de una distribución t de Student con el comando SERIES y = @RTDIST(!v) , que se ejecuta para un tamaño muestral de !T observaciones, aplicando antes la instrucción SMPL 1 !T. En la iteración !i, tras el muestreo, se almacenan los estimadores 14 APUNTES DE ESTUDIO promedio(!i) = @MEAN(y) mediana(!i) = @MEDIAN(y) , donde las series (o vectores) promedio y mediana, previamente definidas, contienen !R observaciones. Al término de las !R repeticiones, se almacenan los criterios de eficiencia relativa en un vector de nombre ER, ER(!v) = @VAR(promedio)/@VAR(mediana) . Este procedimiento se repite para varios valores de !v. El gráfico I.2(b) presenta los resultados de simulaciones con T = 100 observaciones y R = 100, 000 repeticiones. En particular, se grafica la aproximación de Monte Carlo de ER(ȳ , ỹ) como función de ν. Dado el gran número de repeticiones empleado en las simulaciones, se espera que el error de simulación en el cálculo de estos criterios sea realmente reducido. Se confirma que la mediana es un estimador más eficiente que la media para muestreos con valores extremos recurrentes. En particular, se aprecia que ER > 1 para ν ≤ 4. Para ν = 1, la eficiencia relativa es infinitamente más favorable para la mediana, lo que se refleja en valores simulados de ER realmente elevados (recuerde que en este caso la media de la distribución no existe), mientras que para ν = 2 se tiene que ER ' 8.34 y para ν = 3, ER ' 1.62. Cuando ν = 5, la eficiencia de ambos estimadores es comparable, ya que ER ' 0.97. Asimismo, se aprecia cómo ER→ 2/π < 1 conforme ν se incrementa. I.5 Inferencia en modelos de regresión Considere el siguiente modelo de regresión lineal, yt = α+ βxt + εt , para t = 1, 2, . . . , T . Suponemos que los T valores {x1, x2, . . . , xT } se mantienen fijos a lo largo de muestreos repetidos, mientras que εt es una variable aleatoria idéntica e independientemente distribuida, de media cero y varianza σ2. Estos supuestos se imponen por simplicidad, para facilitar el álgebra que sigue. Cabe mencionar que se llegaría a resultados similares si se permitiese que xt sea aleatorio, pero independiente de εt . El interés se centra en estimar e inferir sobre el parámetro β. Disponemos de tres alternativas. En primer lugar, de acuerdo con lo indicado por este proceso generador de datos, se estiman los parámetros α y β directamente por mínimos cuadrados ordinarios (MCO), al regresar yt sobre una constante y xt . En este caso, el estimador de β es igual a bMCO = ∑T t=1(xt − x̄)(yt − ȳ)∑T t=1(xt − x̄)2 , 15 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO donde x̄ e ȳ son los promedios muestrales de xt e yt , respectivamente. Al reemplazar la definición de yt en la expresión de bMCO se consigue que bMCO = β + ∑T t=1(xt − x̄)εt∑T t=1(xt − x̄)2 , expresando así al estimador bMCO en función del parámetro desconocido β y del término de error no observable εt . El segundo término es una variable aleatoria (la razón de los promedios de (xt− x̄)εt y de (xt− x̄)2) cuyas propiedades se transmiten al estimador MCO. La esperanza de este segundo término, dado el supuesto de que xt no es aleatorio, es cero (la esperanza de cada uno de los εt), mientras que su varianza es una suma de varianzas (las covarianzas son cero, dado el supuesto de independiencia en εt). Así, E(bMCO) = β y V(bMCO) = σ2∑T t=1(xt − x̄)2 . El estimador MCO es insesgado, ya que su esperanza coincide con el parámetro sobre el que el estimador busca inferir. Por su parte, la estimación MCO ostenta una interesante propiedad de optimalidad (el conocido Teorema de Gauss-Markov): es el estimador que presenta menor varianza, dentro de todos los posibles estimadores lineales e insesgados. La segunda alternativa es un estimador restringido. Suponga que en lugar de estimar el coeficiente α, se impone la restricción α = 0 y se procede a estimar β. Ahora, se regresa yt directamente sobre xt , por lo que el estimador de mínimos cuadrados restringidos (MCR) de β es igual a bMCR = ∑T t=1 xtyt∑T t=1 x 2 t . Al reemplazar la definición de yt en la expresión de bMCR se consigue que bMCR = β + α ( T x̄∑T t=1 x 2 t ) + ∑T t=1 xtεt∑T t=1 x 2 t , expresando así al estimador bMCR en función de los parámetros desconocidos α y β y del término de error no observable εt . El tercer término es una variable aleatoria (la razón de los promedios de xtεt y de x2 t ) cuyas propiedades se transmiten al estimador MCR. La esperanza de este tercer término, dado el supuesto de que xt no es aleatorio, es cero (la esperanza de cada uno de los εt), mientras que su varianza es una suma de varianzas (las covarianzas son cero, dado el supuesto de independiencia en εt). Por su parte, el segundo término (que involucra a α) no es aleatorio y, por tanto, no contribuye a la variabilidad del estimador. Así, E(bMCR) = β + α ( T x̄∑T t=1 x 2 t ) y V(bMCR) = σ2∑T t=1 x 2 t . 16 APUNTES DE ESTUDIO A menos que α = 0, el estimador MCR es sesgado, ya que su esperanza difiere del parámetro sobre el que el estimador busca inferir. Recuerde que este estimador puede entenderse como MCO aplicado a un modelo que ha impuesto la restricción α = 0. Si esta es falsa, entonces emerge un sesgo en la estimación. Asimismo, imponer una restricción, al margen de si es verdadera o falsa, reduce la variabilidad del estimador. Es simple verificar que V(bMCR) < V(bMCO), a menos que x̄ = 0, en cuyo caso se tiene una igualdad. Es importante mencionar que este resultado no contradice al Teorema de Gauss-Markov, que establece un ordenamiento inequívoco entre estimados insesgados, ya que el estimador MCR es sesgado. La comparación entre los estimadores MCO y MCR en este sencillo marco analítico, refleja resultados sumamente generales sobre el efecto que omitir variables relevantes o incluir variables redundantes ocasiona sobre la estimación de parámetros. Si α 6= 0, entonces el intercepto es un regresor relevante, ya que aparece en el proceso generador de datos. Al excluirlo, emerge un sesgo a menos que x̄ = 0, que es la “correlación” entre el regresor omitido y el incluido. La exclusión reduce la varianza, ya que se estima una menor cantidad de coeficientes. Por otro lado, si α = 0, entonces el intercepto no forma parte del proceso generador de datos, y el estimador que impone α = 0 es el estimador MCO sobre una regresión correctamente especificada. El Teorema de Gauss-Markov indica que este sería el mejor estimador (lineal) disponible. Y, de hecho, se tiene que el estimador que incluye un intercepto (redundante, en esta ocasión), si bien sigue siendo insesgado, presenta una mayor varianza (salvo que x̄ = 0). En casos generales, es posible que el estimador MCR sesgado sea preferible al estimador MCO insesgado, ya que su menor varianza podría más que compensar la presencia del sesgo. Se trata, pues, de una comparación de errores cuadráticos medios (ECM). El ECM es una distancia estadística muy aceptada como criterio de comparación de estimadores con distintas propiedades. Un estimador es mejor en esta comparación, si es que produce el menor ECM. Es simple mostrar que el ECM de un estimador es la suma de su varianza más el cuadrado de su sesgo. Así, ECM(bMCO) = E((bMCO − β)2) = σ2∑T t=1(xt − x̄)2 y ECM(bMCR) = E((bMCR − β)2) = α2 ( T x̄∑T t=1 x 2 t )2 + σ2∑T t=1 x 2 t . Cuál estimador es preferible depende, entre otras cosas, de cómo se compara α2 con σ2. Si α2 es pequeño en comparación con σ2, entonces el sesgo del estimador MCR será pequeño y la reducción en su varianza lo hará preferible a MCO. Por el contrario, si α2 es grande, el sesgo del estimador MCR será el que más contribuya a su ECM, haciendo que MCO sea un estimador con mejores propiedades. Se preferirá el estimador MCR si 17 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO ECM(bMCO) > ECM(bMCR), lo que implica en concreto que α2 < σ2 ( ∑T t=1 x 2 t T ∑T t=1(xt − x̄)2 ) . Dado que ninguno de estos estimadores es siempre dominante, posiblemente en la práctica el investigador siga el siguiente procedimiento que busca determinar la importancia de α. Primero, se estima la regresión MCO, sin restricciones. Luego se pregunta si tiene suficiente evidencia para concluir (o no desmentir) que α = 0. Formalmente, se estudia la hipótesis nula H0 : α = 0. Usualmente, se calcula el estadístico t asociado con esta hipótesis, que denotamos como τα, y se le compara contra un valor crítico τcrit proveniente de la distribución tT−2 (donde se pierden 2 grados de libertad por haber estimado α y β). Puesto de modo más simple, se determina si el estimador de α es estadísticamente distinto de cero o no. Si lo es, lo que ocurre si | τα | ≥ τcrit, entonces se concluye que el intercepto es un regresor importante y se decide incluirlo en la regresión. Se opta, pues, por el estimador MCO de β. En cambio, si resulta que | τα | < τcrit, podría concluirse que el intercepto no es un regresor importante, lo que llevaría a optar por el estimador MCR de β. Es bueno mencionar que el resultado de este procedimiento no es ni el estimador MCO ni el estimador MCR. Es un estimador híbrido definido como bPT = { bMCO, si | τα | > τcrit bMCR, si | τα | ≤ τcrit o, más compactamente, bPT = 1{| τα | > τcrit} · bMCO + 1{| τα | ≤ τcrit} · bMCR . El estimador bPT, que es probablemente el que sea utilizado en la práctica, es conocido como el estimador pre-testing (PT) de β. Sus propiedades, a diferencia de los estimadores MCO y MCR, no son fáciles de derivar porque se trata, en estricto, de un estimador no lineal. El resultado de la prueba | τα | > τcrit depende de las propiedades de εt y, por tanto, se encuentra correlacionado con bMCO y bMCR. Describir esta correlación es algo engorroso, pero un ejercicio de simulación permite explorar estas propiedades fácilmente. El programa Prog14_PreTesting genera un workfile de !R observaciones sobre el que se ejecutarán estimaciones con un tamaño muestral predefinido de !T observaciones para varios valores de α (!alpha). Las !T observaciones del regresor xt se generan por única vez a inicios del programa (respondiendo al supuesto de que este regresor no es aleatorio). Luego, se calculan las siguientes cantidades: !sumx2 = @SUMSQ(x) !sumxx2 = @SUMSQ(x - @MEAN(x)) !sigma2 = !T*!sumxx2/!sumx2 !sigma = @SQRT(!sigma2) . 18 APUNTES DE ESTUDIO El escalar !sumx2 contiene a ∑ t x 2 t y el escalar !sumxx2 contiene a ∑ t(xt − x̄)2. Note que la varianza del error σ2, contenida en el escalar !sigma2, es calibrada de tal manera que cuando α2 = 1, entonces los ECM de los estimadores MCO y MCR son idénticos. Cuando α2 < 1, luego, el ECM del estimador MCR es el menor. El programa realiza varias estimaciones, con diversos valores de α. Este parámetro tomará !nalpha valores equidistantes en el intervalo [!alphamin, !alphamax]. El cuerpo del programa contiene los siguientes dos bucles: FOR !ialpha = 1 TO !nalpha !alpha = f (!alphamin, !alphamax, !ialpha, !nalpha) SMPL @ALL SERIES bMCO = NA SERIES bMCR = NA SERIES bMPT = NA SERIES rechazo = 0 FOR !i = 1 TO !R SMPL 1 !T SERIES y = !alpha + !beta*x + !sigma*NRND EQUATION MCO.LS y x C bMCO(!i) = MCO.C(1) !tstatC = MCO.@TSTATS(2) EQUATION MCR.LS y x bMCR(!i) = MCR.C(1) IF @ABS(!tstatC) > !tcrit THEN bPT(!i) = MCO.C(1) rechazo(!i) = 1 ELSE bPT(!i) = MCR.C(1) ENDIF NEXT !i Almacenamiento de resultados NEXT !ialpha En primer lugar, se tiene un bucle asociado con el contador !ialpha que determina el valor de !alpha. Cada vez que se inicia este bucle se generan series de nombre bMCO, bMCR y bPT, que contendrán las !R realizaciones de los estimadores bajo estudio. Asimismo, se genera una serie de nombre rechazo (inicialmente llena de ceros) que registrará el evento | τα | > τcrit, es decir el rechazo de H0 : α = 0. Luego, se tiene el bucle, de !R repeticiones que varían con el contador !i, que implementa la Integración de Monte Carlo. Primero, se generan los datos con el 19 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO comando SERIES y = !alpha + !beta*x + !sigma*NRND bajo una muestra activa de !T observaciones, SMPL 1 !T. El verdadero valor de β (que no es muy relevante) se almacena en el escalar !beta. Asimismo, se asume normalidad: εt ∼ N(0, σ2). Una vez generados los datos (note que x no varía con !i), se calcula el estimador MCO en la ecuación EQUATION MCO.LS y x C, se almacena bMCO con el comando bMCO(!i) = MCO.C(1), y se recupera, además, el ratio τα de significación del intercepto estimado, !tstatC = MCO.@TSTATS(2). Análogamente, se ejecuta la estimación restringida EQUATION MCR.LS y x y se almacena bMCR con el comando bMCR(!i) = MCR.C(1). Finalmente, se procede a calcular el estimador PT. Si τα es mayor que τcrit, previamente almacenado en el escalar !tcrit = @QTDIST(0.975, !T - 2), entonces el estimador PT es igual al estimador MCO, bPT(!i) = MCO.C(1), de otro modo es igual al estimador MCR, bPT(!i) = MCR.C(1). Note que ante el rechazo, se asigna el valor de 1 a la serie rechazo. Al término de las !R repeticiones, las series bMCO, bMCR, bPT y rechazo se encuentran llenas de valores, listas para ser analizadas. Llegó el momento de almacenar los resultados. Para ello, previamente se han definido las matrices Rsesgo, Rvar y Recm, cada una con !nalpha filas y 6 columnas. La primera columna contiene los valores de α; la segunda columna, el resultado (sesgo, varianza o ECM) obtenido mediante simulación del estimador MCO; la tercera, el resultado analítico del estimador MCO; la cuarta, el resultado obtenido mediante simulación del estimador MCR; la quinta, el resultado analítico del estimador MCR; y, finalmente, la sexta columna contendrá el resultado simulado del estimador PT. Los resultados de la Integración de Monte Carlo son, luego: SMPL @ALL Rsesgo(!ialpha, 1) = !alpha Rsesgo(!ialpha, 2) = @MEAN(bMCO - !beta) Rsesgo(!ialpha, 4) = @MEAN(bMCR - !beta) Rsesgo(!ialpha, 6) = @MEAN(bPT - !beta) Rvar(!ialpha, 1) = !alpha Rvar(!ialpha, 2) = @VAR(bMCO - !beta) Rvar(!ialpha, 4) = @VAR(bMCR - !beta) Rvar(!ialpha, 6) = @VAR(bPT - !beta) Recm(!ialpha, 1) = !alpha Recm(!ialpha, 2) = @SUMSQ(bMCO - !beta)/!R Recm(!ialpha, 4) = @SUMSQ(bMCR - !beta)/!R Recm(!ialpha, 6) = @SUMSQ(bPT - !beta)/!R . Por brevedad, no se presenta el registro de los resultados analíticos (columnas 3 y 5), pero puede ser consultado en el programa mismo. Note que las esperanzas son reemplazadas por promedios a lo largo de repeticiones, siguiendo los principios del método de Monte Carlo. Finalmente, también se ha definido un vector de nombre PrMCO con !nalpha filas y 2 columnas. La primera columna contiene los valores de α y la segunda, la probabilidad 20 APUNTES DE ESTUDIO de que la prueba t del estimador de α rechace H0 : α = 0, que es convenientemente aproximada mediante una frecuencia relativa: PrMCO(!ialpha, 1) = !alpha PrMCO(!ialpha, 2) = @MEAN(rechazo) . Al término del programa, los comandos PrMCO.XY, Rsesgo.XY, Rvar.XY y Recm.XY producen gráficos de líneas con los valores de la primera columna sobre el eje horizontal, y los valores correspondientes del resto de columnas sobre el eje vertical. El gráfico I.3 presenta estos resultados, utilizando !nalpha = 25, !alphamin = 0, !alphamax = 3 (recuerde que, por construcción, !alpha = 1 es un punto donde el ECM de los estimadores MCO y MCR es el mismo) y R = 100, 000 repeticiones. Se confirman varias conclusiones analíticas. Primero, en el panel (b) se aprecia que MCO es un estimador insesgado, mientras que el sesgo del estimador MCR crece linealmente con α. Segundo, en el panel (c) se observa que la varianza del estimador MCR es siempre menor que la del estimador MCO, y ninguna de ellas depende de α. Finalmente, en el panel (d) se aprecia que toda vez que α < 1, el ECM del estimador MCR será menor que el de MCO; de otro modo (α > 1), MCO será el estimador que ostente el menor ECM. El panel (a) del gráfico I.3 muestra la probabilidad de | τα | > τcrit como función de α. Como era de esperarse, es cada vez más probable que la estimación MCO de α arroje un coeficiente estadísticamente significativo, cuanto mayor sea el verdadero valor de α. En el límite, conforme α → ∞, Pr(| τα | > τcrit) → 1. Esta probabilidad afecta las propiedades del estimador PT. Note, en particular, que en el límite descrito, bPT → bMCO. No obstante, para valores finitos de α el estimador PT presenta propiedades muy distintas a MCO. En el panel (b) se aprecia que, toda vez que α 6= 0, el estimador PT es sesgado. La razón es que siempre existe una probabilidad positiva de que bPT = bMCR. El sesgo es menor que el del estimador MCR, pero mayor que el de MCO. Llama la atención, no obstante, el comportamiento de la varianza del estimador PT, mostrada en el panel (c). En la región donde MCR domina (α < 1), PT es más variable que MCR, ya que incorpora la fuente de incertidumbre adicional de determinar si | τα | > τcrit o no. Del mismo modo, cuando MCO es dominante (α > 1), PT es más variable que MCO, por el mismo motivo. Se tiene, como resumen, el siguiente resultado mostrado en el panel (d): existe una región donde MCR es el estimador dominante (α < 1, donde el sesgo es reducido) y una región donde MCO es preferible (α > 1, donde el sesgo es considerable), pero en ningún caso el estimador PT domina. Nuevamente, este resultado es el reflejo de las distorsiones que el determinar si | τα | > τcrit, una prueba sujeta a error muestral, genera sobre las propiedades del estimador PT (sobre todo por el lado de la varianza). El gráfico I.4 muestra, para varios valores de α, las distribuciones muestrales de los tres estimadores estudiados. Estas distribuciones (que son del tipo kernel automáticas) 21 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Gráfico I.3 Desempeño de los estimadores MCO, MCR y PT (a) Pr(| τα | > τcrit) (b) Sesgo 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.3 0.6 0.9 1.2 1.5 1.8 MCO MCR PT (c) Varianza (d) Error cuadrático medio 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.5 1.0 1.5 2.0 2.5 3.0 MCO MCR PT 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 MCO MCR PT Notas: (Prog14_PreTesting.prg) El panel (a) muestra, en el eje vertical, el promedio de 1{| τα | > τcrit} a lo largo de R = 100, 000 repeticiones y para 25 valores de α, en el eje horizontal. Los paneles (b), (c) y (d) muestran aproximaciones de E(b − β), V(b) y E((b − β)2), respectivamente. se generan con el comando g.DISTPLOT(S) KERNEL, donde g es un grupo que contiene las series simuladas: GROUP g bMCO bMCR bPT. Dado que εt ∼ N(0, σ2) en las simulaciones, es simple verificar que las distribuciones muestrales de bMCO y de bMCR son también normales. La primera es centrada en β, y la segunda es menos variable y centrada en β + α. Luego, la distribución de bPT será una mixtura de normales, cuyas propiedades dependerán de α, en estricto de Pr(| τα | > τcrit). Es interesante notar cómo la distribución de bPT pasa de ser muy cercana a la de bMCR, a parecerse a la de bMCO conforme α se incrementa. En el proceso es usual que bPT presente una distribución bimodal. Se aprecia, además, cómo cuando α < 1 la distribución de bPT es más variable que la de bMCR, mientras que es más variable que la de bMCO cuando α > 1. 22 APUNTES DE ESTUDIO Gráfico I.4 Distribuciones muestrales de los estimadores MCO, MCR y PT (a) α = 0.5, Pr(| τα | > τcrit) = 0.08 (b) α = 1.0, Pr(| τα | > τcrit) = 0.16 −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT (c) α = 1.5, Pr(| τα | > τcrit) = 0.30 (d) α = 2.0, Pr(| τα | > τcrit) = 0.47 −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT (e) α = 2.5, Pr(| τα | > τcrit) = 0.66 (f) α = 3.0, Pr(| τα | > τcrit) = 0.81 −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT −5 −4 −3 −2 −1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 MCO MCR PT Notas: (Prog14_PreTesting.prg) Densidades kernel (automáticas) para R = 100, 000 repeticiones. 23 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO I.6 Leyes asintóticas importantes Como se ha visto, obtener resultados analíticos en muestras finitas sobre las propiedades de estadísticos y estimadores de interés puede ser sumamente engorroso o podría requerir de supuestos muy restrictivos. La teoría asintótica provee un marco de análisis en donde se estudian estas propiedades a medida que el tamaño muestral va creciendo indefinidamente, T → ∞. Este límite “elimina” la aleatoriedad observada en la muestra (digamos, la variabilidad muestral) y provee aproximaciones del comportamiento de los estadísticos en muestras grandes. Considere una muestra de tamaño T con observaciones {y1, y2, . . . , yT } extraídas aleatoriamente de una misma función de distribución fy (·). Es decir, el muestreo es idéntico e independiente. Presentamos dos resultados asintóticos sobre el comportamiento del promedio muestral ȳ bajo estas condiciones, y que son válidos para cualquier función de distribución fy (·). Estos son resultados de primera importancia para el análisis econométrico porque los estimadores econométricos de interés pueden expresarse como funciones de promedios muestrales, y porque permiten al investigador prescindir de supuestos sobre las características de fy (·). En la práctica, se compensa la falta de conocimiento (o de interés) sobre esta función de distribución con una mayor cantidad de datos en la muestra. El primer resultado es el Teorema de Khinchine, presentado previamente como el principio fundamental detrás del método de Integración de Monte Carlo: el promedio muestral converge en probabilidad a la esperanza de la observación típica de la muestra, ȳ = 1 T T∑ i=1 yi p−→ µ conforme T →∞ , donde E(y) = µ. El segundo resultado es el Teorema del Límite Central, cuya versión más estilizada se conoce como el Teorema de Lindeberg-Lévy. Para motivar el resultado de este teorema, suponga inicialmente que fy (·) es una distribución normal: yi ∼ N(µ, σ2) para todo i = 1, 2, . . . , T . Con ello, la distribución muestral del promedio ȳ es igual a ȳ ∼ N ( µ, σ2 T ) o, alternativamente, √ T (ȳ − µ) ∼ N(0, σ2) . Este es un resultado exacto que se cumple para cualquier tamaño muestral. El Teorema del Límite Central provee un resultado similar asintóticamente. Nuevamente, considere que fy (·) es arbitraria. El único requerimiento es que E(y) = µ y V(y) = σ2 sean cantidades finitas. Luego, √ T (ȳ − µ) d−→ N(0, σ2) conforme T →∞ . 24 APUNTES DE ESTUDIO Es decir que en muestras grandes los promedios muestrales tienden a comportarse como variables normalmente distribuidas sin importar cuál es la distribución de la que provienen los datos. La utilidad práctica de este postulado es que los ejercicios de inferencia, por ejemplo la construcción de intervalos de confianza para µ, pueden ser basados en la normalidad de ȳ . Es importante enfatizar que la normalidad de ȳ en muestras grandes es un resultado, no un supuesto. El programa Prog15_LeyesAsintoticas.prg implementa una serie de experimentos de Monte Carlo con el propósito de ilustrar el funcionamiento de estas leyes asintóticas. Partiendo de u ∼ N(0, 1), se generan variables aleatorias de la forma y = ua − E(ua)√ E(u2a)− E(ua)2 , donde a es un número entero. Note que y es una variable estandarizada, de modo que para cualquier valor de a, E(y) = 0 y V(y) = 1. Conforme a se incrementa, la distribución de y se vuelve cada vez más asimétrica, con una cola larga hacia la derecha. El caso de a = 1 corresponde a y ∼ N(0, 1) y, por tanto, a puede interpretarse como una medida de desvío de la normalidad. Asimismo, se dispone de resultados analíticos para a = 1: ȳ ∼ N(0, 1/T ) y √ T ȳ ∼ N(0, 1). Las medias y varianzas muestrales serán las mismas para a 6= 1, pero las distribuciones muestrales variarán con T . Para un valor de a se generan T números aleatorios y y se calcula su promedio ȳ y√ T ȳ . Este procedimiento se repite un gran número de veces (R = 100, 000) y se reporta la distribución muestral de estos estadísticos. Dado el gran número de repeticiones en la simulación, esta distribución simulada será prácticamente idéntica a la distribución muestral analítica (desconocida). El panel (a) del gráfico I.5 muestra cómo opera la Ley de Grandes Números. Conforme T se incrementa, la distribución muestral de ȳ va concentrando cada vez más masa probabilística alrededor de E(y) = 0. Ello refleja que muestrear cada vez más observaciones de y , provenientes de la misma distribución, provee información creciente para caracterizar tal variable aleatoria. En particular, dado que V(ȳ) = 1/T , cuando T se incrementa, la dispersión de distintas realizaciones de ȳ alrededor de E(ȳ) = 0 se amortigua. En el límite, conforme T → ∞, V(ȳ) irá convergiendo a cero, por lo que ȳ dejará de ser aleatorio. Gráficamente, la distribución muestral de ȳ colapsa a una masa de probabilidad igual a 1, ubicada en E(ȳ) = E(y), tal y como predice la Ley Débil de Grandes Números. El panel (b) muestra la distribución muestral de √ T ȳ para a = 4 (la distribución de y es bastante asimétrica) y para distintos valores de T . Note que a diferencia de lo ocurrido con la distribución de ȳ , estas distribuciones muestrales no colapsan conforme T →∞. La razón es simple. La multiplicación de ȳ por √ T estabiliza la varianza del promedio y evita que esta converja a cero. En concreto, para todo T se tiene que V( √ T ȳ) = T V(ȳ) = 1. Tras estabilizar la varianza y mantener la media, que en todo caso es cero, √ T ȳ = √ T (ȳ−E(ȳ)), se aprecia que mayores valores de T van redituando distribuciones cada vez más cercanas a la 25 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO Gráfico I.5 Ley de Grandes Números y Teorema del Límite Central (a) Distribución muestral de ȳ (a = 4) (b) Distribución muestral de √ T ȳ (a = 4) −0.4 −0.2 0 0.2 0.4 0.0 1.0 2.0 3.0 4.0 5.0 6.0 T = 25 T = 50 T = 100 T = 200 −2 −1 0 1 2 0 0.2 0.4 0.6 T = 25 T = 50 T = 100 T = 200 (c) Distribución muestral de √ T ȳ (T = 25) (d) Distribución muestral de √ T ȳ (T = 100) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 a = 6 a = 4 a = 2 a = 1 −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 a = 6 a = 4 a = 2 a = 1 Notas: (Prog15_LeyesAsintoticas.prg) Se muestran densidades kernel (automáticas) de ȳ y √ T ȳ para un total R = 100, 000 repeticiones. normal estándar. En particular, se observa cómo a medida que T se incrementa, la asimetría en las distribuciones muestrales va reduciéndose y sus modas van aproximándose a E(y) = 0. Este es el principal postulado del Teorema del Límite Central. Es importante enfatizar que mientras que la Ley Débil de Grandes Números alude a un límite probabilístico (una esperanza), el Teorema del Límite Central describe el comportamiento de la distribución límite de una variable (que no deja de ser) aleatoria (convergencia en distribución). Los paneles (c) y (d) permiten reflexionar sobre el alcance del Teorema del Límite Central y, en particular, sobre la idoneidad del uso de la distribución normal como aproximación de la distribución muestral. En ambos paneles, los casos donde a = 1 corresponden a la distribución normal estándar predicha por el Teorema del Límite Central. En el panel (c) 26 APUNTES DE ESTUDIO se aprecia que para tamaños muestrales reducidos (T = 25 en este caso), no hay garantía de que las aproximaciones asintóticas sean satisfactorias. Esto es particularmente cierto cuando la distribución de y es lejana a la normal (a = 4 y a = 6), características que se transmiten a las distribuciones muestrales del estadístico de interés (el promedio). Por su parte, el panel (d) muestra cómo un mayor tamaño muestral (en este caso se pasa de T = 25 a T = 100) aminora los efectos de la no-normalidad y da respaldo empírico al Teorema del Límite Central. En resumen, cuando el tamaño de la muestra es lo suficientemente grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal (por ejemplo, no son muy asimétricas), las aproximaciones asintóticas proveen un marco de inferencia adecuado. Cuán grande debe ser T depende de las características poblacionales de y y es, por tanto, una pregunta abierta. Por ejemplo, para a ≤ 2, T = 25 parece ser razonable, mientras que T = 100 provee aproximaciones aceptables para a ≤ 4. El programa Prog15_LeyesAsintoticas.prg contiene elementos de programación para la implementación de experimentos de Monte Carlo complejos que serán utilizados en varias de las simulaciones presentadas a lo largo de este texto. En particular, se obtienen resultados para valores cambiantes de T y de a. Partiendo del supuesto de que R > T , se opera sobre un workfile de tamaño !R, previamente definido por el usuario. Antes de iniciar los muestreos y de calcular los estadísticos muestrales correspondientes, se definen los vectores Tvals y Avals, de dimensión !nTvals y !nAvals, respectivamente, que contienen estos valores cambiantes. En el programa, estos vectores son llenados con la sintaxis Avals.FILL 1, 2, 4, 6 pero pueden ser llenados “a mano” (por ejemplo, Avals(3) = 4) sin ninguna pérdida de generalidad. Por su parte, también previamente al muestreo, se definen varias series para almacenar los resultados de las simulaciones para cada repetición. En series de nombre DM{!a}_{!T} se almacenan los R promedios muestrales ȳ para distintas combinaciones de a y T (de ahí la dependencia de la serie de los escalares !a y !T), mientras que las series de nombre DA{!a}_{!T} almacenan √ T ȳ . Las distribuciones muestrales presentadas en el gráfico I.5(a) son histogramas (en estricto, densidades kernel) de DM{!a}_{!T}, mientras que las distribuciones (asintóticas) en el resto de paneles del gráfico I.5 provienen de DA{!a}_{!T}. El cuerpo del programa contiene tres bucles: el primero para las repeticiones (!i que va hasta !R), el segundo para los diversos valores de a (!ia que va hasta !nAvals) y el tercero para los distintos valores de T (!it que va hasta !nTvals). Para cada repetición !i, se genera una serie u de números aleatorios provenientes de una distribución normal estándar. Esta serie contiene !Tmax observaciones, donde este escalar es definido previamente como el máximo valor del vector de tamaños muestrales Tvals. Luego, utilizando estas mismas realizaciones de u se calcula la serie y, también de tamaño !Tmax, que depende de !a, que 27 CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO a su vez varía con el contador !ia. Vale la pena mencionar que en la generación de y se utilizan escalares temporales de la forma !Eu{!a} y !Eu{!a2} que han sido previamente definidos a partir de las propiedades (conocidas) de la distribución normal estándar8. Luego, se restringen los tamaños muestrales a SMPL 1 !T, donde !T varía con el contador !it. Así, dados un valor !a y una muestra de tamaño !T, se procede a calcular el promedio muestral !ybar y a almacenar los resultados en las series DM{!a}_{!T} y DA{!a}_{!T}. El proceso se repite !R veces: FOR !i = 1 TO !R SMPL 1 !Tmax SERIES u = NRND FOR !ia = 1 TO !nAvals !a = Avals(!ia) !a2 = 2*!a SERIES y = (u^{!a} - !Eu{!a})/@SQRT(!Eu{!a2} - !Eu{!a}^2) FOR !it = 1 TO !nTvals !T = Tvals(!it) SMPL 1 !T !ybar = @MEAN(y) DM{!a}_{!T}(!i) = !ybar DA{!a}_{!T}(!i) = @SQRT(!T)*!ybar NEXT !it NEXT !ia NEXT !i El gráfico I.5 muestra una selección de todos los resultados obtenidos con este programa. 8 En particular, se tiene que E(ua) = 0 cuando a es impar, mientras que E(ua) = (a − 1)(a − 3) · · · 3 · 1 cuando a es par. Así, !Eu1 = 0, !Eu2 = 1, !Eu4 = 3, !Eu6 = 15, !Eu8 = 105, !Eu10 = 945 y !Eu12 = 10395. 28 APUNTES DE ESTUDIO II Series de tiempo estacionarias Una serie de tiempo es una colección de variables aleatorias Yt = {. . . , y−1, y0, y1, y2, . . . , yt−2, yt−1, yt} ordenadas cronológicamente y que, en general, guardan cierta dependencia. En principio, cada variable aleatoria en la colección Yt es tan solo una realización de un proceso estocástico. Por ejemplo, considere una variable aleatoria cuya función de distribución es ft(·); al tomar un número al azar proveniente de ft(·) se consigue yt . El interés se centra en inferir sobre los momentos poblacionales de ft(·). Sin embargo, ello no es posible con este nivel de generalidad, ya que se requiere describir las propiedades de, por ejemplo, E(yt) observando únicamente yt (el tamaño de la muestra en el período t es igual a 1), lo que lleva a cuestionamientos sobre nuestra capacidad de inferir con niveles mínimos de confiabilidad. Es preciso contar con condiciones adicionales para el análisis, y es en este punto donde el concepto de estacionariedad es sumamente útil. Se dice que una serie yt es un proceso estacionario en covarianzas cuando, para todo t, ocurre que V(yt) = E((yt − µt)2) ≡ γ0 , C(yt , yt−i) = E((yt − µt)(yt−i − µt−i)) ≡ γi , donde µt = E(yt). Es decir, la varianza y las autocovarianzas de yt no dependen de t. Como se aprecia, la autocovarianza γi , que es la medida de dependencia que se utilizará a lo largo de este texto, es la covarianza entre yt e yt−i y depende únicamente de i . Dado que γi no depende de t, presenta la siguiente simetría: γi = C(yt , yt−i) = C(ys , ys−i) = C(yt+i , yt) = γ−i . La autocovarianza, como la varianza, se expresa en las unidades de medida de yt , al cuadrado. Una versión estandarizada (sin dimensiones, un número puro) es la autocorrelación, que no es más que el coeficiente de correlación entre yt e yt−i y es igual a ρi = γi/γ0. Se cumple que ρ0 = 1, | ρi | ≤ 1 y ρi = ρ−i . Cuanto más cerca está | ρi | de 1, mayor el grado de dependencia. Note que, hasta el momento, la media E(yt) = µt podría variar con t. Cuando se cumple, además, que E(yt) = µ para todo t, se tiene que yt es un proceso estacionario en media. Una implicancia de primera importancia de la estacionariedad en covarianzas es que los momentos poblacionales pueden inferirse a partir de una muestra del tipo 29 CAPÍTULO II. SERIES DE TIEMPO ESTACIONARIAS {y1, y2, . . . , yt , . . . yT−1, yT }, ya que todas estas realizaciones de la serie de tiempo comparten estos momentos. En otras palabras, la estacionariedad permite estudiar los momentos no condicionales de una serie de tiempo. En adelante, utilizaremos el término “estacionariedad” como sinónimo de “estacionariedad en covarianzas” (también conocida como “estacionariedad débil” o “estacionariedad de segundo orden”). Otro concepto importante es el de ergodicidad, ya que la teoría asintótica de series de tiempo provee resultados útiles para procesos ergódicos. Los procesos estacionarios y los procesos ergódicos comparten una propiedad relevante: memoria restringida (a veces denominada mixing), que indica que las dependencias temporales inherentes en la serie de tiempo van desvaneciéndose para eventos cronológicamente muy distanciados o, en otras palabras, que el presente no contiene información acerca del pasado remoto o del futuro lejano. Más formalmente, el proceso {yt} es ergódico si para dos funciones acotadas h : RL → R y g : RK → R, ĺım s−t→∞ E(h(yt , . . . , yt+L)g(ys , . . . , ys+K)) = E(h(yt , . . . , yt+L))E(g(ys , . . . , ys+K)) . En palabras, el proceso presenta memoria restringida si dos variables aleatorias que dependen de segmentos de la serie de tiempo lo suficientemente alejados son independientes. Las condiciones para la estacionariedad de los procesos estocásticos estudiados en este texto son idénticas a las requeridas para la ergodicidad. Por ello, quizá la distinción entre un proceso estacionario y uno ergódico no será muy evidente, ni muy necesaria, en adelante. En particular, una condición suficiente para la ergodicidad es que las autocovarianzas de {yt} sean absolutamente sumables: ∞∑ i=0 | γi | = M finito . A su vez, una condición necesaria (aunque no suficiente) para garantizar la sumabilidad absoluta de las autocovarianzas es que γi converja a cero lo suficientem