OTRAS PUBLICACIONES DE LA 
UNIVERSIDAD DEL PACÍFICO 

• Contar para que cuente: una introducción general a los 
sistemas de información educativa. César Guadalupe. 
Lima: Universidad del Pacífico, 2015 (publicación 
virtual de descarga gratuita).

• Ejercicios de Microeconomía Intermedia. Elsa Galarza, 
Francisco Galarza y José Luis Ruiz. Lima: Universidad 
del Pacífico, 2015.

• Ejercicios de Microeconomía: un enfoque didáctico 
para un curso introductorio. Karlos La Serna y Sergio 
Serván. Lima: Universidad del Pacífico, 2016.

• El desarrollo de la economía peruana en la era 
moderna. Precios, población, demanda y producción 
desde 1700. Bruno Seminario. Lima: Universidad del 
Pacífico, 2015. 

• Fundamentos de matemáticas. John Cotrina. Lima: 
Universidad del Pacífico, 2015.

• Hacer ciencia. Teoría y práctica de la producción 
científica. Héctor Maletta. Lima: Universidad del 
Pacífico, 2015.

• Presencia e impacto de la inversión española en el 
Perú. Editora: Rosario Santa Gadea. Lima: Universidad 
del Pacífico, COCEP, 2015.

• Puentes sobre el Pacífico: Latinoamérica y Asia en el 
nuevo siglo. Editores: Cynthia Arnson y Jorge Heine, 
con Christine Zaino. Lima: Woodrow Wilson Center, 
Universidad del Pacífico, 2015.

• Tecnopolítica económica: análisis y propuestas. 
Germán Alarco. Lima: Universidad del Pacífico, 2015.

• Temas de política económica: la experiencia peruana. 
Jorge González Izquierdo. Lima: Universidad del 
Pacífico, 2015.

• Trigonometría plana. Ricardo Siu K. y Carlos Andaluz Z. 
Lima: Universidad del Pacífico, 2015.

ECONOMETRÍA DE SERIES DE TIEMPO:

ENFOQUE DE MONTE CARLO

La econometría de series de tiempo es un área de estudio 
fascinante cuyos resultados más interesantes, desafortunadamente, 
requieren del manejo de material matemático y estadístico que por 
lo general va más allá de lo cubierto en clase. Este texto ilustra, 
a través de un gran número de ejemplos y aplicaciones, cómo 
el uso de técnicas de simulación de Monte Carlo permite llegar,
de una manera muy gráfica y de fácil comunicación, a las mismas 
conclusiones a las que se llegaría de seguir el camino formal del 
análisis estadístico avanzado. Hoy en día, cuando el costo del poder 
computacional es bajo, implementar ejercicios de simulación es 
realmente accesible. 

El texto está dirigido a estudiantes que buscan una guía para 
profundizar los conocimientos adquiridos sobre econometría 
de series de tiempo, y al docente que podría encontrar un valor 
didáctico en cómo se estructuran los diseños de simulación 
para responder preguntas relevantes sobre este tema.

85

EC
O

N
O

M
ET

R
ÍA

 D
E 

S
ER

IE
S

 D
E 

T
IE

M
PO

: 
EN

FO
Q

U
E 

D
E 

M
O

N
T

E 
C

A
R

LO
D

IE
G

O
 W

IN
K

EL
R

IE
D

85

ECONOMETRÍA 
DE SERIES DE 
TIEMPO:

ENFOQUE DE 
MONTE CARLO

Apuntes de Estudio

DIEGO WINKELRIED

DIEGO WINKELRIED 

Jefe del Departamento Académico de Finanzas de la 
Universidad del Pacífico. Ha sido jefe del Departamento 
de Modelos Macroeconómicos del Banco Central de 
Reserva del Perú. Licenciado en Economía de la 
Universidad del Pacífico, y máster y Ph. D. en Economía 
de la University of Cambridge. Su investigación incluye 
temas de política monetaria, economía del desarrollo y 
métodos cuantitativos. Sus artículos han aparecido en 
Journal of International Money and Finance, Journal of 
Development Economics e International Journal of 
Central Banking, entre otras revistas especializadas. 
Además, ha publicado Matemáticas para la economía 
dinámica, Apuntes de Estudio 44, del Fondo Editorial 
de la Universidad del Pacífico (en coautoría con 
José Luis Bonifaz).

ECONOMETRÍA 
DE SERIES DE 
TIEMPO:

ENFOQUE DE 
MONTE CARLO

85
Apuntes de Estudio

DIEGO WINKELRIED

OT. 16558 / U. del Pacífico - Econometría de series de tiempo / Lomo OK: 0.95 cm. -172 pp. - ENCOLADO / Medida: 59.45 x 22.0 cm. - TIRA / Javier

COLOR PARA RETIRA


Apuntes de Estudio

DIEGO WINKELRIED

ECONOMETRÍA 
DE SERIES DE 
TIEMPO:

ENFOQUE DE 
MONTE CARLO

85


© Diego Winkelried, 2017

De esta edición

© Universidad del Pacífico
Av. Salaverry 2020
Lima 11, Perú

 www.up.edu.pe

ECONOMETRÍA DE SERIES DE TIEMPO: ENFOQUE DE MONTE CARLO
Diego Winkelried

1a. edición: marzo 2016, julio 2017
Diseño de la carátula: Icono Comunicadores
Tiraje: 300 ejemplares
ISBN: 978-9972-57-352-1
Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2017-08995

BUP

Winkelried, Diego.
    Econometría de series de tiempo : enfoque de Monte Carlo / Diego Winkelried. -- 1a edición. 
-- 7.102 ,ocfiícaP led dadisrevinU : amLi
   159 p. -- (Apuntes de estudio ; 85)

1. Econometría
2. Análisis de series de tiempo
3. Método de Monte Carlo
I. Universidad del Pacífico (Lima)

330.015195 (SCDD)

Miembro de la Asociación Peruana de Editoriales Universitarias y de Escuelas Superiores  
(Apesu) y miembro de la Asociación de Editoriales Universitarias de América Latina y el Caribe (Eulac).

La Universidad del Pacífico no se solidariza necesariamente con el contenido de los trabajos que 
publica. Prohibida la reproducción total o parcial de este texto por cualquier medio sin permiso 
de la Universidad del Pacífico.

Derechos reservados conforme a Ley.


APUNTES DE ESTUDIO

Prólogo

La econometría de series de tiempo es un área de estudio fascinante a nivel teórico
y su importancia práctica no puede exagerarse. Todo investigador que en el curso de
sus labores deba lidiar con series de tiempo, datos que comprenden desde cotizaciones
bursátiles hasta agregados macroeconómicos, requiere un conocimiento práctico de las
técnicas, potencialmente sofisticadas, involucradas en la correcta inferencia estadística y
proyección. Hoy por hoy, casi todo artículo de investigación financiera o macroeconómica
que contenga una sección empírica, apela al uso de estos métodos estadísticos.

Desafortunadamente, los resultados más interesantes y relevantes en este campo son,
en general, complejos y requieren del manejo de material matemático y estadístico que
normalmente va más allá de lo cubierto a nivel de pregrado. Ante ello, es común que incluso
los profesores más exigentes se vean obligados a hacer breves recuentos bibliográficos y,
finalmente, a proveer de una suerte de “recetario”, casi dogmático, en la aplicación de los
métodos de series de tiempo. El alumno exitoso suele aprender el recetario prolijamente,
pero, inevitablemente, tanto su capacidad crítica como la interpretación que puede brindar
a los fenómenos sobre los cuales centra su inferencia se ven mermadas ante la falta de un
entendimiento más profundo de las propiedades de los estimadores que utiliza.

Un aliado poderoso del docente en el objetivo de comunicar eficazmente estos resultados
complejos son las simulaciones de Monte Carlo. Esencialmente, un estudio de Monte Carlo
descansa en dos principios de estadística ampliamente conocidos (la Ley Débil de Grandes
Números y, usualmente, el Teorema del Límite Central) para llegar, de una manera muy
gráfica y de fácil comunicación, a las mismas conclusiones a las que se llegaría de seguir
el camino formal del análisis matemático y estadístico avanzado. Hoy en día, cuando el
costo del poder computacional es bajo, implementar y ejecutar ejercicios de simulación es
realmente accesible. En mi experiencia docente, he percibido cómo el ilustrar principios
complejos con los resultados de simples ejercicios de Monte Carlo alimenta y fortalece el
espíritu crítico de los alumnos, lo que repercute finalmente en un aprendizaje sólido de
conocimientos que, como econometristas aplicados, van a necesitar para destacar en el
momento de realizar un análisis empírico.

El propósito de este texto es, justamente, proveer un breve recuento teórico de algunos
importantes resultados de la econometría de series de tiempo que interactúa con el diseño
y, finalmente, con los resultados de simulaciones de Monte Carlo. El texto está dirigido a
dos tipos de lector. Primero, al estudiante que busca una guía para consolidar y profundizar
los conocimientos adquiridos sobre econometría de series de tiempo durante sus estudios,

iii


para que luego sean utilizados rigurosamente en las aplicaciones empíricas de su interés.
Segundo, al instructor o al docente que podría encontrar un valor didáctico en la forma
como se escribió este texto, y en cómo se estructuran los diseños de simulación para
responder preguntas específicas (muchas de las cuales aparecen en el salón de clase). Es
por ello que los programas que implementan las simulaciones preparadas para este texto se
encuentran disponibles para ser replicados en casa o en clase (véase el vínculo de descarga
en la página 155, al final del texto). Asimismo, el lector también podrá acceder a versiones
de alta resolución de las figuras que aparecerán a lo largo del texto, para analizarlas con
más detalle o para utilizarlas en sus propias presentaciones. El uso de este material es libre,
aunque estaré agradecido de que se reconozca el tiempo dedicado a preparalo y difundirlo,
citando adecuadamente este texto.

El contenido de este texto se basa en parte de las notas de clase que elaboré al dictar
el curso Econometría II de la carrera de Economía de la Universidad del Pacífico, durante
el año 2014, y el curso Tópicos de Econometría Avanzada de la Maestría de Economía de
la Universidad del Pacífico, durante los años 2011 a 2015. También he utilizado, aunque
en menor proporción, material preparado para los módulos de Econometría dictados como
parte del Curso de Extensión Universitaria de Economía y del Curso de Actualización para
Profesores de Economía, ofrecidos por el Banco Central de Reserva del Perú durante los
años 2014 y 2015.

La exposición de los temas desarrollados en estas páginas está pensada para estudiantes
de pregrado. Por ello, no se es particularmente riguroso en la derivación de algunos
resultados asintóticos, y se evita hacer referencias explícitas a los pormenores de procesos
de Weiner, a resultados (sumamente relevantes) como el Teorema del Límite Central
Funcional, o al uso del operador de rezagos. Con los estudiantes de postgrado, muchas
veces a su pesar, sí nos detenemos en estos tecnicismos. No obstante, considero que este
grupo más avanzado podría igualmente beneficiarse al complementar su estudio con lo
ofrecido en este texto.

Es recomendable que el lector esté familiarizado con varios temas, sobre todo de
estadística, para que pueda seguir con fluidez la discusión acá presentada. Idealmente, al
nivel de los alumnos que empiezan a llevar el curso de Econometría II de la Universidad del
Pacífico. Estos temas incluyen: (1) manipulación básica de variables aleatorias, por ejemplo
para el cálculo de esperanzas y covarianzas; (2) planteamiento y análisis de pruebas de
hipótesis, así como las características de las distribuciones que aparecen al estudiar este
tema (normal, chi-cuadrado, t de Student, F de Snedecor); (3) estimación de modelos de
regresión por mínimos cuadrados; y (4) una primera noción de teoría asintótica, que incluya
distinguir entre modos de convergencia (en probabilidad o en distribución), así como los
postulados básicos de la Ley de Grandes Números y del Teorema del Límite Central.

En este punto, es conveniente aclarar que este texto no es, ni pretende ser, un libro
de texto. Simplemente no está en la capacidad, ni es su objetivo, de brindar una discusión
amplia y completa de los temas de series de tiempo que se discuten en estas páginas.

iv


APUNTES DE ESTUDIO

La idea es que se utilice como material adicional, como el complemento a las notas y
lecturas de clases, o quizá como el ejemplo o caso ilustrativo que ayude a entender mejor
ciertos conceptos o relaciones. A nivel de pregrado, aunque no sea tan introductorio, no
he encontrado una mejor referencia que Enders (2010), un libro muy bien escrito, con
muchos ejemplos y aplicaciones. A un nivel más intermedio, Hayashi (2000) es una excelente
referencia. Aunque se trate de un libro de econometría general, los capítulos donde se
discuten tópicos de series de tiempo son bastante claros, con una notación muy amigable
que facilita la lectura. En el postgrado, el monumental Hamilton (1994) sigue vigente. Sin
embargo, mis favoritos son Maddala y Kim (1998) y Banerjee, Dolado, Galbraith y Hendry
(1993), que, en mi opinión, son de lectura obligatoria para quien quiera aventurarse de lleno
en el interesante mundo del análisis de series de tiempo no estacionarias.

Los programas que implementan las simulaciones son codificados íntegramente en
Econometric Views (EViews), que es el software utilizado en la enseñanza de series de
tiempo y otros temas econométricos en la Universidad del Pacífico. Estos programas fueron
elaborados y probados en los laboratorios de esta universidad, bajo su licencia. La versión
utilizada fue inicialmente la 8, aunque se ha hecho un esfuerzo por adecuar los códigos
para que puedan ser ejecutados sin complicaciones con la versión 7 (y, muy probablemente,
con versiones más antiguas). Es importante mencionar que estos programas se ponen a
disposición del lector exclusivamente para su uso académico y docente. No está permitido
el uso de estos códigos con fines comerciales. Asimismo, no asumo responsabilidad por
(improbables) daños que la ejecución de estos programas pueda ocasionar.

La elección de este paquete informático no debería ser una limitante para entender
la lógica detrás de las simulaciones y la estructura de su codificación. El lenguaje de
programación de EViews es bastante intuitivo y muy comparable con los de otros paquetes
estadísticos. No obstante, es altamente recomendable que el lector haya tenido algún tipo
de acercamiento previo a este software. Una ventaja de EViews es que el uso del software
y sus comandos de programación están cuidadosamente documentados en los archivos de
ayuda del paquete. Muchas veces, consultar esta fuente es suficiente para entender un
código. Adicionalmente, el libro de Castro y Rivas-Llosa (2007) provee una excelente y
muy pedagógica introducción a la programación en EViews.

El lector notará a lo largo de este texto un estilo en la redacción de los programas.
Este estilo facilita la lectura del código y proviene de una época en que los editores
de texto eran monocromáticos y no se tabulaban ni corregían automáticamente. En
particular los comandos, que son palabras “prohibidas” o “reservadas”, son escritos
en MAYÚSCULAS mientras que los objetos son escritos en minúsculas, siempre con
caracteres tipográficos (se recomienda, en general, que los programas sean leídos con
una fuente de ancho fijo, monospaced font). Por ejemplo, EQUATION eq.LS y C x declara
una ecuación de nombre eq (minúsculas) con el comando EQUATION (mayúsculas), en donde
se ejecuta una estimación de mínimos cuadrados con la instrucción LS (mayúsculas), al
regresar la serie y (minúsculas) sobre un intercepto C (mayúsculas, por ser un nombre

v


reservado por EViews para una serie llena de unos) y una variable x (minúsculas). Esta
convención es puramente una cuestión de estilo. El lenguaje de programación de EViews no
es sensible a si los caracteres son escritos en mayúsculas o minúsculas. EViews interpretará
EQUATION EQ.LS Y C X y equation eq.ls y c x exactamente de la misma manera.

Los programas son autocontenidos y cada ejercicio de simulación se asocia con un
único programa. En todos los casos, los programas crean en sus primeras líneas un workfile,
completamente nuevo y sin nombre (UNTITLED, que es el nombre por defecto), sobre el cual
realizar los cálculos. Se recomienda, además, ejecutar estos programas en modo Quiet (el
modo alternativo y, muchas veces, por defecto es Verbose, que es considerablemente más
lento). Como resultado, al término de las simulaciones se generan gráficos y cuadros muy
similares a los reportados en este texto. Dado que las simulaciones tienen, por definición,
un componente aleatorio, y por posibles errores de redondeo, es poco probable que se
obtengan exactamente los mismos resultados que se presentan luego. No obstante, sí se
puede esperar que sean lo suficientemente parecidos como para que las diferencias no tengan
ninguna consecuencia práctica.

Las simulaciones que presentaremos utilizan un gran número de repeticiones, usualmente
100,000. La razón es poder presentar al lector resultados con un mínimo, casi imperceptible,
error de simulación. El costo es que la ejecución de algunos de estos programas en una
computadora con estándares promedio (digamos, un procesador de 2 GHz y una memoria
RAM de 2 GB) puede tardar algunas horas. Sin embargo, y es una práctica que sigo en
mis clases, la ejecución de estos mismos programas con un número de, digamos, 2,000
repeticiones es una cuestión de uno o dos minutos. Los resultados, ciertamente, se verán
contaminados con algo de error de simulación, pero los patrones serán lo suficientemente
claros como para comunicar el mensaje último del ejercicio de simulación.

El texto está organizado de la siguiente manera. El capítulo I describe los fundamentos
detrás del uso de simulaciones para el análisis estadístico, enfoque conocido como
Integración de Monte Carlo. El capítulo II discute los conceptos de estacionariedad y
ergodicidad, y sus implicancias para la estimación e inferencia con series de tiempo. El
capítulo III extiende el análisis a un contexto en donde las series pueden ser no estacionarias.
El capítulo IV se centra en el análisis de cointegración. Al final del texto, se presentan
un listado y una breve descripción de los programas de EViews utilizados. Son en total
25 programas (brevemente documentados en la página 147), 23 de los cuales abordan
algún problema estadístico de interés (los 2 restantes ilustran el método de Integración
de Monte Carlo). Si bien es cierto que los estudios de Monte Carlo responden preguntas
específicas, válidas estrictamente bajo los supuestos del diseño de la simulación, considero
que los programas provistos cubren muchas situaciones de interés, fácilmente adaptables.
Las simulaciones se utilizan para explorar distibuciones muestrales, calcular sesgos y valores
críticos de algunas pruebas de hipótesis, estudiar la tasa de cobertura de intervalos de
confianza, calcular la potencia estadística de contrastes de hipótesis, entre otros. Se espera
ofrecer en versiones futuras los códigos de las simulaciones en otros paquetes como Matlab.

vi


APUNTES DE ESTUDIO

Se han dejado de lado algunos temas que podrían ser de interés, y que posiblemente
sean incorporados en versiones futuras de este texto, de los cuales enfatizo tres. Primero,
el estudio de las distorsiones generadas por la presencia de quiebres estructurales en el
contraste de raíces unitarias, en especial la reducción de la potencia de ciertas pruebas de
hipótesis. Ello ocurre básicamente porque, al ignorar un cambio estructural, el modelo que
describe los datos bajo la hipótesis alternativa se encuentra mal especificado. El tema se
aborda acá de una manera indirecta, ya que son varios los casos y ejemplos en donde se
ilustra que el no rechazo de una hipótesis nula es el resultado de una hipótesis alternativa
pobre, más que de una hipótesis nula satisfactoria. Segundo, el análisis de cointegración à la
Johansen se trata muy marginalmente. En general, el enfoque del texto es hacia el análisis
de una sola ecuación de regresión, ya que los resultados más interesantes se generalizan
muy fácilmente cuando se pasa a un mundo de sistemas de ecuaciones (digamos, vectores
autorregresivos). De hecho, los resultados para sistemas son repeticiones de los resultados
para ecuaciones individuales. Finalmente, se excluye el análisis de modelos dinámicos no
lineales, por ejemplo modelos de la familia ARCH. Ello responde a que el énfasis del texto
es comprender los cambios fundamentales para la inferencia de transitar de un mundo
estacionario a uno no estacionario, y en general no es particularmente informativo lo que
los modelos no lineales revelen sobre este punto en particular.

Deseo expresar mi agradecimiento al Centro de Investigación de la Universidad del
Pacífico (representado por su directora durante 2014, Cynthia Sanborn) por financiar e
impulsar la publicación y difusión de este texto. Asimismo, agradezco al Departamento
Académico de Economía (representado por su jefe durante 2014, Roberto Urrunaga) y a
la Dirección de la Maestría en Economía de esta misma universidad (representada por sus
directores durante el periodo 2011 a 2015, Eduardo Morón y Juan Mendoza), por compartir
mi pasión por la econometría y acompañarme en la ambición de formar futuras generaciones
de jóvenes economistas con una sólida orientación econométrica. César Urquizo es un
miembro notable de este grupo de jóvenes, y su aporte a la redacción de muchos de los
códigos que dan contenido a este texto es especialmente reconocido. Quisiera, además,
expresar mi agradecimiento a dos evaluadores anónimos, cuyos acertados comentarios
ayudaron a mejorar la exposición de este texto, así como a María Elena Romero del Fondo
Editorial de la Universidad del Pacífico por su solícita labor editorial. Agradezco también a
Javier Zúñiga por haberme provisto desinteresadamente la plantilla de LaTex sobre la que
este texto fue procesado. Cabe enfatizar que el contenido de este texto, así como todos sus
errores u omisiones, son de mi entera responsabilidad. Finalmente, este texto está dedicado
a mis alumnos, pasados y presentes; a la larga, fue inspirado por ustedes y escrito pensando
en ustedes.

Diego Winkelried Quezada

Lima, noviembre de 2015

vii


Índice
Prólogo iii

Índice viii

I Integración de Monte Carlo 1
I.1 Integración de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Aproximando π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.3 Muestreando distribuciones conocidas . . . . . . . . . . . . . . . . . . . . . . . . 8
I.4 Eficiencia del promedio y la mediana muestrales . . . . . . . . . . . . . . . . . . 12
I.5 Inferencia en modelos de regresión . . . . . . . . . . . . . . . . . . . . . . . . . 15
I.6 Leyes asintóticas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

II Series de tiempo estacionarias 29
II.1 Generando dependencias: procesos ARMA . . . . . . . . . . . . . . . . . . . . . 30
II.2 Leyes asintóticas importantes, revisadas . . . . . . . . . . . . . . . . . . . . . . 34
II.3 Inferencia en la práctica: estimación de la varianza de largo plazo . . . . . . . . . 43
II.4 Estimación de modelos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
II.5 Contrastes de autocorrelación residual . . . . . . . . . . . . . . . . . . . . . . . 52
II.6 Criterios de información y selección de modelos . . . . . . . . . . . . . . . . . . 60

III No estacionariedad 69
III.1 Modelo de tendencia lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
III.2 Procesos integrados y no estacionariedad . . . . . . . . . . . . . . . . . . . . . . 76
III.3 Efectos sobre la inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
III.4 Removiendo tendencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
III.5 Pruebas de raíz unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
III.6 Potencia y consistencia de las pruebas de Dickey y Fuller . . . . . . . . . . . . . 97
III.7 Incrementando la potencia con una prueba LM . . . . . . . . . . . . . . . . . . . 101
III.8 ¿Retorno a la normalidad? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
III.9 Proyecciones y raíces unitarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
III.10 Parámetros fastidiosos y posibles soluciones . . . . . . . . . . . . . . . . . . . . 111
III.11 Estimación e inferencia con series no estacionarias . . . . . . . . . . . . . . . . . 124

IV Cointegración 131
IV.1 Representaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
IV.2 Ausencia de cointegración y regresiones espurias . . . . . . . . . . . . . . . . . . 134
IV.3 Estimación e inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
IV.4 Inferencia sobre el multiplicador de largo plazo . . . . . . . . . . . . . . . . . . . 142

Resumen de programas 147

Bibliografía 157

viii


APUNTES DE ESTUDIO

Lista de gráficos
I.1 Aproximación de π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
I.2 Colas anchas y eficiencia relativa del promedio y la mediana . . . . . . . . . 14
I.3 Desempeño de los estimadores MCO, MCR y PT . . . . . . . . . . . . . . . 22
I.4 Distribuciones muestrales de los estimadores MCO, MCR y PT . . . . . . . 23
I.5 Ley de Grandes Números y Teorema del Límite Central . . . . . . . . . . . . 26

II.1 Leyes asintóticas para procesos dependientes . . . . . . . . . . . . . . . . . 40
II.2 Consistencia de la primera autocorrelación muestral . . . . . . . . . . . . . . 42
II.3 Sesgo del estimador MCO de φ en el modelo yt = φyt−1 + εt . . . . . . . . . 49
II.4 Consistencia y normalidad asintótica de estimadores de mínimos cuadrados . 53
II.5 Correlograma de residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
II.6 Prueba de autocorrelación residual de Breusch-Godfrey . . . . . . . . . . . . 58
II.7 Potencia de las pruebas Q y LM de ausencia de correlación serial . . . . . . . 59

III.1 Superconsistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
III.2 Equivalencia asintótica de estimadores de φ . . . . . . . . . . . . . . . . . . 75
III.3 Comportamiento asintótico de promedios muestrales de un paseo aleatorio . 83
III.4 Distribuciones empíricas de ratios t para la pendiente de la tendencia . . . . 89
III.5 Distribuciones de Dickey-Fuller . . . . . . . . . . . . . . . . . . . . . . . . . 93
III.6 Probabilidad de rechazo en las pruebas de Dickey y Fuller . . . . . . . . . . . 99
III.7 Probabilidad de rechazo en las pruebas DF y LM . . . . . . . . . . . . . . . 103
III.8 Funciones de distribución empíricas de τφ para un proceso con tendencia . . . 105
III.9 Superconsistencia de ρ en la regresión básica de Dickey y Fuller . . . . . . . 113
III.10 Parámetros fastidiosos y posibles soluciones . . . . . . . . . . . . . . . . . . 114
III.11 Prueba de Phillips y Perron . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
III.12 Prueba de Dickey y Fuller Aumentada . . . . . . . . . . . . . . . . . . . . . 117
III.13 Superconsistencia en la regresión de Dickey y Fuller Aumentada . . . . . . . 126
III.14 Equivalencia asintótica en la regresión de Dickey y Fuller Aumentada . . . . . 127

IV.1 Función de distribución empírica de estadísticos de regresión . . . . . . . . . 136
IV.2 Superconsistencia del MLP en el procedimiento de Engle y Granger . . . . . 140
IV.3 Equivalencias asintóticas en el procedimiento de Engle y Granger . . . . . . . 141
IV.4 Inferencia sobre el multiplicador de largo plazo . . . . . . . . . . . . . . . . . 145

ix


Lista de cuadros
I.1 Aproximación de cantidades poblacionales para distribuciones conocidas . . . 10

II.1 Probabilidad de cobertura con el estimador HAC de Newey-West . . . . . . . 46
II.2 Desempeño de criterios de información . . . . . . . . . . . . . . . . . . . . . 65

III.1 Convergencia de promedios de series estacionarias y no estacionarias . . . . . 84
III.2 Contrastes de raíz unitaria de Dickey y Fuller . . . . . . . . . . . . . . . . . 95
III.3 Desempeño predictivo de tres estrategias de proyección . . . . . . . . . . . . 110
III.4 Probabilidad de rechazo real (probabilidad nominal de 5%) . . . . . . . . . . 122

x


APUNTES DE ESTUDIO

I Integración de Monte Carlo

El punto de partida de todo análisis estadístico es la formulación de un modelo
poblacional, muchas veces denominado proceso generador de datos, que establece las
relaciones bajo estudio entre un grupo de variables aleatorias. El fin último de los ejercicios
de estimación e inferencia en el análisis empírico es revelar o descubrir aspectos relevantes
del modelo poblacional, a partir demuestras (típicamente de tamaño finito) que constituyen
el conjunto de información a disposición del investigador. Así, es imperativo evaluar tanto
las propiedades de los estimadores utilizados como las posibilidades de inferencia sobre las
cantidades poblacionales de interés. Para ello, el investigador debe tener en cuenta tanto
las características del modelo poblacional como las reglas del muestreo.

Usualmente, es prohibitivamente complicado caracterizar exacta o analíticamente el
comportamiento de los estadísticos muestrales que se utilizan en la práctica. El uso de
técnicas de simulación responde a la promesa de que pueden aproximarse, con niveles
de precisión arbitrariamente altos, las propiedades de estos estadísticos (en concreto, sus
funciones de distribución) mediante métodos de Monte Carlo. Bajo este enfoque, se le da al
investigador la oportunidad de muestrear directamente, bajo reglas conocidas y controladas,
de un proceso generador de datos hipotetizado para así calcular los estadísticos de interés
en esta muestra ficticia. La repetición de este procedimiento (un gran número de veces)
aproxima numéricamente las propiedades deseadas de los estadísticos muestrales.

Esta es la esencia del método de Integración de Monte Carlo que se discute en la sección
I.1. El funcionamiento del método es ilustrado con dos aplicaciones, en las secciones I.2 y
I.3. Finalmente, las secciones I.4 y I.6 estudian las propiedades de estadísticos muestrales,
en especial de promedios, mediante simulaciones.

I.1 Integración de Monte Carlo

El resultado fundamental detrás de los métodos de simulación es la Ley Débil de Grandes
Números, a veces denominada el Teorema de Khinchine. Considere una variable aleatoria
ξ cuya función de distribución es fξ(·), y tome independientemente (aleatoriamente) R
realizaciones de esta función de distribución, ξ(i) ∼ fξ(ξ), para así conseguir una muestra o
colección de valores {ξ(1), ξ(2), . . . , ξ(R)}. Considere, además, una función g(·) para formar
otra variable aleatoria g(ξ). La evaluación de esta función para toda realización de ξ da como
resultado una nueva colección de valores, {g(ξ(1)), g(ξ(2)), . . . , g(ξ(R))}. La Ley Débil de

1


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Grandes Números establece que el promedio muestral de los R valores de g(ξ(i)) se aproxima
(en estricto, converge en probabilidad) a la esperanza poblacional de g(ξ) conforme R se
incrementa. Explícitamente,

1

R

R∑
i=1

g(ξ(i))
p−→ E(g(ξ)) para R→∞ . (I.1)

Esta ley indica que la esperanza de una variable aleatoria puede aproximarse “muestreando”
repetidas veces de fξ(·) y tomando promedios a las observaciones de este muestreo. Puesto
de otra forma, promedios muestrales se acercan, y a la larga convergen, a esperanzas
poblacionales1.

Este resultado es de suma importancia, ya que, básicamente, toda cantidad poblacional
de interés que caracteriza el comportamiento aleatorio de ξ puede ser expresada como una
esperanza y, por tanto, puede ser cuantificada a través de simulaciones.

Un primer grupo de resultados se relaciona con los momentos de ξ. El p-ésimo momento
de ξ, donde p es un número entero positivo, se define como E(ξp), por lo que una aplicación
directa de (I.1), con g(ξ) = ξp, conlleva

1

R

R∑
i=1

ξp(i)
p−→ E(ξp) .

El primer momento, p = 1, corresponde a la media poblacional y es aproximado por

ξ̄R =
1

R

R∑
i=1

ξ(i) ,

el promedio simple de {ξ(1), ξ(2), . . . , ξ(R)}.

El segundo momento se relaciona con el cálculo de la varianza, quizá la medida de
dispersión más común en estadística. En concreto, se tiene que V(ξ) = E(ξ2) − E(ξ)2. El
primer término es aproximado por el promedio muestral de ξ2

(i), mientras que el segundo,
por el cuadrado de ξ̄R2. De este modo, la Ley Débil de Grandes Números garantiza que la
varianza muestral converge a la poblacional,

VR =
1

R

R∑
i=1

(ξ(i) − ξ̄R)2 =
1

R

R∑
i=1

ξ2
(i) − ξ̄ 2

R
p−→ E(ξ2)− E(ξ)2 ≡ V(ξ) .

1 El calificativo de débil se refiere al hecho de que el Teorema de Khinchine establece un límite en probabilidad,
que es una forma relativamente general (o “débil”) de convergencia de variables aleatorias. Existen leyes fuertes
de grandes números (por ejemplo, la Ley de Kolmogorov) que involucran tipos de convergencia más exigentes,
como convergencia casi segura (almost surely). No obstante, para fines del presente texto la distinción entre
leyes débiles o fuertes no es importante, ya que el interés se centra en situaciones o muestreos en donde ambas
se cumplen. Por ello y por motivos pedagógicos, únicamente se discuten las implicancias de la ley débil.

2 Esta es una aplicación del Teorema de Slutsky que, en términos simples, establece que los límites probabilísticos
pueden ser manipulados como límites ordinarios o determinísticos: si plim aR = a, entonces para cualquier
función g(·) bien comportada, plim g(aR) = g(a). Así, el límite probabilístico del cuadrado de ξ̄R es igual al
cuadrado del límite probabilístico de ξ̄R.

2


APUNTES DE ESTUDIO

Note que la varianza muestral, normalmente, divide la suma de desvíos cuadráticos respecto
al promedio entre R−1 en lugar de R. Por supuesto, esta distinción no es relevante cuando
R es lo suficientemente grande.

Otra aplicación útil del resultado en (I.1) es el cálculo de probabilidades, que involucra
una elección particular de la función g(·). Suponga que el soporte de ξ (es decir, el conjunto
de todos los posibles valores que esta variable aleatoria toma) se denota como Ξ. Por
definición, la esperanza de g(ξ) es un promedio ponderado de todos los posibles valores de
esta variable, donde las ponderaciones vienen dadas por la probabilidad de ocurrencia de
cada valor. Para un soporte continuo3,

E(g(ξ)) =

∫
Ξ

g(t)fξ(t)dt . (I.2)

Considere ahora que el soporte de Ξ se divide en dos regiones complementarias, es decir
mutuamente excluyentes {ΞA ∩ΞB} = {∅} y exhaustivas {ΞA ∪ΞB} = {Ξ}. Sea, además,
1{x} una función indicador tal que 1{x} = 1 si x es verdadero y 1{x} = 0 si x es falso.
Se tiene que

E(1{ξ ∈ ΞA}) =

∫
ΞA

1 · fξ(t)dt +

∫
ΞB

0 · fξ(t)dt =

∫
ΞA

fξ(t)dt = Pr(ξ ∈ ΞA) .

Es decir, la esperanza de 1{x} es la probabilidad de que x sea verdadero. Así, tomando
la colección {ξ(1), ξ(2), . . . , ξ(R)} pueden identificarse aquellas realizaciones que satisfagan
ξ(i) ∈ ΞA, y la Ley Débil de Grandes Números indica que la frecuencia relativa de este
evento, que es el promedio muestral del indicador 1(ξ(i) ∈ ΞA), converge a la probabilidad
deseada

1

R

R∑
i=1

1{ξ(i) ∈ ΞA}
p−→ Pr(ξ ∈ ΞA) . (I.3)

Usualmente, la función de distribución acumulada de ξ describe completamente el
comportamiento aleatorio de esta variable. Por definición, Fξ(A) = Pr(ξ ≤ A). Dado que
Fξ(·) se define a partir de una probabilidad, puede ser aproximada por una frecuencia relativa.
Esta frecuencia relativa se conoce como función de distribución empírica (FDE),

FDEξ(A) =
Número de veces en las que ξ(i) ≤ A

R
=

1

R

R∑
i=1

1(ξ(i) ≤ A)
p−→ Fξ(A) .

Del mismo modo, en ocasiones el interés se centra en la función de densidad de ξ,
fξ(·), que es igual a la primera derivada de la función de distribución acumulada. Existen
varias formas de escribir la relación entre fξ(·) y Fξ(·); la más conveniente para nuestros

3 Las esperanzas pueden representarse como integrales. De ahí el nombre de Integración de Monte Carlo que
recibe el método de aproximar esperanzas mediante simulaciones.

3


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

propósitos es la variación de la probabilidad acumulada en un intervalo infinitesimalmente
pequeño centrado en ξ. A saber,

fξ(ξ) = ĺım
h→0

Fξ(ξ + 1
2
h)− Fξ(ξ − 1

2
h)

h
.

Al reemplazar Fξ(·) por su aproximación FDEξ(·) y para un valor de h finito y pequeño,

FDEξ(ξ + 1
2
h)− FDEξ(ξ − 1

2
h)

h
=

Número de veces en las que ξ − 1
2
h ≤ ξ(i) ≤ ξ + 1

2
h

Rh

p−→ fξ(ξ) ,

conforme R → ∞ y h → 0. El lector familiarizado con estadísticas descriptivas habrá
notado que la definición anterior corresponde a la frecuencia relativa utilizada en el cálculo
de un histograma, dividida entre h. Ciertamente, en el contexto de simulaciones con un R lo
suficientemente grande y un ancho de intervalo h lo suficientemente pequeño (una práctica
común es h ' R−1/3), el histograma de {ξ(1), ξ(2), . . . , ξ(R)} aproxima razonablemente bien
a h veces la función de densidad4.

I.2 Aproximando π

Un ejemplo clásico sobre el funcionamiento del método de Integración de Monte Carlo
es la aproximación del número π ' 3.1416 a partir del área de un círculo. El conjunto

{(x, y) ∈ R2 | x2 + y 2 ≤ 1}

define a un círculo en R2, centrado en el origen y con radio igual a r = 1. Se sabe que el
área de este círculo es igual a πr 2 = π.

Por simetría, si únicamente se considera la región del círculo correspondiente al primer
cuadrante, es decir los pares (x, y) que pertecencen al conjunto

A(x, y) = {(x, y) ∈ R2 | x2 + y 2 ≤ 1, x ≥ 0 ∧ y ≥ 0} ,

se tiene una región cuya área es igual a 1
4
π. El conjunto A(x, y) puede ser representado

gráficamente en el plano (x, y), como el área por debajo la función implícita x2 + y 2 = 1,

4 Una mejor manera de aproximar o estimar la densidad de una variable aleatoria es a través del método no
paramétrico “kernel density ”. Este método guarda muchas similitudes con la lógica detrás de la construcción
de un histograma, pero produce una versión suavizada (el histograma es generalmente un gráfico de barras
discretas), con mejores propiedades de convergencia para variables aleatorias continuas. Escapa al alcance de
este texto profundizar sobre este tema. Sin embargo, es bueno mencionar que dado que versiones automáticas
del método se encuentran implementadas en paquetes como EViews, muchos de los resultados en secciones
posteriores se presentan como densidades kernel, que son, dados los números elevados de repeticiones R que
utilizamos, cualitativamente similares a los que se obtendrían con un histograma.

4


APUNTES DE ESTUDIO

a la derecha de x = 0, y por encima de y = 0. Puesto de otro modo, al expresar y como
una función explícita de x (o viceversa), se consigue la siguiente igualdad:∫ 1

0

4
√

1− t2dt = π .

La integral al lado izquierdo de la identidad anterior puede ser aproximada mediante el
método de Monte Carlo. En particular, note que si x tiene como soporte al intervalo [0, 1]

(los límites de integración) y como función de distribución fx(t) = 1, entonces la integral
en cuestión corresponde al valor esperado de la variable aleatoria g(x) = 4

√
1− x2. Estas

propiedades son satisfechas si x ∼ Uniforme(0, 1). Así pues, tras muestrear R valores
{x(1), x(2), . . . , x(R)} de una distribución uniforme y calcular {g(x(1)), g(x(2)), . . . , g(x(R))},
la Ley Débil de Grandes Números indica que el promedio muestral de los R valores de g(x(i))

se aproximará a π conforme R se incrementa.

En el gráfico I.1(a) se presenta el valor de este promedio como función de R, el número
de observaciones promediadas, para dos muestreos distintos e independientes. Se aprecia
cómo opera la Ley Débil de Grandes Números. Inicialmente, con valores reducidos de R, la
calidad de la aproximación es baja. Conforme R se incrementa, el promedio se va acercando
a π. Note que la convergencia hacia π no es necesariamente monotónica, sino que es más
bien irregular. El comportamiento errático del promedio muestral como función de R es
simplemente una manifestación de la naturaleza aleatoria de x . De hecho, la Ley Débil de
Grandes Números predice que el promedio de {g(x(1)), g(x(2)), . . . , g(x(R))} podría dejar de
pensarse como una variable aleatoria únicamente en el límite, cuando R→∞.

Esta simulación puede ser implementada fácilmente en EViews, y se encuentra disponible
en el programa Prog11_pi.prg. Operando sobre un workfile con R observaciones, se genera
una serie que contiene R números aleatorios independientes provenientes de una distribución
uniforme, a través del comando

SERIES x = RND .

Luego, se genera una nueva serie con la transformación de estos datos g(x), que será
promediada con el propósito de conseguir la aproximación deseada, a través del comando

SERIES gx = 4*@SQRT(1 - x^2) .

El gráfico I.1(a) presenta los promedios acumulados de gx: el valor de la i-ésima observación
corresponde a la suma de las primeras i observaciones en gx, dividida entre i . El comando

SERIES prom = @CUMSUM(gx)/@CUMSUM(1)

genera una serie prom que contiene, precisamente, estos promedios acumulados. Al aplicar
el comando @CUMSUM(.) a un objeto serie, se obtiene como resultado otro objeto serie

5


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Gráfico I.1 Aproximación de π

(a) Promediando 4
√

1− x2 (b) Lanzando dardos (R = 100)

100 1,000 10,000 100,000

3.00

3.14

3.30

0.0 0.2 0.4 0.6 0.8 1.0
0.0

0.2

0.4

0.6

0.8

1.0

Notas: (Prog11_pi.prg) En el panel (a), el eje horizontal muestra el valor de R (en escala logarítmica), mientras
que el eje vertical muestra el promedio muestral de g(x) = 4

√
1− x2, donde x ∼ Uniforme(0, 1). Se presentan

los resultados de dos muestreos independientes. La línea horizontal corresponde al valor de π. En el panel (b), la
línea continua es la curva x2 + y2 = 1 en el plano (x, y). Los puntos sólidos (81 de 100) representan pares (x, y)
que satisfacen x2 + y2 ≤ 1, mientras que los puntos vacíos (19 de 100) corresponden a pares que satisfacen
x2 + y2 > 1. El área cubierta por los puntos sólidos converge a 1

4
π conforme R→∞.

con las sumas acumuladas de la serie original. Más formalmente, ante la instrucción
z = @CUMSUM(w), EViews procede recursivamente partiendo de z(1) = w(1) y, para
valores de !i mayores de 1, desarrollando z(!i) = z(!i - 1) + w(!i), hasta la última
observación disponible. Así, el numerador de prom, @CUMSUM(gx), reditúa una serie con las
sumas parciales de los elementos de gx, mientras que el denominador, @CUMSUM(1), es la
suma acumulada de una serie llena de unos, es decir una serie cuya i-ésima observación es
igual a i . Se puede obtener un gráfico similar al gráfico I.1(a) al visualizar la serie prom, por
ejemplo con el comando prom.LINE.

Una manera alternativa de aplicar el método de Integración de Monte Carlo en el cálculo
de π, descansa en la aproximación de una probabilidad a partir de una frecuencia relativa
(véase la ecuación I.3), y se ilustra en el gráfico I.1(b). El área total del gráfico es igual
a uno, y corresponde al área del cuadrado formado por los vértices (0, 0), (0, 1), (1, 1) y
(1, 0). Suponga ahora que se “lanzan dardos” a este cuadrado, y que la probabilidad de
que el dardo caiga sobre un punto (x0, y0) sobre el cuadrado es igual a la probabilidad de
que caiga sobre cualquier otro punto (x1, y1). Así, si se lanzara un número muy grande de
dardos (en estricto, infinitos dardos), todos los puntos del cuadrado serían cubiertos.

El cuadrado, a su vez, puede ser separado en dos regiones. La primera corresponde al
conjunto A(x, y) definido previamente; en el gráfico I.1(b), los dardos que caen dentro

6


APUNTES DE ESTUDIO

de este conjunto se marcan con puntos sólidos. La segunda región es simplemente el
complemento del conjunto A(x, y); los dardos que caen en este conjunto se marcan con
puntos vacíos. Luego, en el escenario donde se lanzan infinitos dardos, puede deducirse que
la proporción de puntos sólidos respecto al total de puntos será exactamente igual al área
del conjunto A(x, y), que sabemos es igual a 1

4
π ' 0.7854.

En el gráfico I.1(b) se lanzaron R = 100 dardos, de los cuales 81 cayeron dentro del
conjunto A(x, y). La proporción de puntos oscuros respecto al total de puntos es 0.81, que
es una aproximación bastante cruda de 0.7854. Sin embargo, en línea con lo establecido por
la Ley Débil de Grandes Números, las aproximaciones mejoran conforme R se incrementa:
en una simulación con R = 1, 000 se obtiene una proporción igual a 0.7950, mientras que
con R = 10, 000 la aproximación asciende a 0.7827.

El programa Prog11_pi.prg también contiene la implementación del “lanzamiento de
dardos”. El hecho de que el dardo caiga en cualquier punto del cuadrado con la misma
probabilidad, implica que tanto x como y son variables uniforme e independientemente
distribuidas, cada una con soporte [0, 1]. El comando SERIES y = RND genera una serie
de números uniformemente distribuidos e independientes de los contenidos en la serie x,
generada previamente. Por su parte, el comando

SERIES ind = (x^2 + y^2 <= 1)

genera una variable binaria (dummy) que toma únicamente los valores de 0 o 1. Esta sintaxis
explota las capacidades de EViews para manipular operadores lógicos, como la función
indicador 1{·}. Así, ind es igual a uno si el par de observaciones (x, y) pertenece al conjunto
A(x, y), y es igual a cero de otro modo. Las observaciones con ind = 1 corresponden a los
puntos oscuros del gráfico I.1(b), mientras que las observaciones con ind = 0 corresponden
a los puntos claros. De esta manera, el promedio de ind es la proporción que aproxima a
1
4
π. Una aproximación de π, entonces, puede ser recuperada a través del comando

!pi_aprox = 4*@MEAN(ind)

que genera un escalar temporal o volátil (es decir, que se elimina automáticamente tras la
ejecución del programa) de nombre !pi_aprox con 4 veces el promedio muestral de ind.
Si se desea que este escalar se preserve en el workfile luego de ejecutado el programa, debe
optarse por el comando SCALAR pi_aprox = 4*@MEAN(ind) (note que el uso del símbolo
! ya no es permitido). El programa Prog11_pi.prg varía el tamaño muestral sobre el que
se toma este promedio (el comando relevante es SMPL 1 !obs, donde !obs es el número
de observaciones), consiguiendo así distintas aproximaciones para distintos valores de R.

Para finalizar, es importante mencionar que no es necesario establecer resultados
adicionales para generalizar la Ley Débil de Grandes Números a contextos multivariados.
Nótese que bajo el segundo enfoque, donde el promedio muestral de ind busca aproximar a

7


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

la esperanza E(ind), el método de Monte Carlo efectivamente aproxima una integral doble.
Conviene verificar los detalles. Primero, el valor esperado del indicador de pertenencia al
conjunto A(x, y) viene dado por

E(ind) =

∫ 1

0

∫ 1

0

1{t2 + s2 ≤ 1}fxy (t, s)dtds =

∫ 1

0

∫ 1

0

1{t2 + s2 ≤ 1}fx(t)fy (s)dtds ,

donde fxy (·, ·) es la función de distribución conjunta de las variables aleatorias x e y . Dado
que x e y son independientes, se cumple que la función de distribución conjunta es igual al
producto de las funciones de distribución marginales, fxy (t, s) = fx(t)fy (s). Más aún, al ser
ambas variables uniformemente distribuidas en el soporte [0, 1], fx(t) = fy (s) = 1. Así, se
tiene que

E(ind) =

∫ 1

0

∫ 1

0

1{t2 + s2 ≤ 1}dtds =

∫ 1

0

(∫ 1

0

1{t2 + s2 ≤ 1}ds
)
dt .

La integral interna puede descomponerse como la suma de dos integrales. En la primera,
el dominio de integración son los valores de s entre 0 y s(t) ≡

√
1− t2, región en donde

el par (t, s) pertenece al conjunto A(·, ·). En la segunda, el dominio de integración abarca
los valores de s entre s(t) y 1, y corresponde a la región fuera del conjunto A(·, ·). De esta
manera, la esperanza de ind se simplifica a

E(ind) =

∫ 1

0

(∫ s(t)

0

1 · ds +

∫ 1

s(t)

0 · ds

)
dt =

∫ 1

0

(∫ s(t)

0

ds

)
dt .

Finalmente, al resolver la integral interior resultante se consigue el resultado deseado

E(ind) =

∫ 1

0

s(t)dt =

∫ 1

0

√
1− t2dt =

π

4
.

I.3 Muestreando distribuciones conocidas

El método de Integración de Monte Carlo se basa en un resultado asintótico (la Ley Débil
de Grandes Números) que emerge cuando R→∞. Por ello, la calidad de las aproximaciones
obtenidas con este método dependerá del valor de R elegido. Desafortunadamente, no
existen “fórmulas mágicas” o criterios ampliamente aceptados para elegir un valor adecuado
del número de repeticiones. Lo único que puede concluirse con certeza es que cuanto más
grande R, mejor será la calidad de la aproximación5.

5 Existen varias técnicas de reducción de varianza (variables antitéticas, variables de control, muestreos de
importancia, entre otras) que permiten incrementar la precisión de las simulaciones sin necesidad de incrementar
R. Estas técnicas no son desarrolladas en este texto, ya que para los problemas que se analizan el uso de “fuerza
bruta”, es decir el simple incremento R, es una solución que acarrea un costo computacional razonable. Para
mayor detalle sobre estas técnicas, consúltese el capítulo 13 de Davidson y MacKinnon (1993).

8


APUNTES DE ESTUDIO

Pero ¿cuán grande debería ser R? Quizá la mejor respuesta es “lo más grande posible”.
Ello dependerá de la complejidad del problema bajo estudio y de la rapidez con la que el
procesador pueda realizar las simulaciones. Para problemas simples o fáciles de evaluar,
valores razonables de R podrían ser algunas decenas de miles, mientras que para problemas
más complejos muchas veces nos tenemos que contentar con unos cientos de repeticiones.
A lo largo de este texto, se utilizarán valores relativamente elevados de R, con el propópisto
de aminorar la influencia de los errores de simulación en nuestras aproximaciones. No
obstante, las principales conclusiones cualitativas usualmente pueden obtenerse con un
número considerablemente menor de repeticiones, del orden de unos pocos miles.

El programa Prog12_MC.prg implementa un ejercicio de Monte Carlo diseñado para
ilustrar la sensibilidad de las aproximaciones al valor de R. Este programa genera números
aleatorios de un grupo de distribuciones conocidas y ∼ fy (·) cuyos momentos de interés
tienen una forma analítica exacta, y compara estos valores con las aproximaciones obtenidas
para R = 10i repeticiones, donde i = 2, 3, 4, 5. En particular, el interés se centra en la media
de la distribución µ, su varianza σ2 y el valor del percentil 90, Q90.

Recuerde que si Fy (·) denota la función de distribución acumulada de y , el α-ésimo
percentil es el (mínimo) valor Qα que satisface Fy (Qα) = 1

100
α. No debería sorprender el

hecho de que el percentil muestral, calculado tras ordenar ascendentemente los R valores
de y en la muestra e identificar aquel valor que se ubica en la R

100
α-ésima posición, converge

en probabilidad a Qα conforme R→∞6.

El cuadro I.1 presenta los resultados. Las filas etiquetadas con µ corresponden a la
media; las etiquetadas con σ2, a la varianza; y las de nombre Q90, al percentil 90. Los
valores teóricos de cada una de estas cantidades se muestran en la columna R → ∞.
Dependiendo del estadístico de interés y de la distribución de la que provienen los datos, las
aproximaciones obtenidas con R = 100 repeticiones pueden resultar razonables, aunque en
términos generales los errores de aproximación son notorios, de entre 5 % y 20 %. Asimismo,
en todos los casos, se aprecia una mejora sustancial en la precisión de estas aproximaciones
al incrementar el número de repeticiones a R = 1, 000. Las aproximaciones son casi
indistinguibles de los valores teóricos con R = 10, 000 y, más aún, con R = 100, 000.

La estructura del programa Prog12_MC.prg es bastante simple. En un workfile con 105

observaciones, se generan números aleatorios almacenados en la serie y. Luego, se ejecuta
un bucle que incrementa el tamaño muestral secuencialmente de manera exponencial: de
102 a 103, a 104 y a 105. Finalmente, para cada tamaño muestral se calculan y almacenan
los estadísticos de interés. Explícitamente,

6 Se consigue este resultado al notar que el percentil muestral qα se define como FDEy (qα) = 1
100
α, y por tanto

FDEy (qα) = Fy (Qα), donde FDEy (·) es la función de distribución empírica de y . Se sabe que para cualquier A,
plimFDEy (A) = Fy (A), por lo que plimFDEy (qα) = Fy (qα). Al utilizar las igualdades resultantes, se concluye
que plim qα = Qα.

9


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Cuadro I.1 Aproximación de cantidades poblacionales para distribuciones conocidas

R = 102 R = 103 R = 104 R = 105 R→∞

Uniforme U(0, 1) µ 0.546 0.492 0.498 0.500 0.500
σ2 0.088 0.083 0.082 0.083 0.083
Q90 0.914 0.897 0.896 0.901 0.900

4 · EEN 0.114 0.036 0.011 0.004

Normal N(0, 1) µ −0.056 −0.013 0.000 0.001 0.000
σ2 0.858 1.052 1.006 0.998 1.000
Q90 1.012 1.283 1.278 1.282 1.282

4 · EEN 0.444 0.124 0.039 0.012

t de Student t(4) µ −0.312 −0.028 0.007 0.001 0.000
σ2 2.583 2.156 2.015 2.001 2.000
Q90 1.304 1.554 1.529 1.534 1.533

4 · EEN 0.633 0.182 0.056 0.018

Chi cuadrado χ2(3) µ 3.300 3.140 3.033 3.007 3.000
σ2 6.202 6.155 6.090 6.043 6.000
Q90 6.791 6.405 6.239 6.268 6.251

4 · EEN 0.934 0.312 0.096 0.030

Exponencial exp(5) µ 4.749 4.910 4.958 5.001 5.000
σ2 21.818 24.918 24.854 25.043 25.000
Q90 9.941 11.253 11.474 11.547 11.513

4 · EEN 1.922 0.597 0.199 0.062

Beta B(3, 2) µ 0.613 0.602 0.604 0.601 0.600
σ2 0.040 0.039 0.039 0.040 0.040
Q90 0.862 0.862 0.859 0.858 0.857

4 · EEN 0.074 0.024 0.008 0.002

Notas: (Prog12_MC.prg) Las filas etiquetadas con µ corresponden a la media; las etiquetadas con σ2, a la varianza;
y las de nombre Q90, al percentil 90. Los valores teóricos de cada una de estas cantidades se muestran en la
columna R → ∞. En el caso de las medias y varianzas se tiene lo siguiente: para y ∼ U(a, b), µ = (a + b)/2 y
σ2 = (b − a)2/12; para y ∼ N(0, 1), µ = 0 y σ2 = 1; para y ∼ t(ν), µ = 0 y σ2 = ν/(ν − 2); para y ∼ χ2(ν),
µ = ν y σ2 = 2ν; para y ∼ exp(a), µ = a y σ2 = a2; y, finalmente, para y ∼ B(a, b), µ = a/(a + b) y
σ2 = ab/[(a+b)2(a+b−1)]. En el caso de los percentiles, se utilizan, respectivamente, los siguientes comandos
de integración exacta de EViews: @QNORM(0.9), @QTDIST(0.90, !v), @QCHISQ(0.90, !v), @QEXP(0.90, !a) y
@QBETA(0.90, !a, !b). Las filas de nombre 4 ·EEN muestran el valor aproximado del ancho del intervalo al 95%
de confianza de la media.

FOR !i = 2 TO 5
!obs = 10^!i
SMPL 1 !obs
Cálculo y almacenamiento del promedio, @MEAN(y)
Cálculo y almacenamiento de la varianza, @VAR(y)
Cálculo y almacenamiento del percentil 90, @QUANTILE(y, 0.90)

NEXT !i

10


APUNTES DE ESTUDIO

Las distribuciones utilizadas y los comandos que generan los correspondientes números
aleatorios son los siguientes (considere que los escalares !a, !b, !mu, !sigma2 y !v han
sido definidos previamente en el programa):

Uniforme, y ∼ U(a, b), SERIES y = !a + (!b - !a)*RND

Normal, y ∼ N(µ, σ2), SERIES y = !mu + @SQRT(!sigma2)*NRND

t de Student, y ∼ t(ν), SERIES y = @RTDIST(!v)

Chi cuadrado, y ∼ χ2(ν), SERIES y = @RCHISQ(!v)

Exponencial, y ∼ exp(a), SERIES y = @REXP(!a)

Beta, y ∼ B(a, b), SERIES y = @RBETA(!a,!b)

Al revisar los resultados del cuadro I.1, se confirma que para problemas relativamente
simples, algunos miles de repeticiones proveen aproximaciones bastante aceptables. No
obstante, considerando que la ejecución del programa Prog12_MC.prg tarda tan solo
unos segundos en una computadora moderna (que no es particularmente sofisticada),
el costo computacional de utilizar algunas decenas de miles repeticiones, y obtener así
aproximaciones realmente buenas, no es alto.

Otro punto por resaltar de los resultados del cuadro I.1 es una concavidad en la precisión
conforme R crece: la mejora de pasar de R = 100 a R = 1, 000 es cualitativamente similar
a la mejora de pasar de R = 1, 000 a R = 10, 000 y, a su vez, de pasar de R = 10, 000

a R = 100, 000. Es decir, se consiguen incrementos aproximadamente lineales en precisión
ante aumentos exponenciales en el número de repeticiones.

La explicación de este fenómeno se relaciona con el hecho de que el promedio muestral
ȳ , que es una aproximación de µ, es en sí mismo una variable aleatoria. En estricto, ȳ
es un estimador de µ, y al ser aleatorio presenta cierta dispersión. Dado que todas las
observaciones en la muestra {y1, y2, . . . , yR} provienen de la misma distribución, comparten
los mismos momentos: E(yi) = µ y V(yi) = σ2, para todo i = 1, 2, . . . , R, una consecuencia
de que el muestreo sea idéntico. Más aún, dado que el muestreo es también independiente,
la covarianza entre cualquier par de observaciones es igual a cero, C(yi , yj) = 0 para
i = 1, 2, . . . , R, j = 1, 2, . . . , R e i 6= j . Con ello,

E(ȳ) =
1

R
E

(
R∑
i=1

yi

)
=

1

R

R∑
i=1

E(yi) =
1

R

R∑
i=1

µ = µ ,

y

V(ȳ) =
1

R2
V

(
R∑
i=1

yi

)
=

1

R2

R∑
i=1

V(yi) + covarianzas =
1

R2

R∑
i=1

σ2 =
σ2

R
.

El promedio es una variable aleatoria centrada en µ y con una desviación estándar igual a
σ/
√
R. Al valor EEN = σ̂/

√
R, donde σ̂ es la desviación estándar muestral, se le conoce

como error estándar numérico y cuantifica la dispersión de ȳ alrededor de µ. En particular,

11


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

el Teorema del Límite central (que se estudia con detalle en la sección I.6) permite concluir
que cuando R es lo suficientemente grande, ȳ se comporta como una variable normalmente
distribuida. De este modo, puede construirse un intervalo de confianza para el valor de µ
como ȳ±zα ·EEN, donde zα es el α-ésimo percentil de una variable distribuida como normal
estándar. Para un intervalo del 95% de confianza, z2.5 ' 1.96. El ancho de este intervalo,
2 · zα · EEN, da una medida precisa de la calidad de ȳ como aproximación de µ.

En consecuencia, dado que EEN tiene como numerador
√
R, se explica la concavidad

en la precisión. Cuando R se ve multiplicado por 10, el ancho de los intervalos de confianza
asociados con la incertidumbre de estas aproximaciones se divide entre

√
10 ' 3.16. Este

es exactamente el comportamiento reportado en las filas de nombre 4 · EEN en el cuadro
I.1, que contienen el resultado de evaluar 4*@STDEV(y)/@SQRT(!obs). Desde la perspectiva
del ancho del intervalo de confianza para la media, se confirma que las simulaciones con
R = 1, 000 resultan en aproximaciones bastante aceptables, y que las aproximaciones
pueden ser excelentes si se dispone de suficiente poder computacional como para utilizar
R ≥ 10, 000.

I.4 Eficiencia del promedio y la mediana muestrales

A continuación, se utiliza el método de Integración de Monte Carlo para estudiar un
problema estadístico interesante. En econometría, es común encontrar varios estimadores
alternativos, con propiedades distintas, para un mismo parámetro poblacional de interés.
Surge, entonces, la necesidad de contar con criterios que permitan al investigador discriminar
entre estimadores y, a la larga, preferir un estimador sobre otro.

Una aplicación ampliamente documentada, y bastante ilustrativa, sobre esta disyuntiva
es la comparación entre el promedio y la mediana muestrales como estimadores de un
parámetro de locación µ. En adelante, considere una variable aleatoria y cuya función de
densidad fy (·) es simétrica, por lo que el parámetro de locación µ es igual tanto a la media
como a la mediana poblacional. Considere una muestra de tamaño T con observaciones
{y1, y2, . . . , yT } extraídas aleatoriamente de fy (·). Además, sea ȳ el promedio muestral y
sea ỹ la mediana muestral de y , calculados con esta muestra (mantenemos la dependencia
de T de estos estadísticos implícita para aliviar la notación).

La eficiencia relativa del promedio respecto a la mediana se define como

ER(ȳ , ỹ) =
V(ȳ)

V(ỹ)
.

En palabras, ER es simplemente la razón de varianzas de los dos estimadores alternativos7.

7 Un criterio de comparación más amplio es la razón de errores cuadráticos medios, E((ȳ − µ)2)/E((ỹ − µ)2).
Cuando los estimadores de µ en cuestión son insesgados, lo que de hecho ocurre con el promedio y la mediana
muestrales de datos provenientes de distribuciones simétricas E(ȳ) = E(ỹ) = µ, se tiene que E((ȳ−µ)2) = V(ȳ)
y E((ỹ − µ)2) = V(ỹ), por lo que la razón de errores cuadráticos medios equivale al criterio ER.

12


APUNTES DE ESTUDIO

Al involucrar varianzas, el criterio ER alude a la precisión con la que los estimadores
aproximan a µ en una muestra. La interpretación más directa del criterio es la siguiente: se
necesita una muestra de T × ER(ȳ , ỹ) observaciones para que la varianza de la media sea
igual a la varianza de la mediana calculada en una muestra de T observaciones. De esta
forma, si ER(ȳ , ỹ) > 1, entonces se favorece a la mediana ỹ como un estimador de µ con
mejores propiedades; mientras que si ER(ȳ , ỹ) < 1, entonces la media ȳ es el estimador
dominante.

Como se discutió en la sección anterior, para un muestreo aleatorio e idéntico (todas
las observaciones en la muestra provienen de la misma distribución), donde V(y) = σ2 es
la varianza de la observación típica en la muestra,

V(ȳ) =
σ2

T
.

Si bien es cierto que no se cuenta con un resultado exacto para la mediana, cuando T es
relativamente grande se tiene que

V(ỹ) ' 1

4T fy (µ)2
,

donde fy (µ) es el valor de la función de densidad de y evaluada en la mediana µ (típicamente,
es el máximo valor de la función de densidad). Con ello,

ER(ȳ , ỹ) ' 4σ2fy (µ)2 .

En el caso de una distribución normal con parámetro de locación (media) µ y varianza
σ2, se tiene como función de densidad a

fy (y) =
1√
2πσ

exp

{
−1

2

(
y − µ
σ

)2
}
,

por lo que fy (µ)2 = (2πσ2)−1 y, finalmente, ER(ȳ , ỹ) = 2/π ' 0.64 < 1: la media es un
estimador de µ más eficiente que la mediana. La mediana requiere de 100 observaciones
para alcanzar el nivel de precisión que la media consigue con 64 observaciones.

Se sabe que la mediana es un estimador de locación robusto, insensible a observaciones
extremas o outliers. Para datos normalmente distribuidos, las observaciones extremas son
lo suficientemente infrecuentes como para que la pérdida en eficiencia (la mayor varianza
de la mediana relativa al promedio) resulte ser un precio muy alto que pagar por una mayor
robustez. No obstante, la mediana podría ser el estimador dominante en un contexto de
observaciones extremas más frecuentes.

Investigamos esta posiblidad a través del estudio de Monte Carlo disponible en el
programa Prog13_Eficiencia.prg. Acá, se muestrean datos provenientes de distribuciones
t de Student con ν grados de libertad. Esta distribución es sumamente conveniente, ya que,

13


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Gráfico I.2 Colas anchas y eficiencia relativa del promedio y la mediana

(a) Distribuciones Cauchy y normal (b) Eficiencia relativa promedio/mediana

−4 −2 0 2 4
0.0

0.1

0.2

0.3

0.4

 
Cauchy
Normal

2 4 6 8 10 12 14 16 18 20

0.6

0.8

1.0

1.2

1.4

1.6

2/π

Notas: (Prog13_Eficiencia.prg) El panel (a) ilustra que la distribución Cauchy (o, en términos más generales,
distribuciones t de Student con pocos grados de libertad) presenta colas mucho más anchas que la distribución
normal y, por tanto, una mayor probabilidad de ocurrencia de valores extremos. El panel (b) muestra el valor
simulado de ER(ȳ , ŷ), en el eje vertical, como función del número de grados de libertad ν, en el eje horizontal.

además de ser simétrica, permite calibrar la ocurrencia de eventos extremos únicamente con
el parámetro ν.

Cuando ν es grande, el comportamiento de la distribución t de Student es muy parecido
al de una distribución normal estándar (de hecho, cuando ν → ∞ ambas distribuciones
coinciden). Por el contrario, cuando ν es pequeño, la distribución t de Student presenta
colas anchas, asignando así una mayor probabilidad a la ocurrencia de valores extremos.
El caso límite ocurre con ν = 1, que es cuando la distribución t de Student pasa a ser
una distribución Cauchy. Esta distribución es famosa en estadística porque ninguno de
sus momentos (media, varianza, asimetría o curtosis) está bien definido. El gráfico I.2(a)
compara las densidades de una distribución Cauchy y una distribución normal estándar,
y se aprecia que la primera presenta colas considerablemente más anchas que la segunda.
Cuando ν > 1, la media de la distribución t de Student se encuentra bien definida, y es igual
a cero, mientras que cuando ν > 2, también lo está su varianza, que es igual a ν/(ν − 2).

En el programa, dado el número de grados de libertad !v, se muestrean números
aleatorios de una distribución t de Student con el comando

SERIES y = @RTDIST(!v) ,

que se ejecuta para un tamaño muestral de !T observaciones, aplicando antes la instrucción
SMPL 1 !T. En la iteración !i, tras el muestreo, se almacenan los estimadores

14


APUNTES DE ESTUDIO

promedio(!i) = @MEAN(y)
mediana(!i) = @MEDIAN(y) ,

donde las series (o vectores) promedio y mediana, previamente definidas, contienen !R
observaciones. Al término de las !R repeticiones, se almacenan los criterios de eficiencia
relativa en un vector de nombre ER,

ER(!v) = @VAR(promedio)/@VAR(mediana) .

Este procedimiento se repite para varios valores de !v.

El gráfico I.2(b) presenta los resultados de simulaciones con T = 100 observaciones
y R = 100, 000 repeticiones. En particular, se grafica la aproximación de Monte Carlo
de ER(ȳ , ỹ) como función de ν. Dado el gran número de repeticiones empleado en las
simulaciones, se espera que el error de simulación en el cálculo de estos criterios sea
realmente reducido. Se confirma que la mediana es un estimador más eficiente que la media
para muestreos con valores extremos recurrentes. En particular, se aprecia que ER > 1 para
ν ≤ 4. Para ν = 1, la eficiencia relativa es infinitamente más favorable para la mediana, lo
que se refleja en valores simulados de ER realmente elevados (recuerde que en este caso
la media de la distribución no existe), mientras que para ν = 2 se tiene que ER ' 8.34 y
para ν = 3, ER ' 1.62. Cuando ν = 5, la eficiencia de ambos estimadores es comparable,
ya que ER ' 0.97. Asimismo, se aprecia cómo ER→ 2/π < 1 conforme ν se incrementa.

I.5 Inferencia en modelos de regresión

Considere el siguiente modelo de regresión lineal,

yt = α+ βxt + εt ,

para t = 1, 2, . . . , T . Suponemos que los T valores {x1, x2, . . . , xT } se mantienen fijos
a lo largo de muestreos repetidos, mientras que εt es una variable aleatoria idéntica e
independientemente distribuida, de media cero y varianza σ2. Estos supuestos se imponen
por simplicidad, para facilitar el álgebra que sigue. Cabe mencionar que se llegaría a
resultados similares si se permitiese que xt sea aleatorio, pero independiente de εt . El
interés se centra en estimar e inferir sobre el parámetro β.

Disponemos de tres alternativas. En primer lugar, de acuerdo con lo indicado por este
proceso generador de datos, se estiman los parámetros α y β directamente por mínimos
cuadrados ordinarios (MCO), al regresar yt sobre una constante y xt . En este caso, el
estimador de β es igual a

bMCO =

∑T
t=1(xt − x̄)(yt − ȳ)∑T

t=1(xt − x̄)2
,

15


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

donde x̄ e ȳ son los promedios muestrales de xt e yt , respectivamente. Al reemplazar la
definición de yt en la expresión de bMCO se consigue que

bMCO = β +

∑T
t=1(xt − x̄)εt∑T
t=1(xt − x̄)2

,

expresando así al estimador bMCO en función del parámetro desconocido β y del término
de error no observable εt . El segundo término es una variable aleatoria (la razón de los
promedios de (xt− x̄)εt y de (xt− x̄)2) cuyas propiedades se transmiten al estimador MCO.
La esperanza de este segundo término, dado el supuesto de que xt no es aleatorio, es cero
(la esperanza de cada uno de los εt), mientras que su varianza es una suma de varianzas
(las covarianzas son cero, dado el supuesto de independiencia en εt). Así,

E(bMCO) = β y V(bMCO) =
σ2∑T

t=1(xt − x̄)2
.

El estimador MCO es insesgado, ya que su esperanza coincide con el parámetro sobre el
que el estimador busca inferir. Por su parte, la estimación MCO ostenta una interesante
propiedad de optimalidad (el conocido Teorema de Gauss-Markov): es el estimador que
presenta menor varianza, dentro de todos los posibles estimadores lineales e insesgados.

La segunda alternativa es un estimador restringido. Suponga que en lugar de estimar el
coeficiente α, se impone la restricción α = 0 y se procede a estimar β. Ahora, se regresa yt
directamente sobre xt , por lo que el estimador de mínimos cuadrados restringidos (MCR)
de β es igual a

bMCR =

∑T
t=1 xtyt∑T
t=1 x

2
t

.

Al reemplazar la definición de yt en la expresión de bMCR se consigue que

bMCR = β + α

(
T x̄∑T
t=1 x

2
t

)
+

∑T
t=1 xtεt∑T
t=1 x

2
t

,

expresando así al estimador bMCR en función de los parámetros desconocidos α y β y del
término de error no observable εt . El tercer término es una variable aleatoria (la razón
de los promedios de xtεt y de x2

t ) cuyas propiedades se transmiten al estimador MCR. La
esperanza de este tercer término, dado el supuesto de que xt no es aleatorio, es cero (la
esperanza de cada uno de los εt), mientras que su varianza es una suma de varianzas (las
covarianzas son cero, dado el supuesto de independiencia en εt). Por su parte, el segundo
término (que involucra a α) no es aleatorio y, por tanto, no contribuye a la variabilidad del
estimador. Así,

E(bMCR) = β + α

(
T x̄∑T
t=1 x

2
t

)
y V(bMCR) =

σ2∑T
t=1 x

2
t

.

16


APUNTES DE ESTUDIO

A menos que α = 0, el estimador MCR es sesgado, ya que su esperanza difiere del
parámetro sobre el que el estimador busca inferir. Recuerde que este estimador puede
entenderse como MCO aplicado a un modelo que ha impuesto la restricción α = 0. Si esta
es falsa, entonces emerge un sesgo en la estimación. Asimismo, imponer una restricción, al
margen de si es verdadera o falsa, reduce la variabilidad del estimador. Es simple verificar
que V(bMCR) < V(bMCO), a menos que x̄ = 0, en cuyo caso se tiene una igualdad. Es
importante mencionar que este resultado no contradice al Teorema de Gauss-Markov, que
establece un ordenamiento inequívoco entre estimados insesgados, ya que el estimador MCR
es sesgado.

La comparación entre los estimadores MCO y MCR en este sencillo marco analítico,
refleja resultados sumamente generales sobre el efecto que omitir variables relevantes o
incluir variables redundantes ocasiona sobre la estimación de parámetros. Si α 6= 0, entonces
el intercepto es un regresor relevante, ya que aparece en el proceso generador de datos.
Al excluirlo, emerge un sesgo a menos que x̄ = 0, que es la “correlación” entre el regresor
omitido y el incluido. La exclusión reduce la varianza, ya que se estima una menor cantidad
de coeficientes. Por otro lado, si α = 0, entonces el intercepto no forma parte del proceso
generador de datos, y el estimador que impone α = 0 es el estimador MCO sobre una
regresión correctamente especificada. El Teorema de Gauss-Markov indica que este sería
el mejor estimador (lineal) disponible. Y, de hecho, se tiene que el estimador que incluye
un intercepto (redundante, en esta ocasión), si bien sigue siendo insesgado, presenta una
mayor varianza (salvo que x̄ = 0).

En casos generales, es posible que el estimador MCR sesgado sea preferible al estimador
MCO insesgado, ya que su menor varianza podría más que compensar la presencia del
sesgo. Se trata, pues, de una comparación de errores cuadráticos medios (ECM). El ECM
es una distancia estadística muy aceptada como criterio de comparación de estimadores
con distintas propiedades. Un estimador es mejor en esta comparación, si es que produce
el menor ECM. Es simple mostrar que el ECM de un estimador es la suma de su varianza
más el cuadrado de su sesgo. Así,

ECM(bMCO) = E((bMCO − β)2) =
σ2∑T

t=1(xt − x̄)2
y

ECM(bMCR) = E((bMCR − β)2) = α2

(
T x̄∑T
t=1 x

2
t

)2

+
σ2∑T
t=1 x

2
t

.

Cuál estimador es preferible depende, entre otras cosas, de cómo se compara α2 con σ2.
Si α2 es pequeño en comparación con σ2, entonces el sesgo del estimador MCR será
pequeño y la reducción en su varianza lo hará preferible a MCO. Por el contrario, si α2

es grande, el sesgo del estimador MCR será el que más contribuya a su ECM, haciendo
que MCO sea un estimador con mejores propiedades. Se preferirá el estimador MCR si

17


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

ECM(bMCO) > ECM(bMCR), lo que implica en concreto que

α2 < σ2

( ∑T
t=1 x

2
t

T
∑T

t=1(xt − x̄)2

)
.

Dado que ninguno de estos estimadores es siempre dominante, posiblemente en la
práctica el investigador siga el siguiente procedimiento que busca determinar la importancia
de α. Primero, se estima la regresión MCO, sin restricciones. Luego se pregunta si tiene
suficiente evidencia para concluir (o no desmentir) que α = 0. Formalmente, se estudia
la hipótesis nula H0 : α = 0. Usualmente, se calcula el estadístico t asociado con esta
hipótesis, que denotamos como τα, y se le compara contra un valor crítico τcrit proveniente
de la distribución tT−2 (donde se pierden 2 grados de libertad por haber estimado α y β).
Puesto de modo más simple, se determina si el estimador de α es estadísticamente distinto
de cero o no. Si lo es, lo que ocurre si | τα | ≥ τcrit, entonces se concluye que el intercepto es
un regresor importante y se decide incluirlo en la regresión. Se opta, pues, por el estimador
MCO de β. En cambio, si resulta que | τα | < τcrit, podría concluirse que el intercepto no
es un regresor importante, lo que llevaría a optar por el estimador MCR de β.

Es bueno mencionar que el resultado de este procedimiento no es ni el estimador MCO
ni el estimador MCR. Es un estimador híbrido definido como

bPT =

{
bMCO, si | τα | > τcrit

bMCR, si | τα | ≤ τcrit

o, más compactamente,

bPT = 1{| τα | > τcrit} · bMCO + 1{| τα | ≤ τcrit} · bMCR .

El estimador bPT, que es probablemente el que sea utilizado en la práctica, es conocido
como el estimador pre-testing (PT) de β. Sus propiedades, a diferencia de los estimadores
MCO y MCR, no son fáciles de derivar porque se trata, en estricto, de un estimador no
lineal. El resultado de la prueba | τα | > τcrit depende de las propiedades de εt y, por tanto,
se encuentra correlacionado con bMCO y bMCR. Describir esta correlación es algo engorroso,
pero un ejercicio de simulación permite explorar estas propiedades fácilmente.

El programa Prog14_PreTesting genera un workfile de !R observaciones sobre el que
se ejecutarán estimaciones con un tamaño muestral predefinido de !T observaciones para
varios valores de α (!alpha). Las !T observaciones del regresor xt se generan por única
vez a inicios del programa (respondiendo al supuesto de que este regresor no es aleatorio).
Luego, se calculan las siguientes cantidades:

!sumx2 = @SUMSQ(x)
!sumxx2 = @SUMSQ(x - @MEAN(x))
!sigma2 = !T*!sumxx2/!sumx2
!sigma = @SQRT(!sigma2) .

18


APUNTES DE ESTUDIO

El escalar !sumx2 contiene a
∑

t x
2
t y el escalar !sumxx2 contiene a

∑
t(xt − x̄)2. Note que

la varianza del error σ2, contenida en el escalar !sigma2, es calibrada de tal manera que
cuando α2 = 1, entonces los ECM de los estimadores MCO y MCR son idénticos. Cuando
α2 < 1, luego, el ECM del estimador MCR es el menor.

El programa realiza varias estimaciones, con diversos valores de α. Este parámetro
tomará !nalpha valores equidistantes en el intervalo [!alphamin, !alphamax]. El cuerpo
del programa contiene los siguientes dos bucles:

FOR !ialpha = 1 TO !nalpha
!alpha = f (!alphamin, !alphamax, !ialpha, !nalpha)

SMPL @ALL
SERIES bMCO = NA
SERIES bMCR = NA
SERIES bMPT = NA
SERIES rechazo = 0

FOR !i = 1 TO !R
SMPL 1 !T
SERIES y = !alpha + !beta*x + !sigma*NRND

EQUATION MCO.LS y x C
bMCO(!i) = MCO.C(1)
!tstatC = MCO.@TSTATS(2)
EQUATION MCR.LS y x
bMCR(!i) = MCR.C(1)

IF @ABS(!tstatC) > !tcrit THEN
bPT(!i) = MCO.C(1)
rechazo(!i) = 1

ELSE
bPT(!i) = MCR.C(1)

ENDIF
NEXT !i

Almacenamiento de resultados

NEXT !ialpha

En primer lugar, se tiene un bucle asociado con el contador !ialpha que determina el valor
de !alpha. Cada vez que se inicia este bucle se generan series de nombre bMCO, bMCR y
bPT, que contendrán las !R realizaciones de los estimadores bajo estudio. Asimismo, se
genera una serie de nombre rechazo (inicialmente llena de ceros) que registrará el evento
| τα | > τcrit, es decir el rechazo de H0 : α = 0.

Luego, se tiene el bucle, de !R repeticiones que varían con el contador !i, que
implementa la Integración de Monte Carlo. Primero, se generan los datos con el

19


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

comando SERIES y = !alpha + !beta*x + !sigma*NRND bajo una muestra activa de
!T observaciones, SMPL 1 !T. El verdadero valor de β (que no es muy relevante)
se almacena en el escalar !beta. Asimismo, se asume normalidad: εt ∼ N(0, σ2).
Una vez generados los datos (note que x no varía con !i), se calcula el estimador
MCO en la ecuación EQUATION MCO.LS y x C, se almacena bMCO con el comando
bMCO(!i) = MCO.C(1), y se recupera, además, el ratio τα de significación del intercepto
estimado, !tstatC = MCO.@TSTATS(2). Análogamente, se ejecuta la estimación restringida
EQUATION MCR.LS y x y se almacena bMCR con el comando bMCR(!i) = MCR.C(1).
Finalmente, se procede a calcular el estimador PT. Si τα es mayor que τcrit, previamente
almacenado en el escalar !tcrit = @QTDIST(0.975, !T - 2), entonces el estimador PT
es igual al estimador MCO, bPT(!i) = MCO.C(1), de otro modo es igual al estimador MCR,
bPT(!i) = MCR.C(1). Note que ante el rechazo, se asigna el valor de 1 a la serie rechazo.

Al término de las !R repeticiones, las series bMCO, bMCR, bPT y rechazo se encuentran
llenas de valores, listas para ser analizadas. Llegó el momento de almacenar los resultados.
Para ello, previamente se han definido las matrices Rsesgo, Rvar y Recm, cada una con
!nalpha filas y 6 columnas. La primera columna contiene los valores de α; la segunda
columna, el resultado (sesgo, varianza o ECM) obtenido mediante simulación del estimador
MCO; la tercera, el resultado analítico del estimador MCO; la cuarta, el resultado obtenido
mediante simulación del estimador MCR; la quinta, el resultado analítico del estimador
MCR; y, finalmente, la sexta columna contendrá el resultado simulado del estimador PT.
Los resultados de la Integración de Monte Carlo son, luego:

SMPL @ALL
Rsesgo(!ialpha, 1) = !alpha
Rsesgo(!ialpha, 2) = @MEAN(bMCO - !beta)
Rsesgo(!ialpha, 4) = @MEAN(bMCR - !beta)
Rsesgo(!ialpha, 6) = @MEAN(bPT - !beta)

Rvar(!ialpha, 1) = !alpha
Rvar(!ialpha, 2) = @VAR(bMCO - !beta)
Rvar(!ialpha, 4) = @VAR(bMCR - !beta)
Rvar(!ialpha, 6) = @VAR(bPT - !beta)

Recm(!ialpha, 1) = !alpha
Recm(!ialpha, 2) = @SUMSQ(bMCO - !beta)/!R
Recm(!ialpha, 4) = @SUMSQ(bMCR - !beta)/!R
Recm(!ialpha, 6) = @SUMSQ(bPT - !beta)/!R .

Por brevedad, no se presenta el registro de los resultados analíticos (columnas 3 y 5), pero
puede ser consultado en el programa mismo. Note que las esperanzas son reemplazadas
por promedios a lo largo de repeticiones, siguiendo los principios del método de Monte
Carlo. Finalmente, también se ha definido un vector de nombre PrMCO con !nalpha filas
y 2 columnas. La primera columna contiene los valores de α y la segunda, la probabilidad

20


APUNTES DE ESTUDIO

de que la prueba t del estimador de α rechace H0 : α = 0, que es convenientemente
aproximada mediante una frecuencia relativa:

PrMCO(!ialpha, 1) = !alpha
PrMCO(!ialpha, 2) = @MEAN(rechazo) .

Al término del programa, los comandos PrMCO.XY, Rsesgo.XY, Rvar.XY y Recm.XY
producen gráficos de líneas con los valores de la primera columna sobre el eje horizontal, y los
valores correspondientes del resto de columnas sobre el eje vertical. El gráfico I.3 presenta
estos resultados, utilizando !nalpha = 25, !alphamin = 0, !alphamax = 3 (recuerde que,
por construcción, !alpha = 1 es un punto donde el ECM de los estimadores MCO y MCR
es el mismo) y R = 100, 000 repeticiones.

Se confirman varias conclusiones analíticas. Primero, en el panel (b) se aprecia que MCO
es un estimador insesgado, mientras que el sesgo del estimador MCR crece linealmente con
α. Segundo, en el panel (c) se observa que la varianza del estimador MCR es siempre menor
que la del estimador MCO, y ninguna de ellas depende de α. Finalmente, en el panel (d) se
aprecia que toda vez que α < 1, el ECM del estimador MCR será menor que el de MCO;
de otro modo (α > 1), MCO será el estimador que ostente el menor ECM.

El panel (a) del gráfico I.3 muestra la probabilidad de | τα | > τcrit como función de α.
Como era de esperarse, es cada vez más probable que la estimación MCO de α arroje un
coeficiente estadísticamente significativo, cuanto mayor sea el verdadero valor de α. En el
límite, conforme α → ∞, Pr(| τα | > τcrit) → 1. Esta probabilidad afecta las propiedades
del estimador PT. Note, en particular, que en el límite descrito, bPT → bMCO. No obstante,
para valores finitos de α el estimador PT presenta propiedades muy distintas a MCO.

En el panel (b) se aprecia que, toda vez que α 6= 0, el estimador PT es sesgado. La
razón es que siempre existe una probabilidad positiva de que bPT = bMCR. El sesgo es menor
que el del estimador MCR, pero mayor que el de MCO. Llama la atención, no obstante, el
comportamiento de la varianza del estimador PT, mostrada en el panel (c). En la región
donde MCR domina (α < 1), PT es más variable que MCR, ya que incorpora la fuente de
incertidumbre adicional de determinar si | τα | > τcrit o no. Del mismo modo, cuando MCO
es dominante (α > 1), PT es más variable que MCO, por el mismo motivo. Se tiene, como
resumen, el siguiente resultado mostrado en el panel (d): existe una región donde MCR es
el estimador dominante (α < 1, donde el sesgo es reducido) y una región donde MCO es
preferible (α > 1, donde el sesgo es considerable), pero en ningún caso el estimador PT
domina. Nuevamente, este resultado es el reflejo de las distorsiones que el determinar si
| τα | > τcrit, una prueba sujeta a error muestral, genera sobre las propiedades del estimador
PT (sobre todo por el lado de la varianza).

El gráfico I.4 muestra, para varios valores de α, las distribuciones muestrales de los
tres estimadores estudiados. Estas distribuciones (que son del tipo kernel automáticas)

21


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Gráfico I.3 Desempeño de los estimadores MCO, MCR y PT

(a) Pr(| τα | > τcrit) (b) Sesgo

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.3

0.6

0.9

1.2

1.5

1.8

 
MCO
MCR
PT

(c) Varianza (d) Error cuadrático medio

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.5

1.0

1.5

2.0

2.5

3.0

 
MCO
MCR
PT

0.0 0.5 1.0 1.5 2.0 2.5 3.0

 1.0

 1.5

 2.0

 2.5

 3.0

 3.5

 4.0

 4.5

 
MCO
MCR
PT

Notas: (Prog14_PreTesting.prg) El panel (a) muestra, en el eje vertical, el promedio de 1{| τα | > τcrit} a lo
largo de R = 100, 000 repeticiones y para 25 valores de α, en el eje horizontal. Los paneles (b), (c) y (d) muestran
aproximaciones de E(b − β), V(b) y E((b − β)2), respectivamente.

se generan con el comando g.DISTPLOT(S) KERNEL, donde g es un grupo que contiene las
series simuladas: GROUP g bMCO bMCR bPT.

Dado que εt ∼ N(0, σ2) en las simulaciones, es simple verificar que las distribuciones
muestrales de bMCO y de bMCR son también normales. La primera es centrada en β, y la
segunda es menos variable y centrada en β + α. Luego, la distribución de bPT será una
mixtura de normales, cuyas propiedades dependerán de α, en estricto de Pr(| τα | > τcrit).
Es interesante notar cómo la distribución de bPT pasa de ser muy cercana a la de bMCR, a
parecerse a la de bMCO conforme α se incrementa. En el proceso es usual que bPT presente
una distribución bimodal. Se aprecia, además, cómo cuando α < 1 la distribución de bPT
es más variable que la de bMCR, mientras que es más variable que la de bMCO cuando α > 1.

22


APUNTES DE ESTUDIO

Gráfico I.4 Distribuciones muestrales de los estimadores MCO, MCR y PT

(a) α = 0.5, Pr(| τα | > τcrit) = 0.08 (b) α = 1.0, Pr(| τα | > τcrit) = 0.16

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

(c) α = 1.5, Pr(| τα | > τcrit) = 0.30 (d) α = 2.0, Pr(| τα | > τcrit) = 0.47

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

(e) α = 2.5, Pr(| τα | > τcrit) = 0.66 (f) α = 3.0, Pr(| τα | > τcrit) = 0.81

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

−5 −4 −3 −2 −1 0 1 2 3 4 5
0

0.1

0.2

0.3

0.4

0.5

 
MCO
MCR
PT

Notas: (Prog14_PreTesting.prg) Densidades kernel (automáticas) para R = 100, 000 repeticiones.

23


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

I.6 Leyes asintóticas importantes

Como se ha visto, obtener resultados analíticos en muestras finitas sobre las propiedades
de estadísticos y estimadores de interés puede ser sumamente engorroso o podría requerir
de supuestos muy restrictivos. La teoría asintótica provee un marco de análisis en donde se
estudian estas propiedades a medida que el tamaño muestral va creciendo indefinidamente,
T → ∞. Este límite “elimina” la aleatoriedad observada en la muestra (digamos, la
variabilidad muestral) y provee aproximaciones del comportamiento de los estadísticos en
muestras grandes.

Considere una muestra de tamaño T con observaciones {y1, y2, . . . , yT } extraídas
aleatoriamente de una misma función de distribución fy (·). Es decir, el muestreo es idéntico
e independiente. Presentamos dos resultados asintóticos sobre el comportamiento del
promedio muestral ȳ bajo estas condiciones, y que son válidos para cualquier función de
distribución fy (·). Estos son resultados de primera importancia para el análisis econométrico
porque los estimadores econométricos de interés pueden expresarse como funciones de
promedios muestrales, y porque permiten al investigador prescindir de supuestos sobre las
características de fy (·). En la práctica, se compensa la falta de conocimiento (o de interés)
sobre esta función de distribución con una mayor cantidad de datos en la muestra.

El primer resultado es el Teorema de Khinchine, presentado previamente como el
principio fundamental detrás del método de Integración de Monte Carlo: el promedio
muestral converge en probabilidad a la esperanza de la observación típica de la muestra,

ȳ =
1

T

T∑
i=1

yi
p−→ µ conforme T →∞ ,

donde E(y) = µ.

El segundo resultado es el Teorema del Límite Central, cuya versión más estilizada se
conoce como el Teorema de Lindeberg-Lévy. Para motivar el resultado de este teorema,
suponga inicialmente que fy (·) es una distribución normal: yi ∼ N(µ, σ2) para todo
i = 1, 2, . . . , T . Con ello, la distribución muestral del promedio ȳ es igual a

ȳ ∼ N
(
µ,
σ2

T

)
o, alternativamente,

√
T (ȳ − µ) ∼ N(0, σ2) .

Este es un resultado exacto que se cumple para cualquier tamaño muestral.

El Teorema del Límite Central provee un resultado similar asintóticamente. Nuevamente,
considere que fy (·) es arbitraria. El único requerimiento es que E(y) = µ y V(y) = σ2 sean
cantidades finitas. Luego,

√
T (ȳ − µ)

d−→ N(0, σ2) conforme T →∞ .

24


APUNTES DE ESTUDIO

Es decir que en muestras grandes los promedios muestrales tienden a comportarse como
variables normalmente distribuidas sin importar cuál es la distribución de la que provienen
los datos. La utilidad práctica de este postulado es que los ejercicios de inferencia, por
ejemplo la construcción de intervalos de confianza para µ, pueden ser basados en la
normalidad de ȳ . Es importante enfatizar que la normalidad de ȳ en muestras grandes
es un resultado, no un supuesto.

El programa Prog15_LeyesAsintoticas.prg implementa una serie de experimentos
de Monte Carlo con el propósito de ilustrar el funcionamiento de estas leyes asintóticas.
Partiendo de u ∼ N(0, 1), se generan variables aleatorias de la forma

y =
ua − E(ua)√

E(u2a)− E(ua)2
,

donde a es un número entero. Note que y es una variable estandarizada, de modo que para
cualquier valor de a, E(y) = 0 y V(y) = 1. Conforme a se incrementa, la distribución de y
se vuelve cada vez más asimétrica, con una cola larga hacia la derecha. El caso de a = 1

corresponde a y ∼ N(0, 1) y, por tanto, a puede interpretarse como una medida de desvío
de la normalidad. Asimismo, se dispone de resultados analíticos para a = 1: ȳ ∼ N(0, 1/T )

y
√
T ȳ ∼ N(0, 1). Las medias y varianzas muestrales serán las mismas para a 6= 1, pero las

distribuciones muestrales variarán con T .

Para un valor de a se generan T números aleatorios y y se calcula su promedio ȳ y√
T ȳ . Este procedimiento se repite un gran número de veces (R = 100, 000) y se reporta

la distribución muestral de estos estadísticos. Dado el gran número de repeticiones en la
simulación, esta distribución simulada será prácticamente idéntica a la distribución muestral
analítica (desconocida).

El panel (a) del gráfico I.5 muestra cómo opera la Ley de Grandes Números. Conforme
T se incrementa, la distribución muestral de ȳ va concentrando cada vez más masa
probabilística alrededor de E(y) = 0. Ello refleja que muestrear cada vez más observaciones
de y , provenientes de la misma distribución, provee información creciente para caracterizar
tal variable aleatoria. En particular, dado que V(ȳ) = 1/T , cuando T se incrementa, la
dispersión de distintas realizaciones de ȳ alrededor de E(ȳ) = 0 se amortigua. En el límite,
conforme T → ∞, V(ȳ) irá convergiendo a cero, por lo que ȳ dejará de ser aleatorio.
Gráficamente, la distribución muestral de ȳ colapsa a una masa de probabilidad igual a 1,
ubicada en E(ȳ) = E(y), tal y como predice la Ley Débil de Grandes Números.

El panel (b) muestra la distribución muestral de
√
T ȳ para a = 4 (la distribución de y es

bastante asimétrica) y para distintos valores de T . Note que a diferencia de lo ocurrido con la
distribución de ȳ , estas distribuciones muestrales no colapsan conforme T →∞. La razón
es simple. La multiplicación de ȳ por

√
T estabiliza la varianza del promedio y evita que

esta converja a cero. En concreto, para todo T se tiene que V(
√
T ȳ) = T V(ȳ) = 1. Tras

estabilizar la varianza y mantener la media, que en todo caso es cero,
√
T ȳ =

√
T (ȳ−E(ȳ)),

se aprecia que mayores valores de T van redituando distribuciones cada vez más cercanas a la

25


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

Gráfico I.5 Ley de Grandes Números y Teorema del Límite Central

(a) Distribución muestral de ȳ (a = 4) (b) Distribución muestral de
√
T ȳ (a = 4)

−0.4 −0.2 0 0.2 0.4
0.0

1.0

2.0

3.0

4.0

5.0

6.0

 
T = 25
T = 50
T = 100
T = 200

−2 −1 0 1 2
0

0.2

0.4

0.6

 
T = 25
T = 50
T = 100
T = 200

(c) Distribución muestral de
√
T ȳ (T = 25) (d) Distribución muestral de

√
T ȳ (T = 100)

−2 −1 0 1 2
0.0

0.2

0.4

0.6

0.8

1.0

 
a = 6
a = 4
a = 2
a = 1

−2 −1 0 1 2
0.0

0.2

0.4

0.6

0.8

1.0

 
a = 6
a = 4
a = 2
a = 1

Notas: (Prog15_LeyesAsintoticas.prg) Se muestran densidades kernel (automáticas) de ȳ y
√
T ȳ para un total

R = 100, 000 repeticiones.

normal estándar. En particular, se observa cómo a medida que T se incrementa, la asimetría
en las distribuciones muestrales va reduciéndose y sus modas van aproximándose a E(y) = 0.
Este es el principal postulado del Teorema del Límite Central. Es importante enfatizar
que mientras que la Ley Débil de Grandes Números alude a un límite probabilístico (una
esperanza), el Teorema del Límite Central describe el comportamiento de la distribución
límite de una variable (que no deja de ser) aleatoria (convergencia en distribución).

Los paneles (c) y (d) permiten reflexionar sobre el alcance del Teorema del Límite Central
y, en particular, sobre la idoneidad del uso de la distribución normal como aproximación de
la distribución muestral. En ambos paneles, los casos donde a = 1 corresponden a la
distribución normal estándar predicha por el Teorema del Límite Central. En el panel (c)

26


APUNTES DE ESTUDIO

se aprecia que para tamaños muestrales reducidos (T = 25 en este caso), no hay garantía
de que las aproximaciones asintóticas sean satisfactorias. Esto es particularmente cierto
cuando la distribución de y es lejana a la normal (a = 4 y a = 6), características que se
transmiten a las distribuciones muestrales del estadístico de interés (el promedio). Por su
parte, el panel (d) muestra cómo un mayor tamaño muestral (en este caso se pasa de T = 25

a T = 100) aminora los efectos de la no-normalidad y da respaldo empírico al Teorema
del Límite Central. En resumen, cuando el tamaño de la muestra es lo suficientemente
grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal
(por ejemplo, no son muy asimétricas), las aproximaciones asintóticas proveen un marco de
inferencia adecuado. Cuán grande debe ser T depende de las características poblacionales
de y y es, por tanto, una pregunta abierta. Por ejemplo, para a ≤ 2, T = 25 parece ser
razonable, mientras que T = 100 provee aproximaciones aceptables para a ≤ 4.

El programa Prog15_LeyesAsintoticas.prg contiene elementos de programación para
la implementación de experimentos de Monte Carlo complejos que serán utilizados en varias
de las simulaciones presentadas a lo largo de este texto.

En particular, se obtienen resultados para valores cambiantes de T y de a. Partiendo del
supuesto de que R > T , se opera sobre un workfile de tamaño !R, previamente definido
por el usuario. Antes de iniciar los muestreos y de calcular los estadísticos muestrales
correspondientes, se definen los vectores Tvals y Avals, de dimensión !nTvals y !nAvals,
respectivamente, que contienen estos valores cambiantes. En el programa, estos vectores
son llenados con la sintaxis

Avals.FILL 1, 2, 4, 6

pero pueden ser llenados “a mano” (por ejemplo, Avals(3) = 4) sin ninguna pérdida de
generalidad.

Por su parte, también previamente al muestreo, se definen varias series para almacenar
los resultados de las simulaciones para cada repetición. En series de nombre DM{!a}_{!T}
se almacenan los R promedios muestrales ȳ para distintas combinaciones de a y T (de ahí
la dependencia de la serie de los escalares !a y !T), mientras que las series de nombre
DA{!a}_{!T} almacenan

√
T ȳ . Las distribuciones muestrales presentadas en el gráfico

I.5(a) son histogramas (en estricto, densidades kernel) de DM{!a}_{!T}, mientras que las
distribuciones (asintóticas) en el resto de paneles del gráfico I.5 provienen de DA{!a}_{!T}.

El cuerpo del programa contiene tres bucles: el primero para las repeticiones (!i que va
hasta !R), el segundo para los diversos valores de a (!ia que va hasta !nAvals) y el tercero
para los distintos valores de T (!it que va hasta !nTvals). Para cada repetición !i, se
genera una serie u de números aleatorios provenientes de una distribución normal estándar.
Esta serie contiene !Tmax observaciones, donde este escalar es definido previamente como
el máximo valor del vector de tamaños muestrales Tvals. Luego, utilizando estas mismas
realizaciones de u se calcula la serie y, también de tamaño !Tmax, que depende de !a, que

27


CAPÍTULO I. INTEGRACIÓN DE MONTE CARLO

a su vez varía con el contador !ia. Vale la pena mencionar que en la generación de y se
utilizan escalares temporales de la forma !Eu{!a} y !Eu{!a2} que han sido previamente
definidos a partir de las propiedades (conocidas) de la distribución normal estándar8. Luego,
se restringen los tamaños muestrales a SMPL 1 !T, donde !T varía con el contador !it. Así,
dados un valor !a y una muestra de tamaño !T, se procede a calcular el promedio muestral
!ybar y a almacenar los resultados en las series DM{!a}_{!T} y DA{!a}_{!T}. El proceso
se repite !R veces:

FOR !i = 1 TO !R
SMPL 1 !Tmax
SERIES u = NRND

FOR !ia = 1 TO !nAvals
!a = Avals(!ia)

!a2 = 2*!a
SERIES y = (u^{!a} - !Eu{!a})/@SQRT(!Eu{!a2} - !Eu{!a}^2)

FOR !it = 1 TO !nTvals
!T = Tvals(!it)

SMPL 1 !T
!ybar = @MEAN(y)
DM{!a}_{!T}(!i) = !ybar
DA{!a}_{!T}(!i) = @SQRT(!T)*!ybar

NEXT !it
NEXT !ia

NEXT !i

El gráfico I.5 muestra una selección de todos los resultados obtenidos con este programa.

8 En particular, se tiene que E(ua) = 0 cuando a es impar, mientras que E(ua) = (a − 1)(a − 3) · · · 3 · 1 cuando
a es par. Así, !Eu1 = 0, !Eu2 = 1, !Eu4 = 3, !Eu6 = 15, !Eu8 = 105, !Eu10 = 945 y !Eu12 = 10395.

28


APUNTES DE ESTUDIO

II Series de tiempo estacionarias
Una serie de tiempo es una colección de variables aleatorias

Yt = {. . . , y−1, y0, y1, y2, . . . , yt−2, yt−1, yt}

ordenadas cronológicamente y que, en general, guardan cierta dependencia. En principio,
cada variable aleatoria en la colección Yt es tan solo una realización de un proceso
estocástico. Por ejemplo, considere una variable aleatoria cuya función de distribución es
ft(·); al tomar un número al azar proveniente de ft(·) se consigue yt . El interés se centra
en inferir sobre los momentos poblacionales de ft(·). Sin embargo, ello no es posible con
este nivel de generalidad, ya que se requiere describir las propiedades de, por ejemplo, E(yt)

observando únicamente yt (el tamaño de la muestra en el período t es igual a 1), lo que lleva
a cuestionamientos sobre nuestra capacidad de inferir con niveles mínimos de confiabilidad.
Es preciso contar con condiciones adicionales para el análisis, y es en este punto donde el
concepto de estacionariedad es sumamente útil.

Se dice que una serie yt es un proceso estacionario en covarianzas cuando, para todo
t, ocurre que

V(yt) = E((yt − µt)2) ≡ γ0 ,

C(yt , yt−i) = E((yt − µt)(yt−i − µt−i)) ≡ γi ,

donde µt = E(yt). Es decir, la varianza y las autocovarianzas de yt no dependen de t.
Como se aprecia, la autocovarianza γi , que es la medida de dependencia que se utilizará a
lo largo de este texto, es la covarianza entre yt e yt−i y depende únicamente de i . Dado
que γi no depende de t, presenta la siguiente simetría:

γi = C(yt , yt−i) = C(ys , ys−i) = C(yt+i , yt) = γ−i .

La autocovarianza, como la varianza, se expresa en las unidades de medida de yt ,
al cuadrado. Una versión estandarizada (sin dimensiones, un número puro) es la
autocorrelación, que no es más que el coeficiente de correlación entre yt e yt−i y es igual
a ρi = γi/γ0. Se cumple que ρ0 = 1, | ρi | ≤ 1 y ρi = ρ−i . Cuanto más cerca está | ρi | de
1, mayor el grado de dependencia.

Note que, hasta el momento, la media E(yt) = µt podría variar con t. Cuando se cumple,
además, que E(yt) = µ para todo t, se tiene que yt es un proceso estacionario en media.

Una implicancia de primera importancia de la estacionariedad en covarianzas es
que los momentos poblacionales pueden inferirse a partir de una muestra del tipo

29


CAPÍTULO II. SERIES DE TIEMPO ESTACIONARIAS

{y1, y2, . . . , yt , . . . yT−1, yT }, ya que todas estas realizaciones de la serie de tiempo
comparten estos momentos. En otras palabras, la estacionariedad permite estudiar los
momentos no condicionales de una serie de tiempo. En adelante, utilizaremos el término
“estacionariedad” como sinónimo de “estacionariedad en covarianzas” (también conocida
como “estacionariedad débil” o “estacionariedad de segundo orden”).

Otro concepto importante es el de ergodicidad, ya que la teoría asintótica de series
de tiempo provee resultados útiles para procesos ergódicos. Los procesos estacionarios y
los procesos ergódicos comparten una propiedad relevante: memoria restringida (a veces
denominada mixing), que indica que las dependencias temporales inherentes en la serie
de tiempo van desvaneciéndose para eventos cronológicamente muy distanciados o, en
otras palabras, que el presente no contiene información acerca del pasado remoto o del
futuro lejano. Más formalmente, el proceso {yt} es ergódico si para dos funciones acotadas
h : RL → R y g : RK → R,

ĺım
s−t→∞

E(h(yt , . . . , yt+L)g(ys , . . . , ys+K)) = E(h(yt , . . . , yt+L))E(g(ys , . . . , ys+K)) .

En palabras, el proceso presenta memoria restringida si dos variables aleatorias que dependen
de segmentos de la serie de tiempo lo suficientemente alejados son independientes.

Las condiciones para la estacionariedad de los procesos estocásticos estudiados en este
texto son idénticas a las requeridas para la ergodicidad. Por ello, quizá la distinción entre un
proceso estacionario y uno ergódico no será muy evidente, ni muy necesaria, en adelante.
En particular, una condición suficiente para la ergodicidad es que las autocovarianzas de
{yt} sean absolutamente sumables:

∞∑
i=0

| γi | = M finito .

A su vez, una condición necesaria (aunque no suficiente) para garantizar la sumabilidad
absoluta de las autocovarianzas es que γi converja a cero lo suficientem