DATOS DE PANEL EN PROBIT DINÁMICOS
JHON JAMES MORA1
1Economista de la Universidad del Valle. MA en Recursos Naturales y Economía de la Universidad Autónoma de Madrid. Maestría en Economía de la Universidad Alcalá de Henares. Ph.D. en Economía de la Universidad de Alcalá de Henares. Jefe del Departamento de Economía, Universidad Icesi. Cali, Colombia. jjmora@icesi edu.co
Fecha de recepción: 18-10-2005 Fecha de aceptación: 18-9-2006
RESUMEN
Este artículo discute en primer lugar dos problemas fundamentales en datos de panel: Las condiciones iniciales y la exogeneidad. En segundo lugar, muestra una aplicación al mercado laboral español de un probit dinámico para el periodo 1994-2000.
PALABRAS CLAVE
Datos de panel, probit dinámicos, mercado laboral.
Clasificación: JEL: C33, C35, J21.
ABSTRACT
This paper first provides a review of two fundamental issues of panel data, i.e. initial conditions and exogeneity. Then it presents the application of a dynamic probit to the Spanish labor market in the period from 1994 to 2000.
KEY WORDS
Panel data, dynamic probit, labor market
INTRODUCCIÓN
Aun cuando en Colombia es incipiente el uso de modelos de datos de panel, debido sin duda a la carencia de datos adecuados, tanto en Estados Unidos como en Europa su uso es muy común debido a la disponibilidad de los mismos.2 Los datos de panel son muy valiosos ya que no solamente brindan información de corte transversal sino también en el tiempo sobre el comportamiento de los agentes económicos.
El planteamiento dinámico de los modelos con variables dependientes cualitativas se debe a Heckman (1981); sin embargo, la estimación de las condiciones iniciales ha generado un gran debate en torno a los supuestos requeridos. En esta vía, los desarrollos recientes que posibilitan estimar este tipo de modelos con el software econométrico existente sin mayor programación contribuirán a difundir el uso de los modelos probit dinámicos.
Este artículo hace énfasis en la discusión de dos problemas en los modelos probit dinámicos con datos de panel, a saber: El problema de las condiciones iniciales y la exogeneidad estricta. En la primera parte se discute el problema de las condiciones iniciales y su modelación a partir de la metodología de Wooldridge. En la segunda sección, se plantea el problema de la exogeneidad y se avanza en su contrastación. En la tercera sección se presenta una aplicación de la hipótesis de Carnegie con datos de panel para mujeres entre los 20 y 60 años para España. Finalmente se llega a las conclusiones.
1. EL PROBLEMA DE LAS CONDICIONES INICIALES
Heckman (1981a) plantea que uno de los principales problemas en los modelos probit dinámicos consiste en preguntarnos si el proceso puede ser explicado por una dependencia de los estados verdadera, en el sentido de que la decisión pasada entra en el modelo de una forma estructural como una variable explicativa, o puede ser debido a una dependencia de los estados espuria, es decir, como efecto de la correlación serial en las perturbaciones del modelo. Supóngase el siguiente modelo probit dinámico para datos de panel en donde existe dependencia de estado de primer orden, de la siguiente forma:
Donde Yit es la variable de interés, 1(•) es un indicador de la función que toma valor de 1 si el fenómeno se presenta y cero de otra forma, Xit es un vector de variables exógenas, ai es el efecto específico individual que se asume invariante con el tiempo y μit es un término de error idiosincrático que se asume i.i.d sobre el tiempo e individuos con una función de distribución F(•). El parámetro ρ mide el grado en el cual el estado, en el último periodo, afecta directamente la probabilidad de estar en el estado en el periodo corriente y es una medida de la dependencia verdadera del estado, después de controlar por la heterogeneidad no observable αi. Por otro lado, los efectos de los factores observados y no observados capturan la heterogeneidad a través de los individuos. La contribución del logaritmo de la verosimilitud para el individuo i se puede expresar como:
En la ecuación (2), θ es un vector de parámetros que “parametriza” totalmente el modelo y ƒ(•) es la función de distribución para los momentos iníciales condicionada a los efectos no observados.
Como se puede observar, de la ecuación (2), es necesario determinar las condiciones iniciales con el fin de obtener estimadores consistentes. Si el inicio del periodo muestral no coincide con el proceso estocástico que genera las observaciones, se hace necesario asumir el comportamiento de los valores iniciales , como bien muestra Hsiao (1986), supuestos diferentes con respecto a las condiciones iniciales darán lugar a funciones de verosimilitud diferentes. Obsérvese además, que ignorar la condición inicial implica ignorar .
Existen tres aproximaciones comunes al problema de las condiciones iniciales: En primer lugar, se puede asumir que las condiciones iniciales son exógenas (Card y Hyslop, 2002), es decir, que Yio es independiente de αi. Sin embargo, si el proceso comienza en t = 0 existe una significativa heterogeneidad no observable en la población que no cumpliría con este supuesto. Asumir que las condiciones iniciales son exógenas podría sesgar hacia arriba la dependencia del estado estimada y sesgar hacia abajo la heterogeneidad estimada. En segundo lugar, se puede asumir que el proceso dinámico está en equilibro, tal vez condicionado sobre el vector de variables exógenas al comienzo del periodo muestral (Card y Sullivan, 1988). Este supuesto implica restricciones sobre los parámetros del proceso dinámico y, en particular, sobre la probabilidad del periodo inicial . Las restricciones impuestas son menos convincentes que imponer exogeneidad sobre la condición inicial. La tercera aproximación consiste en adoptar una especificación flexible en forma reducida para el problema de la condición inicial (Heckman, 1981b). En la práctica esto implica especificar el resultado del periodo inicial en la cual ni los parámetros ni los errores se encuentren relacionados (estructuralmente) con los errores de la ecuación (1). De esta forma, la estimación del modelo podría entonces combinar la especificación anterior para los resultados del periodo inicial con la especificación estructural para el proceso dinámico de los periodos siguientes, ecuación (1). Obsérvese que la formulación de las condiciones iniciales complica bastante los cálculos computacionales del modelo.
Wooldridge (2003), por su parte, presenta una aproximación más simple al problema de las condiciones Iniciales. En particular, Wooldridge (2003) propone especificar la heterogeneidad individual no observable de la forma:3
De esta forma, la verosimilitud puede reescribirse como:
Como se puede observar de la ecuación (3) la heterogeneidad no observada se encuentra condicionada sobre las condiciones iniciales y las variables exógenas. Esto implica que, en lugar de modelar las condiciones iniciales del proceso dinámico directamente, se especifica un modelo para la heterogeneidad no observable (Wooldridge, 2003).
2. EXOGENEIDAD
La función de verosimilitud en la ecuación (3) requiere que Xi,t sea estrictamente exógena. Granger (1969) define las condiciones a través de las cuales se presenta causalidad “Yt no causa a Xt” y Sims (1972) define las condiciones según las cuales “Xt es estrictamente exógeno”. Sin embargo, con datos de panel en los modelos probit es imposible diferenciar la heterogeneidad no observada. Siguiendo a Chamberlain (1982), la exogeneidad en modelos no-lineales se plantea de la siguiente forma: Suponga que Yi,t es cero o uno y que se observa para i=1,… individuos y T periodos. Entonces:
Definición 1: Causalidad de Granger Xi,t+1 es independiente de Yi,t, Yi,t-1 , …, condicionado sobre Xi,t , Xi,t-1, …. Para todo t.
Definición 2. Exogeneidad estricta de Sims
Yi,t es independiente de Xi,t+1, Xi,t+2 , …, condicionado sobre Yi,t , Yi,t-1, …. y Xi,t , Xi,t-1…. Para todo t.
Por su parte, en modelos no-lineales dinámicos, la exogeneidad se puede plantear, siguiendo a Wooldridge (2000, 2002, 2003) de la siguiente forma:
De esta forma, solamente los valores contemporáneos de Xi,t importan. Un contraste de adición implica que si Xi,t es exógena al adicionar Xi,t+1 bajo la hipótesis nula de exogeneidad Xi,t+1 no será estadísticamente significativa. Lo cual se puede contrastar con una χ2L siendo L el número de grados delibertad igual al número de variables exógenas en Xi,t (Mora 2005).
3. APLICACIÓN AL EFECTO DE LAS HERENCIAS SOBRE LA PARTICIPACIÓN LABORAL DE LAS MUJERES EN ESPAÑA
Holtz-Eakin et al. (1993), plantean que si el ocio es un bien normal, recibir una herencia deberá disminuir la participación en el mercado laboral. Sin embargo, el modelo planteado por Holtz-Eatkin, et al. (1993), no es un modelo dinámico en el sentido estricto y, por lo tanto, no se puede conocer cómo afectan las decisiones pasadas la participación laboral en el periodo corriente.4
En particular, el modelo aquí planteado estimará el efecto de las herencias sobre la participación laboral de las mujeres en España, ya que aunque la participación de las mujeres en el mercado laboral español mostró un incremento sustancial a partir de los ochenta (Arellano y Bover, 1995) la tasa de participación de las mujeres sigue siendo muy inferior a la de los hombres; en el 2001 la tasa de participación se encontraba 24 puntos por debajo de la masculina y la tasa de paro doblaba a la masculina (Salido, 2002).
Los datos son tomados del PHOGUE (Panel de Hogares de la Unión Europea) para España entre 1994 y 2000 en mujeres que recibieron al menos una herencia, regalo o lotería con edades entre los 20 y 50 años en 1994. De esta forma, se seleccionaron 258 mujeres a lo largo de siete periodos para un total de 1.806 observaciones.4
La participación se construye como una variable dicotómica a partir de la autodefinición del estado en que se encuentra el individuo. A lo largo de los siete periodos se observa que en promedio el 75% de las mujeres está casada y que el 55% está satisfecha con el tiempo dedicado al ocio.
De igual forma, los resultados sobre la participación durante los siete años muestran, sin tener en cuenta la existencia de la heterogeneidad individual no observable, ni las variables exógenas o el periodo inicial, que existe una gran dependencia entre estados.
A continuación, suponga que Yit es la participación en el mercado laboral si la persona recibió una herencia, regalo o lotería, 1(•) es un indicador de la función que toma valor de 1 si el individuo participa y cero de otra forma, Xit es un vector de variables exógenas, ai es el efecto específico individual que se asume invariante con el tiempo y μit es un término idiosincrático que se asume i.i.d sobre el tiempo e individuos con una función de distribución F(•). El parámetro ρ mide el grado en el cual el estado, en el último periodo, afecta directamente la probabilidad de estar en el estado en el periodo corriente y es una medida de la dependencia verdadera del estado, después de controlar por la heterogeneidad no observable αi que también puede interpretarse como el coste de búsqueda. Por otro lado, los efectos de los factores observados y no observados capturan la heterogeneidad a través de los individuos de participar en el mercado laboral. De esta forma, el modelo planteado siguiendo a Wooldridge (2002) será:
En la ecuación (4),Xi,t es un conjunto de variables que explican la participación de la mujer en el mercado laboral español. En particular, Arellano y Bover (1995) consideran que la educación universitaria es un indicador de las ganancias potenciales y Álvarez-Llorente (2002) considera que la probabilidad de participación de la mujer viene determinada fundamentalmente por el nivel educativo - a mayor nivel educativo mayor será el coste de oportunidad de no participar aumentando la probabilidad de participar. Tanto Álvarez-Llorente (2002) como Cañada (1989), Martinez- Granado (1994) y González, Pérez y Prieto (1999) encuentran un efecto positivo y significativo de la educación de la mujer sobre la probabilidad de participar. Con el fin de medir el efecto de las herencias, regalos o loterías, se incluirá en Xi,t una variable que cualifica si la persona recibió una herencia, regalo o lotería por un monto de 10.000 euros y, se espera que la recepción de las mismas disminuya la probabilidad de participar. Finalmente zi son variables de interacción entre la tasa de desempleo de la mujer en el periodo inmediatamente anterior y el estado civil en el periodo t si ella se encontraba casada, de esta forma, los efectos individuales se encuentran correlacionados con el estado civil de la mujer y el ciclo económico. Por otro lado, la importancia de los efectos de la heterogeneidad individual no observada, en la estimación de la probabilidad de participar en el mercado laboral, se estimará como .
En la Tabla 1 se presentarán las estimaciones del modelo 4.6
La segunda columna de la Tabla 1 muestra un pool probit. Las variables son estadísticamente significativas, con excepción de la dummy para 1995. De acuerdo con el pool probit, la dependencia de estado en 1995 es alrededor del 78%, sin considerar la heterogeneidad individual no observable, αi.7
En la tercera columna de la Tabla 1 se calcula el modelo 4 con efectos aleatorios incluyendo solamente como variable explicatoria las herencias, regalos o loterías, la cual es significativa y con el signo esperado. Dada la significancía estadística de ε, 58.65, podemos observar que existe una relativa importancia de los efectos de la heterogeneidad individual no observada en la estimación de la probabilidad de participar. Además, usando la prueba de Wald y Lr se puede concluir, de acuerdo con el valor de la chi2(2), que las variables son estadísticamente diferentes de cero y, la varianza total del error estimada debido a la heterogeneidad no observada, a través de la muestra, fue de 1.42 y las herencias, regalos o loterías son exógenas.
4. CONCLUSIONES
En primer lugar, existen dos problemas fundamentales en los datos de panel: Las condiciones iniciales y la exogeneidad. Con respecto a las condiciones iniciales, la solución más simple parece ser la provista por Wooldridge (2002) ya que tan sólo requiere un software que tenga incorporada la estimación por efectos aleatorios. Sin embargo, a las ganancias obtenidas por esta vía deberán descontárseles los costos de exigir que el panel sea balanceado. Con respecto a la exogeneidad, Chamberlain (1982) muestra las equivalencias de las definiciones de Sims (1972) y Granger (1969) en el caso de los modelos probit. La metodología propuesta por Wooldridge (2002) requiere de exogeneidad, que puede contrastarse en forma sencilla con un contraste de adición como el aquí sugerido.
En segundo lugar, la aplicación al mercado laboral español aquí realizada de un modelo probit dinámico con datos de panel muestra que el efecto positivo y significativo de la educación de la mujer sobre la probabilidad de participar.
Por último, como plantea Hsiao (2003) todos los beneficios asociados al uso de los datos de panel van de la mano de los nuevos y difíciles problemas que deberán resolverse particularmente en los modelos no lineales.
Pié de Página
1. Agradezco los comentarios y discusiones con Jeffrey Wooldridge, a los asistentes al seminario de economía del Banco de la República en agosto del 2005 y los comentarios del evaluador anónimo. Finalmente, los errores que persisten son de mi absoluta responsabilidad.
2. La imposibilidad de tener una encuesta para Colombia que siga a los individuos en el tiempo ha llevado a que el uso de los datos de panel se haya orientado al análisis de sectores con base en la Encuesta Anual Manufacturera [para un ejemplo ver Cardona y Cano (2005)].
3. Arellano y Carrasco (2002) también plantean una estimación de máxima verosimilitud condicional sobre la condición inicial con el fin de solucionar este problema.
4. Aunque Holtz-Eatkin et al. (1993) incluyan una variable dummy que capture si el individuo participó en 1984 el modelo no deja de ser de corte transversal y, por lo tanto, es imposible determinar si existe dependencia entre estados.
5. Los datos fueron obtenidos a partir del convenio entre Eurostat y la Universidad Alcalá de Henares.
6. Agradezco los comentarios a una versión anterior de este modelo a los asistentes al Seminario de Economía del Banco de la República, en agosto de 2005.
7. El cual se calcula como Φ(β0 + ρ)- Φ(β0).
BIBLIOGRAFÍA
1. Arellano, M. & Bover, O. (1995). Female Labour Force Participation in the 1980‚s: The Case of Spain. Investigaciones Económicas, 19(2), 171-194.
2. Arellano, M. & Carrasco, R. (2002). Binary Choice Panel Data Models with Predetermined Variables. CEMfi, W.P, No. 9618.
3. Álvarez-Llorente, G. (2002). Decisiones de fecundidad y participación laboral de la mujer en España. Investigaciones Económicas, 26(1), 187-218.
4. Cañada, J.A. (1989). Oferta de trabajo de las mujeres en España: Evolución y prospectivas. Servicio de Estudios de la CAIXA, Colección de estudios e informes.
5. Card, D. & Hyslop, D. (2002). Estimating the Dynamic Treatment Effects of an Earnings Subsidy for Welfare Leavers, UC Berkeley, Center for Labor Economics, W.P, N. 47.
6. Card, D. & Sullivan, D. (1988). Measuring the Effect of Subsidized Training Programs on Movements in and Out Employment. Econometrica, 56, 497-530.
7. Cardona, M y Cano, C.A. (2005). La dinámica industrial, crecimiento económico y PyMEs: Un análisis de Datos de Panel para el caso colombiano 1980-2001, Archivos de Economía, 292, D.N.P.
8. Carnegie, A. (1891). The Advantages of Poverty, In The Gospel of Wealth and Other Timely Essays, Edward C. Kirkland (Eds). (Harvard University Press 1962)
9. González, I., Pérez, C., y Prieto, M. (1999). La participación laboral de la mujer en Castilla y León. Revista de Investigación Económica y Social de Castilla y León 2, 83-98.
10. Heckman, J. (1981a). Statistical Models for Discrete Panel Data, Chapter 4 in Manski, Ch and D. MacFaden (Eds), Structural Analysis of Discrete Data, MIT Press.
11. Heckman, J. (1981b). The Incidental Parameters Problem and the Problem of Initial Conditions in Estimating a Discrete Time- Series Data Stochastic Process, Chapter 4 in Manski, Ch and D. MacFadden (Eds), Structural Analysis of Discrete Data, MIT Press.
12. Holtz-Eakin, D., D. Joulfaian, H.S. Rosen. (1993). The Carnegie Conjecture: Some Empirical Evidence, The Quarterly Journal of Economics, 108, 413-435.
13. Hsiao, Ch. (2003). Analysis of Panel Data, (Second Edition) Cambridge University Press.
14. Martinez- Granado, M. (1994). A Empirical model of Female Labour Suply for Spain. CEMfiWorking Paper 9412.
15. Mora, J.J. (2005). La relación entre las herencias, regalos o loterías y la probabilidad de participar en el Mercado laboral: El caso de España, 1994-2000. disponible en: http://www.banrep.gov.co/documentos/seminarios/pdf/carnegie-jjmora.pdf
16. Wooldridge, J.M. (2003). Simple Solutions to the Initial Conditions Problem in Dynamic, Nonlinear Panel Data Models with Unobserved Heterogeneity, Mimeo Department of Economics, Michigan State University.