[R-es] STATA base de datos

Discussion:

Antonio Rodriguez Andres

2017-12-06 11:55:01 UTC

Tengo una base de datos muy grande en formato Stata, (dta), he probado a
leerla con el paquete foreign, y el comando
read.dta, pero como tiene 28 variables y casi medio millon de individuos,
cuando pruebo a hacer graficas o algo, me sale problema
de memoria.

Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
comando fread, y finalmente cargar los datos como RData.

SIn embargo he intentado

setwd("C:/Users/and0096/Desktop/TREXIMA")
library ('foreign')
write.table(read.dta(file.choose('private98-06more_than9.dta')),
file="output.csv", quote = FALSE, sep = ",")

Pero de esta manera me demora mucho, se queda el computador como colgado,
hay alguna otra manera de hacerlo mas rapida. El fichero de Stata
tiene bastante peso (726, 625 bytes). Solo llego al fichero output.csv.
He instalado el paquete data.table
pero cuando tecleo

datacz = as.data.frame(fread('output.csv'))

Error in fread("output.csv") : could not find function "fread"

Entiendo que algo mal estoy haciendo. Alguna idea mejor de como leer ese
fichero de STATA

Saludos cordiales

Antonio
--
Member, Editorial Committee, *The Economic and Labour Relations Review* (a
SAGE journal)

http://elr.sagepub.com/

Member, Editorial Committee, African Journal of Economic and Management
Studies

http://emeraldgrouppublishing.com/products/journals/editorial_team.htm?id=ajems

https://www.researchgate.net/profile/Antonio_Andres (Research Gate profile)

[[alternative HTML version deleted]]

Freddy Omar López Quintero

2017-12-06 12:03:35 UTC

Permalink

El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres

Post by Antonio Rodriguez Andres
me sale problema
de memoria.

Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar
un archivo de tales dimensiones? Puede que ni aún cambiando la manera
de leer el archivo realmente lo puedas procesar.

Post by Antonio Rodriguez Andres
Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
comando fread, y finalmente cargar los datos como RData

¿Has probado el paquete haven y específicamente su función read_dta?
Parece que es bastante más eficiente que la de foreign y preserva más
características que trae el formato de stata.

¡Ojalá algo sirva!

¡Salud!

--
«...homines autem hominum causa esse generatos...»

Cicero
[[alternative HTML version deleted]]

Antonio Rodriguez Andres

2017-12-06 12:05:57 UTC

Permalink

Freddy

el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
Pero si recuerdo me dio problemas en RStudio

Post by Antonio Rodriguez Andres
me sale problema
de memoria.
Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar un
archivo de tales dimensiones? Puede que ni aún cambiando la manera de leer
el archivo realmente lo puedas procesar.
Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
comando fread, y finalmente cargar los datos como RData
¿Has probado el paquete haven y específicamente su función read_dta?
Parece que es bastante más eficiente que la de foreign y preserva más
características que trae el formato de stata.
¡Ojalá algo sirva!
¡Salud!
--
«...homines autem hominum causa esse generatos...»
Cicero

[[alternative HTML version deleted]]

Antonio Rodriguez Andres

2017-12-06 12:09:47 UTC

Permalink

He llegado hacer un summary o algo asi. Despues de leerlo pero tarda mucho.
Y si hago un histograma de una variable edad, hay colapsa.

El 6/12/2017 13:05, "Antonio Rodriguez Andres" <

Post by Antonio Rodriguez Andres
Freddy
el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
Pero si recuerdo me dio problemas en RStudio

[[alternative HTML version deleted]]

Carlos Ortega

2017-12-06 12:32:52 UTC

Permalink

Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido de
Stata a csv o algún otro formato que con el que puedas trabajar en RStudio?.
¿O ahora el problema es que has convertido el fichero pero no puedes hacer
ningún tipo de análisis porque tu equipo no tiene suficientes recursos?...

Gracias,
Carlos.

El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <

Post by Antonio Rodriguez Andres
He llegado hacer un summary o algo asi. Despues de leerlo pero tarda mucho.
Y si hago un histograma de una variable edad, hay colapsa.
El 6/12/2017 13:05, "Antonio Rodriguez Andres" <

Post by Antonio Rodriguez Andres
Freddy
el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
Pero si recuerdo me dio problemas en RStudio
El 6/12/2017 13:03, "Freddy Omar López Quintero" <

leer