[R-es] Ingesta y preprocesamiento de datos

Discussion:

Jesús Para Fernández

2018-02-25 11:39:27 UTC

Buenas,

Quiero hacer una ingesta de datos en una base de datos de un servidor. El proceso es hacer una consulta en la base de datos, que me dice uqe columnas tengo que coger.

Una vez hecha dicha consulta, abrir un csv, coger las columnas que me indicaba esa base de datos y subir el dato concreto del csv a una base de datos.

Estoy pensando en usar Apache Flume o similar, pero es en un servidor Windows. ¿Que opciones me recomendais?

Gracias
Jesús

[[alternative HTML version deleted]]

Carlos Ortega

2018-02-25 13:32:15 UTC

Permalink

Hola,

¿Pero de qué volumen de datos estás hablando para considerar Flume?...

Y...¿esto qué tiene que ver con R?... Obviamente puedes plantearte hacer
todo el proceso de ETL desde R...
https://cloud.r-project.org/web/packages/ETLUtils/index.html

Gracias,
Carlos Ortega
www.qualityexcellence.es

El 25 de febrero de 2018, 12:39, Jesús Para Fernández <
***@hotmail.com> escribió:

> Buenas,
>
> Quiero hacer una ingesta de datos en una base de datos de un servidor. El
> proceso es hacer una consulta en la base de datos, que me dice uqe columnas
> tengo que coger.
>
> Una vez hecha dicha consulta, abrir un csv, coger las columnas que me
> indicaba esa base de datos y subir el dato concreto del csv a una base de
> datos.
>
> Estoy pensando en usar Apache Flume o similar, pero es en un servidor
> Windows. ¿Que opciones me recomendais?
>
> Gracias
> Jesús
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

Jesús Para Fernández

2018-02-25 15:49:22 UTC

Permalink

Siento si es un poco off-topic, pero entiendo que R-help funciona tb como una union de cientificos de datos y creo que mi pregunta puede ser relevante para el resto de participantes de la lista. De hecho mi propia ignorancia es la que hace que aunque yo lo descnozca exista algo que este desarrollado en R para tal fin.

Me he planteado usar cosas como flume, elasticsearch o similares, porque aunque no sea un gran volumen de datos (1 csv cada 200 segundos), creo que tiene ventajas, como la gestion de colas en caso de caidas de red, etc... ocupando poco en el servidor.

Otra alternativa que me habia planteado era la ponner un sheudle task en windows, y que cada 200 segundos se ejecutra el codigo de R, pero me parece poco robusto en cuanto a la gestion de la misma (el monitorizarla..)

es por ello por lo uqe lo planteo aqui, a ver desde vuestra experiencia que os parece la mejor opcion.

Gracias
Jesús

De: Carlos Ortega<mailto:***@qualityexcellence.es>
Enviado: domingo, 25 de febrero de 2018 14:32
Para: Jesús Para Fernández<mailto:***@hotmail.com>
CC: r-help-***@r-project.org<mailto:r-help-***@r-project.org>
Asunto: Re: [R-es] Ingesta y preprocesamiento de datos

Hola,

¿Pero de qué volumen de datos estás hablando para considerar Flume?...

Y...¿esto qué tiene que ver con R?... Obviamente puedes plantearte hacer todo el proceso de ETL desde R...
https://cloud.r-project.org/web/packages/ETLUtils/index.html<https://nam04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fcloud.r-project.org%2Fweb%2Fpackages%2FETLUtils%2Findex.html&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=qxRZEQd%2BM%2BBhjqJ0k2iJzJsnu8yXfasQGMvyri3S%2BMo%3D&reserved=0>

Gracias,
Carlos Ortega
www.qualityexcellence.es<https://nam04.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTRqfmKfA1ApQU9M%3D&reserved=0>

El 25 de febrero de 2018, 12:39, Jesús Para Fernández <***@hotmail.com<mailto:***@hotmail.com>> escribió:
Buenas,

Quiero hacer una ingesta de datos en una base de datos de un servidor. El proceso es hacer una consulta en la base de datos, que me dice uqe columnas tengo que coger.

Una vez hecha dicha consulta, abrir un csv, coger las columnas que me indicaba esa base de datos y subir el dato concreto del csv a una base de datos.

Estoy pensando en usar Apache Flume o similar, pero es en un servidor Windows. ¿Que opciones me recomendais?

Gracias
Jesús

[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org<mailto:R-help-***@r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es<https://nam04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=GrVM5%2B5MPegby0siMquXBD%2FwCaeEr%2BJSZsInEOrPaXE%3D&reserved=0>

--
Saludos,
Carlos Ortega
www.qualityexcellence.es<https://nam04.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTRqfmKfA1ApQU9M%3D&reserved=0>

[[alternative HTML version deleted]]

Javier Marcuzzi

2018-02-25 21:06:46 UTC

Permalink

Estimado Jesús

Creo que el enfoque debe ser distinto, usted aquí debe responder cada
cuánto tiempo R debe dar un resultado estadístico. Por otro lado debe
responder de acuerdo a la infraestructura informática el cómo se comunica y
almacena. El responder todo junto tiene alternativas como Oracle o
Microsoft, porque hay un ajuste de sistema operativo, lenguaje, base de
datos, R, y la administración de todo en forma operativa, distinto puede
ser en una universidad donde el problema es pensarlo y el dinero financiado
por el estado, en el ámbito privado puede ser que el costo de no pagar una
licencia sea mayor.

A mi me paso ir a una charla de bigdata, el que charlaba es catedrático,
pero usaban node.js y celeron como servidor, siendo más de uno, pero si
cualquier servidor xenon puede tener 16 o muchos más procesadores, utilizar
un lenguaje compilado que ocupe todos los procesadores e hilos comprados, y
R puede. En términos mi computadora portátil tiene mucho más que todo ese
bigdata presentado por el catedrático, pero a mí no me da la cara para
decir que estoy con bigdata en una portátil.

¿R puede?, sí.
¿Se puede?, si.
¿Es rentable?, depende.

Javier Rubén Marcuzzi

El 25 de febrero de 2018, 12:49, Jesús Para Fernández <
***@hotmail.com> escribió:

> Siento si es un poco off-topic, pero entiendo que R-help funciona tb como
> una union de cientificos de datos y creo que mi pregunta puede ser
> relevante para el resto de participantes de la lista. De hecho mi propia
> ignorancia es la que hace que aunque yo lo descnozca exista algo que este
> desarrollado en R para tal fin.
>
> Me he planteado usar cosas como flume, elasticsearch o similares, porque
> aunque no sea un gran volumen de datos (1 csv cada 200 segundos), creo que
> tiene ventajas, como la gestion de colas en caso de caidas de red, etc...
> ocupando poco en el servidor.
>
> Otra alternativa que me habia planteado era la ponner un sheudle task en
> windows, y que cada 200 segundos se ejecutra el codigo de R, pero me parece
> poco robusto en cuanto a la gestion de la misma (el monitorizarla..)
>
> es por ello por lo uqe lo planteo aqui, a ver desde vuestra experiencia
> que os parece la mejor opcion.
>
> Gracias
> Jesús
>
>
>
> De: Carlos Ortega<mailto:***@qualityexcellence.es>
> Enviado: domingo, 25 de febrero de 2018 14:32
> Para: Jesús Para Fernández<mailto:***@hotmail.com>
> CC: r-help-***@r-project.org<mailto:r-help-***@r-project.org>
> Asunto: Re: [R-es] Ingesta y preprocesamiento de datos
>
> Hola,
>
> ¿Pero de qué volumen de datos estás hablando para considerar Flume?...
>
> Y...¿esto qué tiene que ver con R?... Obviamente puedes plantearte hacer
> todo el proceso de ETL desde R...
> https://cloud.r-project.org/web/packages/ETLUtils/index.html<
> https://nam04.safelinks.protection.outlook.com/?url=
> https%3A%2F%2Fcloud.r-project.org%2Fweb%2Fpackages%
> 2FETLUtils%2Findex.html&data=02%7C01%7C%7Caea0adf617184cbd410808d57c54
> 2fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%
> 7C636551623372456917&sdata=qxRZEQd%2BM%2BBhjqJ0k2iJzJsnu8yXfasQGMvyri
> 3S%2BMo%3D&reserved=0>
>
> Gracias,
> Carlos Ortega
> www.qualityexcellence.es<https://nam04.safelinks.protection.
> outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTR
> qfmKfA1ApQU9M%3D&reserved=0>
>
> El 25 de febrero de 2018, 12:39, Jesús Para Fernández <
> ***@hotmail.com<mailto:***@hotmail.com>>
> escribió:
> Buenas,
>
> Quiero hacer una ingesta de datos en una base de datos de un servidor. El
> proceso es hacer una consulta en la base de datos, que me dice uqe columnas
> tengo que coger.
>
> Una vez hecha dicha consulta, abrir un csv, coger las columnas que me
> indicaba esa base de datos y subir el dato concreto del csv a una base de
> datos.
>
> Estoy pensando en usar Apache Flume o similar, pero es en un servidor
> Windows. ¿Que opciones me recomendais?
>
> Gracias
> Jesús
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
> https://stat.ethz.ch/mailman/listinfo/r-help-es<https://
> nam04.safelinks.protection.outlook.com/?url=https%3A%2F%
> 2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=GrVM5%2B5MPegby0siMquXBD%
> 2FwCaeEr%2BJSZsInEOrPaXE%3D&reserved=0>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<https://nam04.safelinks.protection.
> outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTR
> qfmKfA1ApQU9M%3D&reserved=0>
>
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

[[alternative HTML version deleted]]

Javier Marcuzzi

2018-02-25 13:33:49 UTC

Permalink

Estimado Jesús Para Fernández

No comprendo donde esta R, pero desde este o desde la base de datos es
posible realizar el trabajo sin utilizar csv, yo intentaría por medio de
una conexión o dentro de esta por algún procedimiento almacenado, pero son
solo preferencias personales, hay que analizar el tamaño de los datos y los
recursos informáticos.

Javier Rubén Marcuzzi

El 25 de febrero de 2018, 8:39, Jesús Para Fernández <
***@hotmail.com> escribió:

> Buenas,
>
> Quiero hacer una ingesta de datos en una base de datos de un servidor. El
> proceso es hacer una consulta en la base de datos, que me dice uqe columnas
> tengo que coger.
>
> Una vez hecha dicha consulta, abrir un csv, coger las columnas que me
> indicaba esa base de datos y subir el dato concreto del csv a una base de
> datos.
>
> Estoy pensando en usar Apache Flume o similar, pero es en un servidor
> Windows. ¿Que opciones me recomendais?
>
> Gracias
> Jesús
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

[[alternative HTML version deleted]]