Discussion:
[R-es] Descarga html
Sergio Castro
2018-09-17 15:46:42 UTC
Permalink
Buenas tardes,

Estoy intentando automatizar unas tareas en la web y ando un poco perdido.
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna
forma sencilla, se lo agradecería.

Muchas gracias de antemano.

Un saludo.

[[alternative HTML version deleted]]
Javier Marcuzzi
2018-09-17 16:39:28 UTC
Permalink
Estimado Sergio Castro

Rvest es otra forma, puede ser curl en una forma más compleja, hay algo por
citar solo un sitio
https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/

Sin embargo, Rselenium es bueno, no recuerdo exactamente como anda con la
última versión, yo continuaría con lo que usted seleccionó como inicio,
pero tenga en cuenta que no es tan simple, es probable que un sitio html so
sea complicado, pero cuándo comienza JavaScript a tener alguna ejecución,
rselenium soluciona ese problema.

Javier Marcuzzi

El lun., 17 sept. 2018 a las 12:47, Sergio Castro (<
Post by Sergio Castro
Buenas tardes,
Estoy intentando automatizar unas tareas en la web y ando un poco perdido.
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna
forma sencilla, se lo agradecería.
Muchas gracias de antemano.
Un saludo.
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
Eric
2018-09-17 16:56:28 UTC
Permalink
Hola Sergio, que tal si lo haces fuera de R ? en los entornos UNIX como
linux, tienes el comando wget para descargar paginas web
(https://www.linuxtotal.com.mx/?cont=info_admon_017) . Con wget tambien
puedes manejar el acceso a directorios que necesitan password. wget
tambien esta disponible para windows
(http://gnuwin32.sourceforge.net/packages/wget.htm). Puedes poner el
comando dentro de un script si necesitas bajar muchas paginas.

Suerte !!

Eric.
Post by Sergio Castro
Buenas tardes,
Estoy intentando automatizar unas tareas en la web y ando un poco perdido.
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna
forma sencilla, se lo agradecería.
Muchas gracias de antemano.
Un saludo.
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
.
Jaume Tormo
2018-09-21 07:47:47 UTC
Permalink
Hola Sergio,

Yo descargué datos de AEMET con wget en la consola de linux, hice un .sh y
funcionó bastante bien:
! /bin/bash
http GET '
https://opendata.aemet.es/opendata/api/valores/climatologicos/inventarioestaciones/todasestaciones/?api_key=MiAPIKey
\
cache-control:no-cache \
En este caso la identificación era poner la API key, pero se puede
especificar un usuario y contraseña.

Jamás lo había hecho y funcionó, así que no es complicado ;-).

Jaume.
Post by Eric
Hola Sergio, que tal si lo haces fuera de R ? en los entornos UNIX como
linux, tienes el comando wget para descargar paginas web
(https://www.linuxtotal.com.mx/?cont=info_admon_017) . Con wget tambien
puedes manejar el acceso a directorios que necesitan password. wget
tambien esta disponible para windows
(http://gnuwin32.sourceforge.net/packages/wget.htm). Puedes poner el
comando dentro de un script si necesitas bajar muchas paginas.
Suerte !!
Eric.
Post by Sergio Castro
Buenas tardes,
Estoy intentando automatizar unas tareas en la web y ando un poco
perdido.
Post by Sergio Castro
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre
alguna
Post by Sergio Castro
forma sencilla, se lo agradecería.
Muchas gracias de antemano.
Un saludo.
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
.
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
--
Jaume Tormo.
https://es.linkedin.com/in/jaumetormo
https://acercad.wordpress.com/

[[alternative HTML version deleted]]
Carlos Ortega
2018-09-21 08:10:18 UTC
Permalink
Hola,

Como todavía no se ha comentado la alternativa y es perfectamente válida,
la referencio.
Puedes automatizar todo este acceso a la Web, auténticándote, navegando en
las diferentes páginas y extrayendo la información que desees desde R.

Hay un par de opciones bastante estables para hacerlo con sus dos
respectivos paquetes:


- RSelenium: Es uno de los paquetes desarrollados por rOpenSci.org. Mira
el ejemplo que aparece aquí
https://cloud.r-project.org/web/packages/RSelenium/index.html
- Si buscas encontrarás múltiples entradas con ejemplos de cómo
usarlo.
- rvest: Es la opción desarrollada por Hadley Wickham (RStudio).
https://cran.r-project.org/web/packages/rvest/index.html

Saludos,
Carlos Ortega
www.qualityexcellence.es



El lun., 17 sept. 2018 a las 17:47, Sergio Castro (<
Post by Sergio Castro
Buenas tardes,
Estoy intentando automatizar unas tareas en la web y ando un poco perdido.
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna
forma sencilla, se lo agradecería.
Muchas gracias de antemano.
Un saludo.
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]
Sergio Castro
2018-09-21 16:31:31 UTC
Permalink
Muchas gracias por la ayuda a todos. Voy a seguir con RSelenium que de
momento me está dando buen resultado, aunque miraré la librería rvest.

Un saludo.
Post by Carlos Ortega
Hola,
Como todavía no se ha comentado la alternativa y es perfectamente válida,
la referencio.
Puedes automatizar todo este acceso a la Web, auténticándote, navegando en
las diferentes páginas y extrayendo la información que desees desde R.
Hay un par de opciones bastante estables para hacerlo con sus dos
- RSelenium: Es uno de los paquetes desarrollados por rOpenSci.org.
Mira el ejemplo que aparece aquí
https://cloud.r-project.org/web/packages/RSelenium/index.html
- Si buscas encontrarás múltiples entradas con ejemplos de cómo
usarlo.
- rvest: Es la opción desarrollada por Hadley Wickham (RStudio).
https://cran.r-project.org/web/packages/rvest/index.html
Saludos,
Carlos Ortega
www.qualityexcellence.es
El lun., 17 sept. 2018 a las 17:47, Sergio Castro (<
Post by Sergio Castro
Buenas tardes,
Estoy intentando automatizar unas tareas en la web y ando un poco perdido.
Quiero descargar con un Script de R el html de varias páginas de una web.
Previamente me tengo que identificar (usuario y password) en la web para
poder acceder a las páginas que me interesan. ¿Tienen alguna idea de por
donde empezar a mirar? Estoy viendo RSelenium pero si se les ocurre alguna
forma sencilla, se lo agradecería.
Muchas gracias de antemano.
Un saludo.
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]

Loading...