[R-es] partialPlot en un Randomforest

Discussion:

Manuel Mendoza

2018-01-07 00:21:17 UTC

Hola erreros. A ver si alguien podría decirme qué son los dos ejes del
plot que resulta de aplicar partialPlot en un Randomforest.

Encuentro que:

Partial dependence plot gives a graphical depiction of the marginal
effect of a variable on the class probability (classification) or
response (regression)

que nos indica como varía la VR en función de la variable considerada,
manteniendo el resto de variables fijas.

No encuentro lo que es esa VR por ningún sitio (varianza?), ni la
explicación de qué son los dos ejes.

Gracias,
Manuel

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

Carlos Ortega

2018-01-07 01:46:38 UTC

Permalink

Hola,

Ya es que la explicaciÃ³n de la funciÃ³n es un tanto oscura...

data(iris)
set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

Y el grÃ¡fico que se produce:

[image: ImÃ¡genes integradas 1]
El grÃ¡fico mide la variaciÃ³n de la probabilidad sobre una de las clases de
la variable target (en este caso la variable target es "Species" y la clase
es "versicolor") de acuerdo a cÃ³mo varÃa la variable de estudio, en este
caso "Petal.Width". El grÃ¡fico te indica que valores de Petal.Width
cercanos a 1.0 se obtiene el mÃ¡ximo de probabilidad de que Species sea
"versicolor".

Y algo parecido para cuando tienes un modelo de "regresiÃ³n".

No sÃ© ese "VR" que comentas en tu duda de dÃ³nde sale...

Si estÃ¡s interesado en este tema, mira tambiÃ©n el paquete "pdp".

Gracias,
Carlos Ortega
www.qualityexcellence.es

Hola erreros. A ver si alguien podrÃa decirme quÃ© son los dos ejes del
plot que resulta de aplicar partialPlot en un Randomforest.
Partial dependence plot gives a graphical depiction of the marginal effect
of a variable on the class probability (classification) or response
(regression)
que nos indica como varÃa la VR en funciÃ³n de la variable considerada,
manteniendo el resto de variables fijas.
No encuentro lo que es esa VR por ningÃºn sitio (varianza?), ni la
explicaciÃ³n de quÃ© son los dos ejes.
Gracias,
Manuel
--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

Manuel Mendoza

2018-01-07 09:58:26 UTC

Permalink

Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día
de reyes a la 1.20h y me contestas a las 2.45h)

Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En
un RF para clasificación me da valores parecidos a los de tu ejemplo,
y en otro para regresión, valores de y entre 45 y 55.

Para regresión, el último parámetro no puede ser una categoría, como
"versicolor". Yo puse la variable entrecomillada, pensando que era el
nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo
he quitado y no afecta. Pensé que podría ser el valor de la variable
respuesta más esperado, en función del valor del predictor, pero no se
mueve en el mismo rango.

Voy a ver el paquete pdp del que me hablas.

Gracias nuevamente,

Manuel

Hola,
Ya es que la explicación de la función es un tanto oscura...

data(iris)
set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

[image: Imágenes integradas 1]
El gráfico mide la variación de la probabilidad sobre una de las clases de
la variable target (en este caso la variable target es "Species" y la clase
es "versicolor") de acuerdo a cómo varía la variable de estudio, en este
caso "Petal.Width". El gráfico te indica que valores de Petal.Width
cercanos a 1.0 se obtiene el máximo de probabilidad de que Species sea
"versicolor".
Y algo parecido para cuando tienes un modelo de "regresión".
No sé ese "VR" que comentas en tu duda de dónde sale...
Si estás interesado en este tema, mira también el paquete "pdp".
Gracias,
Carlos Ortega
www.qualityexcellence.es

Hola erreros. A ver si alguien podría decirme qué son los dos ejes del
plot que resulta de aplicar partialPlot en un Randomforest.
Partial dependence plot gives a graphical depiction of the marginal effect
of a variable on the class probability (classification) or response
(regression)
que nos indica como varía la VR en función de la variable considerada,
manteniendo el resto de variables fijas.
No encuentro lo que es esa VR por ningún sitio (varianza?), ni la
explicación de qué son los dos ejes.
Gracias,
Manuel
--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

Carlos Ortega

2018-01-07 13:59:17 UTC

Permalink

Hola Manuel,

Es que me confundí de día y me quedé esperando a los Reyes Magos... :-)...

Sí, eso de la probabilidad como indica la ayuda realmente es algo confuso.
Tómalo como una medida de referencia sobre el de la mejora en el valor de
probabilidad a la hora de hacer una clasificación.
También considera este enfoque para la regresión. El gráfico te muestra en
qué intervalos se maximiza la probabilidad de una clase en la variable
objetivo (para una clasificación), para una regresión no lo tengo tan claro.

Con los parámetros de la función
x

an object of class randomForest, which contains a forest component.
pred.data

a data frame used for contructing the plot, usually the training data used
to contruct the random forest.
x.var

name of the variable for which partial dependence is to be examined.
which.class

For classification data, the class to focus on (default the first class).

El parámetro which.class ("versicolor" en el ejemplo), solo se usa para los
casos de clasificación. No es la etiqueta del eje o algo parecido... Si lo
incluyes para un gráfico de regresión, no tiene efecto.

Sigo viendo el paquete "pdp" más estructurado y claro en el tratamiento de
los "partial dependence plot"...

Gracias,
Carlos.

Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de
reyes a la 1.20h y me contestas a las 2.45h)
Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En un
RF para clasificación me da valores parecidos a los de tu ejemplo, y en
otro para regresión, valores de y entre 45 y 55.
Para regresión, el último parámetro no puede ser una categoría, como
"versicolor". Yo puse la variable entrecomillada, pensando que era el
nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo he
quitado y no afecta. Pensé que podría ser el valor de la variable respuesta
más esperado, en función del valor del predictor, pero no se mueve en el
mismo rango.
Voy a ver el paquete pdp del que me hablas.
Gracias nuevamente,
Manuel
Hola,

Ya es que la explicación de la función es un tanto oscura...
data(iris)

set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

Manuel Mendoza

2018-02-01 12:30:34 UTC

Permalink

Muy buenas. Estoy intentando ponderar las muestras aplicando la
función gbm.step del paquete dismo. En el manual lo hace añadiendo:
site.weights = rep(1, nrow(data)) (que en realidad les da el mismo
peso a todas). Yo tengo un vector con el peso de cada muestra, pero no
encuentro la forma de ponerlo sin que me dé error. ¿Sabe alguno de
vosotros cómo hacerlo?
Gracias

Post by Manuel Mendoza
Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día
de reyes a la 1.20h y me contestas a las 2.45h)
Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10?
En un RF para clasificación me da valores parecidos a los de tu
ejemplo, y en otro para regresión, valores de y entre 45 y 55.
Para regresión, el último parámetro no puede ser una categoría, como
"versicolor". Yo puse la variable entrecomillada, pensando que era
el nombre del eje x, pero he probado a poner otra cosa, y lo ignora;
lo he quitado y no afecta. Pensé que podría ser el valor de la
variable respuesta más esperado, en función del valor del predictor,
pero no se mueve en el mismo rango.
Voy a ver el paquete pdp del que me hablas.
Gracias nuevamente,
Manuel

Hola,
Ya es que la explicación de la función es un tanto oscura...

data(iris)
set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain
_______________________________________________
R-help-es mailing list
https://stat.ethz.ch/mailman/listinfo/r-help-es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

Manuel Mendoza

2018-02-01 18:04:29 UTC

Permalink

Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]?
Gracias

Hola,
Ya es que la explicación de la función es un tanto oscura...

data(iris)
set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

Carlos Ortega

2018-02-01 20:51:26 UTC

Permalink

Hola,

- *[data[,1] ==1, 2]*
- Esto no tiene sentido...
- si lo que querías decir era *data[data[,1] == 1, 2] *....mira el
ejemplo y lo destacado...

data <- data.frame(

+ x = sample(c(0,1),10, replace = TRUE),
+ y = sample(c(0,1),10, replace = TRUE)
+ )

data

x y
1 0 1
2 0 1
3 0 0
4 *1 0*
5 *1 1*
6 *1 1*
7 0 0
8 0 1
9 0 1
10 0 1

data[data[,1]==1, 2]

[1] 0 1 1

Saludos,
Carlos Ortega
www.qualityexcellence.es

Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]?
Gracias
Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de

Post by Manuel Mendoza
reyes a la 1.20h y me contestas a las 2.45h)
Una cosa más: si el eje y es la probabilidad ¿por qué va de 0 a 10? En un
RF para clasificación me da valores parecidos a los de tu ejemplo, y en
otro para regresión, valores de y entre 45 y 55.
Para regresión, el último parámetro no puede ser una categoría, como
"versicolor". Yo puse la variable entrecomillada, pensando que era el
nombre del eje x, pero he probado a poner otra cosa, y lo ignora; lo he
quitado y no afecta. Pensé que podría ser el valor de la variable respuesta
más esperado, en función del valor del predictor, pero no se mueve en el
mismo rango.
Voy a ver el paquete pdp del que me hablas.
Gracias nuevamente,
Manuel
Hola,

Ya es que la explicación de la función es un tanto oscura...
data(iris)

set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

Manuel Mendoza

2018-02-01 21:39:44 UTC

Permalink

Tienes razón, Carlos, en el copia y pega me dejé un "data".

Voy a ver lo que me mandas.
Gracias, como siempre.
Manuel

Post by Carlos Ortega
Hola,
- *[data[,1] ==1, 2]*
- Esto no tiene sentido...
- si lo que querías decir era *data[data[,1] == 1, 2] *....mira el
ejemplo y lo destacado...

data <- data.frame(

+ x = sample(c(0,1),10, replace = TRUE),
+ y = sample(c(0,1),10, replace = TRUE)
+ )

data

x y
1 0 1
2 0 1
3 0 0
4 *1 0*
5 *1 1*
6 *1 1*
7 0 0
8 0 1
9 0 1
10 0 1

data[data[,1]==1, 2]

[1] 0 1 1
Saludos,
Carlos Ortega
www.qualityexcellence.es

Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]?
Gracias
Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de

Ya es que la explicación de la función es un tanto oscura...
data(iris)

set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain

Manuel Mendoza

2018-02-02 09:21:05 UTC

Permalink

Ah, ya lo veo; te devuelve la segunda columna de data que cumple la
condición de que la primera columna sea igual a 1.
Se ve más claro si la 2ª columna no son 0 y 1 también.

data <- data.frame(x = sample(c(0,1),10, replace = TRUE),
y = sample(c(1:20),10, replace = F))
Gracias

Post by Carlos Ortega
Hola,
- *[data[,1] ==1, 2]*
- Esto no tiene sentido...
- si lo que querías decir era *data[data[,1] == 1, 2] *....mira el
ejemplo y lo destacado...

data <- data.frame(

+ x = sample(c(0,1),10, replace = TRUE),
+ y = sample(c(0,1),10, replace = TRUE)
+ )

data

x y
1 0 1
2 0 1
3 0 0
4 *1 0*
5 *1 1*
6 *1 1*
7 0 0
8 0 1
9 0 1
10 0 1

data[data[,1]==1, 2]

[1] 0 1 1
Saludos,
Carlos Ortega
www.qualityexcellence.es

Algo muy sencillo: ¿cómo leeríais esto [data[,1]==1, 2]?
Gracias
Muchas gracias Carlos; ¡tu siempre al pié del cañón! (lo puse el día de

Ya es que la explicación de la función es un tanto oscura...
data(iris)

set.seed(543)
iris.rf <- randomForest(Species~., iris)
partialPlot(iris.rf, iris, Petal.Width, "versicolor")

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

--
Dr Manuel Mendoza
Department of Biogeography and Global Change
National Museum of Natural History (MNCN)
Spanish Scientific Council (CSIC)
C/ Serrano 115bis, 28006 MADRID
Spain