Discussion:
[R-es] Búsqueda de palabras en una variable de R
m***@unavarra.es
2017-11-28 02:42:13 UTC
Permalink
Buenas,

Tengo un vector de 40 palabras (marca) y necesito saber si en una de las
variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si
se incluye alguna de ellas, me gustaría crear una variable dummy siendo 1
que incluye alguna palabra y 0 que no incluye.

¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?

Gracias!
Freddy Omar López Quintero
2017-11-28 02:50:19 UTC
Permalink
El mar, 28-11-2017 a las 03:42 +0100, ***@unavarra.es
escribió:
> Tengo un vector de 40 palabras (marca) y necesito saber si en una de
> las
> variables del data.frame (datos) se incluye alguna de esas 40
> palabras. Si
> se incluye alguna de ellas, me gustaría crear una variable dummy
> siendo 1
> que incluye alguna palabra y 0 que no incluye.
>
> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?

Lo que describes luce como minería de texto y lo que parece que quieres
es una porción de la matriz que llaman Term-Document Matrix. El paquete
por excelencia para estos menesteres es tm:

https://cran.r-project.org/web/packages/tm/

que tiene su buena viñeta

https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

Ojalá sirva.

Saludos.


--
«...homines autem hominum causa esse generatos...»

Cicero
[[alternative HTML version deleted]]
m***@unavarra.es
2017-11-29 04:51:33 UTC
Permalink
Muchas gracias,

Estoy intentado ejecutar el paquete y necesito importar el archivo txt,
pero necesito importarlo de modo que cada línea sea una observación y no
un texto único (tengo unas 63,000 lineas). No encuentro la solución en los
enlaces. ¿Sabrías como hacerlo?

Gracias!
El Mar, 28 de Noviembre de 2017, 3:50, Freddy Omar López Quintero escribió:
> El mar, 28-11-2017 a las 03:42 +0100, ***@unavarra.es
> escribió:
>> Tengo un vector de 40 palabras (marca) y necesito saber si en una de
>> las
>> variables del data.frame (datos) se incluye alguna de esas 40
>> palabras. Si
>> se incluye alguna de ellas, me gustaría crear una variable dummy
>> siendo 1
>> que incluye alguna palabra y 0 que no incluye.
>>
>> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?
>
> Lo que describes luce como minería de texto y lo que parece que quieres
> es una porción de la matriz que llaman Term-Document Matrix. El paquete
> por excelencia para estos menesteres es tm:
>
> https://cran.r-project.org/web/packages/tm/
>
> que tiene su buena viñeta
>
> https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
>
> Ojalá sirva.
>
> Saludos.
>
>
> --
> «...homines autem hominum causa esse generatos...»
>
> Cicero
Carlos J. Gil Bellosta
2017-11-29 10:52:57 UTC
Permalink
readLines()

El mié., 29 nov. 2017 5:51, <***@unavarra.es> escribió:

> Muchas gracias,
>
> Estoy intentado ejecutar el paquete y necesito importar el archivo txt,
> pero necesito importarlo de modo que cada línea sea una observación y no
> un texto único (tengo unas 63,000 lineas). No encuentro la solución en los
> enlaces. ¿Sabrías como hacerlo?
>
> Gracias!
> El Mar, 28 de Noviembre de 2017, 3:50, Freddy Omar López Quintero escribió:
> > El mar, 28-11-2017 a las 03:42 +0100, ***@unavarra.es
> > escribió:
> >> Tengo un vector de 40 palabras (marca) y necesito saber si en una de
> >> las
> >> variables del data.frame (datos) se incluye alguna de esas 40
> >> palabras. Si
> >> se incluye alguna de ellas, me gustaría crear una variable dummy
> >> siendo 1
> >> que incluye alguna palabra y 0 que no incluye.
> >>
> >> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?
> >
> > Lo que describes luce como minería de texto y lo que parece que quieres
> > es una porción de la matriz que llaman Term-Document Matrix. El paquete
> > por excelencia para estos menesteres es tm:
> >
> > https://cran.r-project.org/web/packages/tm/
> >
> > que tiene su buena viñeta
> >
> > https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
> >
> > Ojalá sirva.
> >
> > Saludos.
> >
> >
> > --
> > «...homines autem hominum causa esse generatos...»
> >
> > Cicero
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]
Carlos J. Gil Bellosta
2017-11-28 12:23:49 UTC
Permalink
grep o grepl

El mar., 28 nov. 2017 a las 3:42, <***@unavarra.es> escribió:

> Buenas,
>
> Tengo un vector de 40 palabras (marca) y necesito saber si en una de las
> variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si
> se incluye alguna de ellas, me gustaría crear una variable dummy siendo 1
> que incluye alguna palabra y 0 que no incluye.
>
> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?
>
> Gracias!
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]
Jesús Para Fernández
2017-11-28 13:55:53 UTC
Permalink
gregexpr te da la posicion de cada una de ellas

Obtener Outlook para Android<https://aka.ms/ghei36>

________________________________
From: R-help-es <r-help-es-***@r-project.org> on behalf of Carlos J. Gil Bellosta <***@datanalytics.com>
Sent: Tuesday, November 28, 2017 1:23:49 PM
To: ***@unavarra.es
Cc: r-help-***@r-project.org
Subject: Re: [R-es] Búsqueda de palabras en una variable de R

grep o grepl

El mar., 28 nov. 2017 a las 3:42, <***@unavarra.es> escribió:

> Buenas,
>
> Tengo un vector de 40 palabras (marca) y necesito saber si en una de las
> variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si
> se incluye alguna de ellas, me gustaría crear una variable dummy siendo 1
> que incluye alguna palabra y 0 que no incluye.
>
> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?
>
> Gracias!
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7Cj.para.fernandez%40hotmail.com%7Cd5eb90d4cc3b4dd8c46408d5365aedcc%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636474686521095545&sdata=SMrovk6NY4VPYkrMck1Rkpdrq9cXDKziX0e5vOY%2Bwak%3D&reserved=0
>

[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org
https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7Cj.para.fernandez%40hotmail.com%7Cd5eb90d4cc3b4dd8c46408d5365aedcc%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636474686521095545&sdata=SMrovk6NY4VPYkrMck1Rkpdrq9cXDKziX0e5vOY%2Bwak%3D&reserved=0

[[alternative HTML version deleted]]
Carlos Ortega
2017-11-28 13:38:32 UTC
Permalink
Hola,

Si te he entendido bien, este sería un ejemplo y una solución:

> > marcas <- c('en', 'lugar')> > mydf <- data.frame(+
x = 1:10,+ y = c('en', 'un', 'lugar', 'de',
'la', 'Mancha', 'de', 'cuyo', 'nombre', 'no'),+ z
= letters[1:10]+ )> > mydf$dum <- ifelse( mydf$y %in% marcas, 1, 0)>
mydf x y z dum
1 1 en a 1
2 2 un b 0
3 3 lugar c 1
4 4 de d 0
5 5 la e 0
6 6 Mancha f 0
7 7 de g 0
8 8 cuyo h 0
9 9 nombre i 0
10 10 no j 0


>

​Saludos,
Carlos Ortega
www.qualityexcellence.es



El 28 de noviembre de 2017, 3:42, <***@unavarra.es> escribió:

> Buenas,
>
> Tengo un vector de 40 palabras (marca) y necesito saber si en una de las
> variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si
> se incluye alguna de ellas, me gustaría crear una variable dummy siendo 1
> que incluye alguna palabra y 0 que no incluye.
>
> ¿Qué paquete me recomendáis? ¿Cuál sería el comando a ejecutar?
>
> Gracias!
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]
Loading...