Discussion:
[R-es] cantidad de datos
(too old to reply)
Alva Valiente, Ricardo (RIAV)
2015-04-29 14:25:46 UTC
Permalink
Estimados dos consultas.
-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si el programa soporta sin ningún inconveniente análisis cluster y discriminantes, así como análisis uni variados y bi variados.
-Cuando se grafica un dendograma como puedo hacer para que todas las líneas de los casos, partan desde el X, porque cuando se genera se visualiza bien desordenado (unas líneas comienzan mas arriba que otras). También como hacer para que los nombres de los casos aparezcan en vertical y no en horizontal; y si es posible el gráfico también.

Muchas gracias de antemano.

Atte.
Ricardo Alva Valiente

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
Carlos Ortega
2015-04-29 15:39:28 UTC
Permalink
Hola,

La matriz que vas a procesar será de alrededor de 45 Mb. No creo que tengas
problemas para cargar este conjunto de datos a tu entorno.

El problema puede aparecer en generar el objeto clúster y esto dependerá de
la RAM que tengas disponible.

Pásanos el detalle de la máquina que utilizarías y la versión de R que usas.

He simulado tu conjunto y he tenido problemas a la hora de generar el
clúster. Mi máquina es un MacBook, de 8Gb.

Saludos,
Carlos Ortega.

El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) <
***@cajatrujillo.com.pe> escribió:

> Estimados dos consultas.
> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
> el programa soporta sin ningún inconveniente análisis cluster y
> discriminantes, así como análisis uni variados y bi variados.
> -Cuando se grafica un dendograma como puedo hacer para que todas las
> líneas de los casos, partan desde el X, porque cuando se genera se
> visualiza bien desordenado (unas líneas comienzan mas arriba que otras).
> También como hacer para que los nombres de los casos aparezcan en vertical
> y no en horizontal; y si es posible el gráfico también.
>
> Muchas gracias de antemano.
>
> Atte.
> Ricardo Alva Valiente
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatrujillo.com.pe "
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]
Alva Valiente, Ricardo (RIAV)
2015-04-29 15:45:07 UTC
Permalink
Bueno mi máquina es:
HP
Windows 7
Procesador Core I5 de 2.5 GHz
4 GB de Ram (2.94 GB utilizables)
Sistema operativo de 32 bits
Versión de R, 3.2.0


Atte.
Ricardo Alva Valiente
Analista de Control Preventivo
Unidad de Prevención
Of. Recuperaciones – CC Boulevard Chiclayo
'(074) 232740
RPC 978194441 RPM *157793
•***@cajatrujillo.com.pe
www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe/>

[LOGO]

De: Carlos Ortega [mailto:***@qualityexcellence.es]
Enviado el: miércoles, 29 de abril de 2015 10:39 AM
Para: Alva Valiente, Ricardo (RIAV)
CC: r-help-***@r-project.org
Asunto: Re: [R-es] cantidad de datos

Hola,
La matriz que vas a procesar será de alrededor de 45 Mb. No creo que tengas problemas para cargar este conjunto de datos a tu entorno.
El problema puede aparecer en generar el objeto clúster y esto dependerá de la RAM que tengas disponible.
Pásanos el detalle de la máquina que utilizarías y la versión de R que usas.

He simulado tu conjunto y he tenido problemas a la hora de generar el clúster. Mi máquina es un MacBook, de 8Gb.

Saludos,
Carlos Ortega.

El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) <***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>> escribió:
Estimados dos consultas.
-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si el programa soporta sin ningún inconveniente análisis cluster y discriminantes, así como análisis uni variados y bi variados.
-Cuando se grafica un dendograma como puedo hacer para que todas las líneas de los casos, partan desde el X, porque cuando se genera se visualiza bien desordenado (unas líneas comienzan mas arriba que otras). También como hacer para que los nombres de los casos aparezcan en vertical y no en horizontal; y si es posible el gráfico también.

Muchas gracias de antemano.

Atte.
Ricardo Alva Valiente

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org<mailto:R-help-***@r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
Carlos Ortega
2015-04-29 15:49:17 UTC
Permalink
No sé si va a ser suficiente....
Acabo de correr un ejemplo equivalente:

# Example
mydat <- matrix(rnorm(280000*20), ncol=20)
hc <- hclust(dist(mydat), "ave")
plot(hc)
plot(hc, hang = -1)

sobre "Azure Machine Learning" y ...

[image: Imágenes integradas 1]

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV) <
***@cajatrujillo.com.pe> escribió:

> Bueno mi máquina es:
>
> HP
>
> Windows 7
>
> Procesador Core I5 de 2.5 GHz
>
> 4 GB de Ram (2.94 GB utilizables)
>
> Sistema operativo de 32 bits
>
> Versión de R, 3.2.0
>
>
>
>
>
> Atte.
>
> *Ricardo Alva Valiente*
>
> *Analista de Control Preventivo*
>
> *Unidad de Prevención*
>
> *Of. Recuperaciones – CC Boulevard Chiclayo*
>
> '(074) 232740
>
> RPC 978194441 RPM *157793
>
> ****@cajatrujillo.com.pe
>
> www.cajatrujillo.com.pe
>
>
>
> [image: LOGO]
>
>
>
> *De:* Carlos Ortega [mailto:***@qualityexcellence.es]
> *Enviado el:* miércoles, 29 de abril de 2015 10:39 AM
> *Para:* Alva Valiente, Ricardo (RIAV)
> *CC:* r-help-***@r-project.org
> *Asunto:* Re: [R-es] cantidad de datos
>
>
>
> Hola,
>
> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
> tengas problemas para cargar este conjunto de datos a tu entorno.
>
> El problema puede aparecer en generar el objeto clúster y esto dependerá
> de la RAM que tengas disponible.
>
> Pásanos el detalle de la máquina que utilizarías y la versión de R que
> usas.
>
>
> He simulado tu conjunto y he tenido problemas a la hora de generar el
> clúster. Mi máquina es un MacBook, de 8Gb.
>
>
>
> Saludos,
>
> Carlos Ortega.
>
>
>
> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) <
> ***@cajatrujillo.com.pe> escribió:
>
> Estimados dos consultas.
> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
> el programa soporta sin ningún inconveniente análisis cluster y
> discriminantes, así como análisis uni variados y bi variados.
> -Cuando se grafica un dendograma como puedo hacer para que todas las
> líneas de los casos, partan desde el X, porque cuando se genera se
> visualiza bien desordenado (unas líneas comienzan mas arriba que otras).
> También como hacer para que los nombres de los casos aparezcan en vertical
> y no en horizontal; y si es posible el gráfico también.
>
> Muchas gracias de antemano.
>
> Atte.
> Ricardo Alva Valiente
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatrujillo.com.pe "
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
> --
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
> "Aviso Legal: La información de este correo electrónico, así como de
> sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él
> o los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatrujillo.com.pe "
>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es
j***@gmail.com
2015-04-29 16:20:35 UTC
Permalink
Estimados


Creo que se puede presentar un problema con el sistema operativo, al ser de 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo seguro.


Los 292 GB que informa Carlos son una enormidad, esos requerimientos son complicados.


¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me parece que no sería optimo, prefiero intentar en Linux y R.


Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64 bit, como también de poder comprar más memoria (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.


Javier Marcuzzi





De: Carlos Ortega
Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
Para: Alva Valiente, Ricardo (RIAV)
CC: R-help-***@r-project.org






No sé si va a ser suficiente....


Acabo de correr un ejemplo equivalente:

# Example
mydat <- matrix(rnorm(280000*20), ncol=20)
hc <- hclust(dist(mydat), "ave")
plot(hc)
plot(hc, hang = -1)

sobre "Azure Machine Learning" y ...

Imágenes integradas 1



Saludos,


Carlos Ortega


www.qualityexcellence.es




El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV) <***@cajatrujillo.com.pe> escribió:




Bueno mi máquina es:

HP

Windows 7

Procesador Core I5 de 2.5 GHz

4 GB de Ram (2.94 GB utilizables)

Sistema operativo de 32 bits

Versión de R, 3.2.0





Atte.

Ricardo Alva Valiente

Analista de Control Preventivo

Unidad de Prevención

Of. Recuperaciones – CC Boulevard Chiclayo

'(074) 232740

RPC 978194441 RPM *157793

****@cajatrujillo.com.pe

www.cajatrujillo.com.pe



LOGO



De: Carlos Ortega [mailto:***@qualityexcellence.es]
Enviado el: miércoles, 29 de abril de 2015 10:39 AM
Para: Alva Valiente, Ricardo (RIAV)
CC: r-help-***@r-project.org
Asunto: Re: [R-es] cantidad de datos







Hola,


La matriz que vas a procesar será de alrededor de 45 Mb. No creo que tengas problemas para cargar este conjunto de datos a tu entorno.


El problema puede aparecer en generar el objeto clúster y esto dependerá de la RAM que tengas disponible.


Pásanos el detalle de la máquina que utilizarías y la versión de R que usas.



He simulado tu conjunto y he tenido problemas a la hora de generar el clúster. Mi máquina es un MacBook, de 8Gb.





Saludos,


Carlos Ortega.





El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) <***@cajatrujillo.com.pe> escribió:

Estimados dos consultas.
-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si el programa soporta sin ningún inconveniente análisis cluster y discriminantes, así como análisis uni variados y bi variados.
-Cuando se grafica un dendograma como puedo hacer para que todas las líneas de los casos, partan desde el X, porque cuando se genera se visualiza bien desordenado (unas líneas comienzan mas arriba que otras). También como hacer para que los nombres de los casos aparezcan en vertical y no en horizontal; y si es posible el gráfico también.

Muchas gracias de antemano.

Atte.
Ricardo Alva Valiente

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es




--


Saludos,
Carlos Ortega
www.qualityexcellence.es


"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "



--

Saludos,
Carlos Ortega
www.qualityexcellence.es
Carlos J. Gil Bellosta
2015-04-29 17:06:42 UTC
Permalink
Hola, ¿qué tal?

291GB viene a ser

280 * 280 * 1e6 * 8 / 2^30 / 2

que es el número de GB necesarios para almacenar la matriz de
distancias entre 280k sujetos.

Hay que buscar una alternativa que no implique precalcular esa enormidad.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com





El día 29 de abril de 2015, 18:20, <***@gmail.com> escribió:
> Estimados
>
> Creo que se puede presentar un problema con el sistema operativo, al ser de
> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo
> seguro.
>
> Los 292 GB que informa Carlos son una enormidad, esos requerimientos son
> complicados.
>
> ¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me
> parece que no sería optimo, prefiero intentar en Linux y R.
>
> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es
> de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64
> bit, como también de poder comprar más memoria (siempre en 64 bit), aunque
> me asustan los 292 GB que informa Carlos.
>
> Javier Marcuzzi
>
> De: Carlos Ortega
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
> Para: Alva Valiente, Ricardo (RIAV)
> CC: R-help-***@r-project.org
>
> No sé si va a ser suficiente....
> Acabo de correr un ejemplo equivalente:
>
> # Example
> mydat <- matrix(rnorm(280000*20), ncol=20)
> hc <- hclust(dist(mydat), "ave")
> plot(hc)
> plot(hc, hang = -1)
>
> sobre "Azure Machine Learning" y ...
>
>
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
> <***@cajatrujillo.com.pe> escribió:
>>
>> Bueno mi máquina es:
>>
>> HP
>>
>> Windows 7
>>
>> Procesador Core I5 de 2.5 GHz
>>
>> 4 GB de Ram (2.94 GB utilizables)
>>
>> Sistema operativo de 32 bits
>>
>> Versión de R, 3.2.0
>>
>>
>>
>>
>>
>> Atte.
>>
>> Ricardo Alva Valiente
>>
>> Analista de Control Preventivo
>>
>> Unidad de Prevención
>>
>> Of. Recuperaciones – CC Boulevard Chiclayo
>>
>> '(074) 232740
>>
>> RPC 978194441 RPM *157793
>>
>> ****@cajatrujillo.com.pe
>>
>> www.cajatrujillo.com.pe
>>
>>
>>
>>
>>
>> De: Carlos Ortega [mailto:***@qualityexcellence.es]
>> Enviado el: miércoles, 29 de abril de 2015 10:39 AM
>> Para: Alva Valiente, Ricardo (RIAV)
>> CC: r-help-***@r-project.org
>> Asunto: Re: [R-es] cantidad de datos
>>
>>
>>
>> Hola,
>>
>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>
>> El problema puede aparecer en generar el objeto clúster y esto dependerá
>> de la RAM que tengas disponible.
>>
>> Pásanos el detalle de la máquina que utilizarías y la versión de R que
>> usas.
>>
>>
>> He simulado tu conjunto y he tenido problemas a la hora de generar el
>> clúster. Mi máquina es un MacBook, de 8Gb.
>>
>>
>>
>> Saludos,
>>
>> Carlos Ortega.
>>
>>
>>
>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>> <***@cajatrujillo.com.pe> escribió:
>>
>> Estimados dos consultas.
>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
>> el programa soporta sin ningún inconveniente análisis cluster y
>> discriminantes, así como análisis uni variados y bi variados.
>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>> líneas de los casos, partan desde el X, porque cuando se genera se visualiza
>> bien desordenado (unas líneas comienzan mas arriba que otras). También como
>> hacer para que los nombres de los casos aparezcan en vertical y no en
>> horizontal; y si es posible el gráfico también.
>>
>> Muchas gracias de antemano.
>>
>> Atte.
>> Ricardo Alva Valiente
>>
>> "Aviso Legal: La información de este correo electrónico, así como de sus
>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>> destinatarios. Si Usted ha recibido este correo por error, por favor
>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>> emitida en este correo electrónico es propia del autor o remitente y no
>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>> Trujillo www.cajatrujillo.com.pe "
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-***@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
>>
>>
>> --
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> "Aviso Legal: La información de este correo electrónico, así como de sus
>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>> destinatarios. Si Usted ha recibido este correo por error, por favor
>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>> emitida en este correo electrónico es propia del autor o remitente y no
>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>> Trujillo www.cajatrujillo.com.pe "
>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
Jose Luis Cañadas Reche
2015-04-29 17:10:34 UTC
Permalink
Hola.
Yo en vez de utilizar análisis cluster que impliquen distancias,
probaría con un kmedias o con un pam (partition around medoids) pero
utilizando muestras, la función clara de la librería cluster puede
ayudarte. Pego el details de la ayuda de 'clara'

Details

clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
Compared to other partitioning methods such as pam, it can deal with
much larger datasets. Internally, this is achieved by considering
sub-datasets of fixed size (sampsize) such that the time and storage
requirements become linear in n rather than quadratic.

Each sub-dataset is partitioned into k clusters using the same algorithm
as in pam.
Once k representative objects have been selected from the sub-dataset,
each observation of the entire dataset is assigned to the nearest medoid.

The mean (equivalent to the sum) of the dissimilarities of the
observations to their closest medoid is used as a measure of the quality
of the clustering. The sub-dataset for which the mean (or sum) is
minimal, is retained. A further analysis is carried out on the final
partition.

Each sub-dataset is forced to contain the medoids obtained from the best
sub-dataset until then. Randomly drawn observations are added to this
set until sampsize has been reached.

Saludos

El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
> Hola, ¿qué tal?
>
> 291GB viene a ser
>
> 280 * 280 * 1e6 * 8 / 2^30 / 2
>
> que es el número de GB necesarios para almacenar la matriz de
> distancias entre 280k sujetos.
>
> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>
> Un saludo,
>
> Carlos J. Gil Bellosta
> http://www.datanalytics.com
>
>
>
>
>
> El día 29 de abril de 2015, 18:20, <***@gmail.com> escribió:
>> Estimados
>>
>> Creo que se puede presentar un problema con el sistema operativo, al ser de
>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo
>> seguro.
>>
>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos son
>> complicados.
>>
>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me
>> parece que no sería optimo, prefiero intentar en Linux y R.
>>
>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es
>> de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64
>> bit, como también de poder comprar más memoria (siempre en 64 bit), aunque
>> me asustan los 292 GB que informa Carlos.
>>
>> Javier Marcuzzi
>>
>> De: Carlos Ortega
>> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>> Para: Alva Valiente, Ricardo (RIAV)
>> CC: R-help-***@r-project.org
>>
>> No sé si va a ser suficiente....
>> Acabo de correr un ejemplo equivalente:
>>
>> # Example
>> mydat <- matrix(rnorm(280000*20), ncol=20)
>> hc <- hclust(dist(mydat), "ave")
>> plot(hc)
>> plot(hc, hang = -1)
>>
>> sobre "Azure Machine Learning" y ...
>>
>>
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>> <***@cajatrujillo.com.pe> escribió:
>>> Bueno mi máquina es:
>>>
>>> HP
>>>
>>> Windows 7
>>>
>>> Procesador Core I5 de 2.5 GHz
>>>
>>> 4 GB de Ram (2.94 GB utilizables)
>>>
>>> Sistema operativo de 32 bits
>>>
>>> Versión de R, 3.2.0
>>>
>>>
>>>
>>>
>>>
>>> Atte.
>>>
>>> Ricardo Alva Valiente
>>>
>>> Analista de Control Preventivo
>>>
>>> Unidad de Prevención
>>>
>>> Of. Recuperaciones – CC Boulevard Chiclayo
>>>
>>> '(074) 232740
>>>
>>> RPC 978194441 RPM *157793
>>>
>>> ****@cajatrujillo.com.pe
>>>
>>> www.cajatrujillo.com.pe
>>>
>>>
>>>
>>>
>>>
>>> De: Carlos Ortega [mailto:***@qualityexcellence.es]
>>> Enviado el: miércoles, 29 de abril de 2015 10:39 AM
>>> Para: Alva Valiente, Ricardo (RIAV)
>>> CC: r-help-***@r-project.org
>>> Asunto: Re: [R-es] cantidad de datos
>>>
>>>
>>>
>>> Hola,
>>>
>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>>
>>> El problema puede aparecer en generar el objeto clúster y esto dependerá
>>> de la RAM que tengas disponible.
>>>
>>> Pásanos el detalle de la máquina que utilizarías y la versión de R que
>>> usas.
>>>
>>>
>>> He simulado tu conjunto y he tenido problemas a la hora de generar el
>>> clúster. Mi máquina es un MacBook, de 8Gb.
>>>
>>>
>>>
>>> Saludos,
>>>
>>> Carlos Ortega.
>>>
>>>
>>>
>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>>> <***@cajatrujillo.com.pe> escribió:
>>>
>>> Estimados dos consultas.
>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
>>> el programa soporta sin ningún inconveniente análisis cluster y
>>> discriminantes, así como análisis uni variados y bi variados.
>>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>>> líneas de los casos, partan desde el X, porque cuando se genera se visualiza
>>> bien desordenado (unas líneas comienzan mas arriba que otras). También como
>>> hacer para que los nombres de los casos aparezcan en vertical y no en
>>> horizontal; y si es posible el gráfico también.
>>>
>>> Muchas gracias de antemano.
>>>
>>> Atte.
>>> Ricardo Alva Valiente
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de sus
>>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>>> destinatarios. Si Usted ha recibido este correo por error, por favor
>>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>>> emitida en este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>>> Trujillo www.cajatrujillo.com.pe "
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-***@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>
>>>
>>>
>>> --
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de sus
>>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>>> destinatarios. Si Usted ha recibido este correo por error, por favor
>>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>>> emitida en este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>>> Trujillo www.cajatrujillo.com.pe "
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-***@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
j***@gmail.com
2015-04-29 17:16:25 UTC
Permalink
Estimados


Justo se me ocurrió una búsqueda y el resultado es parecido.

http://www.r-bloggers.com/k-means-clustering-on-big-data/

Javier Marcuzzi






De: jose luis cañadas
Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
Para: R-help-***@r-project.org





Hola.
Yo en vez de utilizar análisis cluster que impliquen distancias,
probaría con un kmedias o con un pam (partition around medoids) pero
utilizando muestras, la función clara de la librería cluster puede
ayudarte. Pego el details de la ayuda de 'clara'

Details

clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
Compared to other partitioning methods such as pam, it can deal with
much larger datasets. Internally, this is achieved by considering
sub-datasets of fixed size (sampsize) such that the time and storage
requirements become linear in n rather than quadratic.

Each sub-dataset is partitioned into k clusters using the same algorithm
as in pam.
Once k representative objects have been selected from the sub-dataset,
each observation of the entire dataset is assigned to the nearest medoid.

The mean (equivalent to the sum) of the dissimilarities of the
observations to their closest medoid is used as a measure of the quality
of the clustering. The sub-dataset for which the mean (or sum) is
minimal, is retained. A further analysis is carried out on the final
partition.

Each sub-dataset is forced to contain the medoids obtained from the best
sub-dataset until then. Randomly drawn observations are added to this
set until sampsize has been reached.

Saludos

El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
> Hola, ¿qué tal?
>
> 291GB viene a ser
>
> 280 * 280 * 1e6 * 8 / 2^30 / 2
>
> que es el número de GB necesarios para almacenar la matriz de
> distancias entre 280k sujetos.
>
> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>
> Un saludo,
>
> Carlos J. Gil Bellosta
> http://www.datanalytics.com
>
>
>
>
>
> El día 29 de abril de 2015, 18:20, <***@gmail.com> escribió:
>> Estimados
>>
>> Creo que se puede presentar un problema con el sistema operativo, al ser de
>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo
>> seguro.
>>
>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos son
>> complicados.
>>
>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me
>> parece que no sería optimo, prefiero intentar en Linux y R.
>>
>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es
>> de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64
>> bit, como también de poder comprar más memoria (siempre en 64 bit), aunque
>> me asustan los 292 GB que informa Carlos.
>>
>> Javier Marcuzzi
>>
>> De: Carlos Ortega
>> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>> Para: Alva Valiente, Ricardo (RIAV)
>> CC: R-help-***@r-project.org
>>
>> No sé si va a ser suficiente....
>> Acabo de correr un ejemplo equivalente:
>>
>> # Example
>> mydat <- matrix(rnorm(280000*20), ncol=20)
>> hc <- hclust(dist(mydat), "ave")
>> plot(hc)
>> plot(hc, hang = -1)
>>
>> sobre "Azure Machine Learning" y ...
>>
>>
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>> <***@cajatrujillo.com.pe> escribió:
>>> Bueno mi máquina es:
>>>
>>> HP
>>>
>>> Windows 7
>>>
>>> Procesador Core I5 de 2.5 GHz
>>>
>>> 4 GB de Ram (2.94 GB utilizables)
>>>
>>> Sistema operativo de 32 bits
>>>
>>> Versión de R, 3.2.0
>>>
>>>
>>>
>>>
>>>
>>> Atte.
>>>
>>> Ricardo Alva Valiente
>>>
>>> Analista de Control Preventivo
>>>
>>> Unidad de Prevención
>>>
>>> Of. Recuperaciones – CC Boulevard Chiclayo
>>>
>>> '(074) 232740
>>>
>>> RPC 978194441 RPM *157793
>>>
>>> ****@cajatrujillo.com.pe
>>>
>>> www.cajatrujillo.com.pe
>>>
>>>
>>>
>>>
>>>
>>> De: Carlos Ortega [mailto:***@qualityexcellence.es]
>>> Enviado el: miércoles, 29 de abril de 2015 10:39 AM
>>> Para: Alva Valiente, Ricardo (RIAV)
>>> CC: r-help-***@r-project.org
>>> Asunto: Re: [R-es] cantidad de datos
>>>
>>>
>>>
>>> Hola,
>>>
>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>>
>>> El problema puede aparecer en generar el objeto clúster y esto dependerá
>>> de la RAM que tengas disponible.
>>>
>>> Pásanos el detalle de la máquina que utilizarías y la versión de R que
>>> usas.
>>>
>>>
>>> He simulado tu conjunto y he tenido problemas a la hora de generar el
>>> clúster. Mi máquina es un MacBook, de 8Gb.
>>>
>>>
>>>
>>> Saludos,
>>>
>>> Carlos Ortega.
>>>
>>>
>>>
>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>>> <***@cajatrujillo.com.pe> escribió:
>>>
>>> Estimados dos consultas.
>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
>>> el programa soporta sin ningún inconveniente análisis cluster y
>>> discriminantes, así como análisis uni variados y bi variados.
>>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>>> líneas de los casos, partan desde el X, porque cuando se genera se visualiza
>>> bien desordenado (unas líneas comienzan mas arriba que otras). También como
>>> hacer para que los nombres de los casos aparezcan en vertical y no en
>>> horizontal; y si es posible el gráfico también.
>>>
>>> Muchas gracias de antemano.
>>>
>>> Atte.
>>> Ricardo Alva Valiente
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de sus
>>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>>> destinatarios. Si Usted ha recibido este correo por error, por favor
>>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>>> emitida en este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>>> Trujillo www.cajatrujillo.com.pe "
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-***@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>
>>>
>>>
>>> --
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de sus
>>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>>> destinatarios. Si Usted ha recibido este correo por error, por favor
>>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>>> emitida en este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>>> Trujillo www.cajatrujillo.com.pe "
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-***@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
Alva Valiente, Ricardo (RIAV)
2015-04-29 17:42:31 UTC
Permalink
El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.

Atte.
Ricardo Alva Valiente

-----Mensaje original-----
De: R-help-es [mailto:r-help-es-***@r-project.org] En nombre de ***@gmail.com
Enviado el: miércoles, 29 de abril de 2015 12:16 PM
Para: jose luis cañadas; R-help-***@r-project.org
Asunto: Re: [R-es] cantidad de datos

Estimados


Justo se me ocurrió una búsqueda y el resultado es parecido.

http://www.r-bloggers.com/k-means-clustering-on-big-data/

Javier Marcuzzi

De: jose luis cañadas
Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
Para: R-help-***@r-project.org


Hola.
Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'

Details

clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.

Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.
Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.

The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.

Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.

Saludos

El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
> Hola, ¿qué tal?
>
> 291GB viene a ser
>
> 280 * 280 * 1e6 * 8 / 2^30 / 2
>
> que es el número de GB necesarios para almacenar la matriz de
> distancias entre 280k sujetos.
>
> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>
> Un saludo,
>
> Carlos J. Gil Bellosta
> http://www.datanalytics.com
>
>
>
>
>
> El día 29 de abril de 2015, 18:20, <***@gmail.com> escribió:
>> Estimados
>>
>> Creo que se puede presentar un problema con el sistema operativo, al
>> ser de
>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
>> todo seguro.
>>
>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos
>> son complicados.
>>
>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows?
>> Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
>>
>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
>> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
>> operativo de 64 bit, como también de poder comprar más memoria
>> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
>>
>> Javier Marcuzzi
>>
>> De: Carlos Ortega
>> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>> Para: Alva Valiente, Ricardo (RIAV)
>> CC: R-help-***@r-project.org
>>
>> No sé si va a ser suficiente....
>> Acabo de correr un ejemplo equivalente:
>>
>> # Example
>> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
>> "ave")
>> plot(hc)
>> plot(hc, hang = -1)
>>
>> sobre "Azure Machine Learning" y ...
>>
>>
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>> <***@cajatrujillo.com.pe> escribió:
>>> Bueno mi máquina es:
>>>
>>> HP
>>>
>>> Windows 7
>>>
>>> Procesador Core I5 de 2.5 GHz
>>>
>>> 4 GB de Ram (2.94 GB utilizables)
>>>
>>> Sistema operativo de 32 bits
>>>
>>> Versión de R, 3.2.0
>>>
>>>
>>>
>>>
>>>
>>> Atte.
>>>
>>> Ricardo Alva Valiente
>>>
>>> Analista de Control Preventivo
>>>
>>> Unidad de Prevención
>>>
>>> Of. Recuperaciones – CC Boulevard Chiclayo
>>>
>>> '(074) 232740
>>>
>>> RPC 978194441 RPM *157793
>>>
>>> ****@cajatrujillo.com.pe
>>>
>>> www.cajatrujillo.com.pe
>>>
>>>
>>>
>>>
>>>
>>> De: Carlos Ortega [mailto:***@qualityexcellence.es] Enviado el:
>>> miércoles, 29 de abril de 2015 10:39 AM
>>> Para: Alva Valiente, Ricardo (RIAV)
>>> CC: r-help-***@r-project.org
>>> Asunto: Re: [R-es] cantidad de datos
>>>
>>>
>>>
>>> Hola,
>>>
>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>>
>>> El problema puede aparecer en generar el objeto clúster y esto
>>> dependerá de la RAM que tengas disponible.
>>>
>>> Pásanos el detalle de la máquina que utilizarías y la versión de R
>>> que usas.
>>>
>>>
>>> He simulado tu conjunto y he tenido problemas a la hora de generar
>>> el clúster. Mi máquina es un MacBook, de 8Gb.
>>>
>>>
>>>
>>> Saludos,
>>>
>>> Carlos Ortega.
>>>
>>>
>>>
>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>>> <***@cajatrujillo.com.pe> escribió:
>>>
>>> Estimados dos consultas.
>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
>>> saber si el programa soporta sin ningún inconveniente análisis
>>> cluster y discriminantes, así como análisis uni variados y bi variados.
>>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>>> líneas de los casos, partan desde el X, porque cuando se genera se
>>> visualiza bien desordenado (unas líneas comienzan mas arriba que
>>> otras). También como hacer para que los nombres de los casos
>>> aparezcan en vertical y no en horizontal; y si es posible el gráfico también.
>>>
>>> Muchas gracias de antemano.
>>>
>>> Atte.
>>> Ricardo Alva Valiente
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de
>>> sus archivos adjuntos, es confidencial y está dirigida
>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>> correo por error, por favor avísenos inmediatamente por este medio y
>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>> reproducción, divulgación o distribución por otras personas
>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>> este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>> este correo por causas ajenas a su control, por lo que usted debe
>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-***@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>
>>>
>>>
>>> --
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> "Aviso Legal: La información de este correo electrónico, así como de
>>> sus archivos adjuntos, es confidencial y está dirigida
>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>> correo por error, por favor avísenos inmediatamente por este medio y
>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>> reproducción, divulgación o distribución por otras personas
>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>> este correo electrónico es propia del autor o remitente y no
>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>> este correo por causas ajenas a su control, por lo que usted debe
>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-***@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
Jose Luis Cañadas Reche
2015-04-29 17:50:56 UTC
Permalink
Podrías hacer varios kmedias con diferente número de clusters y
comprobar como varía la suma de cuadrados entre cluster para "elegir" el
número óptimo.

# Determine number of clusters
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")

El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:
> El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.
>
> Atte.
> Ricardo Alva Valiente
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-***@r-project.org] En nombre de ***@gmail.com
> Enviado el: miércoles, 29 de abril de 2015 12:16 PM
> Para: jose luis cañadas; R-help-***@r-project.org
> Asunto: Re: [R-es] cantidad de datos
>
> Estimados
>
>
> Justo se me ocurrió una búsqueda y el resultado es parecido.
>
> http://www.r-bloggers.com/k-means-clustering-on-big-data/
>
> Javier Marcuzzi
>
> De: jose luis cañadas
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
> Para: R-help-***@r-project.org
>
>
> Hola.
> Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'
>
> Details
>
> clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
> Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.
>
> Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.
> Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.
>
> The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.
>
> Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.
>
> Saludos
>
> El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
>> Hola, ¿qué tal?
>>
>> 291GB viene a ser
>>
>> 280 * 280 * 1e6 * 8 / 2^30 / 2
>>
>> que es el número de GB necesarios para almacenar la matriz de
>> distancias entre 280k sujetos.
>>
>> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>>
>> Un saludo,
>>
>> Carlos J. Gil Bellosta
>> http://www.datanalytics.com
>>
>>
>>
>>
>>
>> El día 29 de abril de 2015, 18:20, <***@gmail.com> escribió:
>>> Estimados
>>>
>>> Creo que se puede presentar un problema con el sistema operativo, al
>>> ser de
>>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
>>> todo seguro.
>>>
>>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos
>>> son complicados.
>>>
>>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows?
>>> Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
>>>
>>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
>>> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
>>> operativo de 64 bit, como también de poder comprar más memoria
>>> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
>>>
>>> Javier Marcuzzi
>>>
>>> De: Carlos Ortega
>>> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>>> Para: Alva Valiente, Ricardo (RIAV)
>>> CC: R-help-***@r-project.org
>>>
>>> No sé si va a ser suficiente....
>>> Acabo de correr un ejemplo equivalente:
>>>
>>> # Example
>>> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
>>> "ave")
>>> plot(hc)
>>> plot(hc, hang = -1)
>>>
>>> sobre "Azure Machine Learning" y ...
>>>
>>>
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>>> <***@cajatrujillo.com.pe> escribió:
>>>> Bueno mi máquina es:
>>>>
>>>> HP
>>>>
>>>> Windows 7
>>>>
>>>> Procesador Core I5 de 2.5 GHz
>>>>
>>>> 4 GB de Ram (2.94 GB utilizables)
>>>>
>>>> Sistema operativo de 32 bits
>>>>
>>>> Versión de R, 3.2.0
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> Atte.
>>>>
>>>> Ricardo Alva Valiente
>>>>
>>>> Analista de Control Preventivo
>>>>
>>>> Unidad de Prevención
>>>>
>>>> Of. Recuperaciones – CC Boulevard Chiclayo
>>>>
>>>> '(074) 232740
>>>>
>>>> RPC 978194441 RPM *157793
>>>>
>>>> ****@cajatrujillo.com.pe
>>>>
>>>> www.cajatrujillo.com.pe
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> De: Carlos Ortega [mailto:***@qualityexcellence.es] Enviado el:
>>>> miércoles, 29 de abril de 2015 10:39 AM
>>>> Para: Alva Valiente, Ricardo (RIAV)
>>>> CC: r-help-***@r-project.org
>>>> Asunto: Re: [R-es] cantidad de datos
>>>>
>>>>
>>>>
>>>> Hola,
>>>>
>>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>>>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>>>
>>>> El problema puede aparecer en generar el objeto clúster y esto
>>>> dependerá de la RAM que tengas disponible.
>>>>
>>>> Pásanos el detalle de la máquina que utilizarías y la versión de R
>>>> que usas.
>>>>
>>>>
>>>> He simulado tu conjunto y he tenido problemas a la hora de generar
>>>> el clúster. Mi máquina es un MacBook, de 8Gb.
>>>>
>>>>
>>>>
>>>> Saludos,
>>>>
>>>> Carlos Ortega.
>>>>
>>>>
>>>>
>>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>>>> <***@cajatrujillo.com.pe> escribió:
>>>>
>>>> Estimados dos consultas.
>>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
>>>> saber si el programa soporta sin ningún inconveniente análisis
>>>> cluster y discriminantes, así como análisis uni variados y bi variados.
>>>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>>>> líneas de los casos, partan desde el X, porque cuando se genera se
>>>> visualiza bien desordenado (unas líneas comienzan mas arriba que
>>>> otras). También como hacer para que los nombres de los casos
>>>> aparezcan en vertical y no en horizontal; y si es posible el gráfico también.
>>>>
>>>> Muchas gracias de antemano.
>>>>
>>>> Atte.
>>>> Ricardo Alva Valiente
>>>>
>>>> "Aviso Legal: La información de este correo electrónico, así como de
>>>> sus archivos adjuntos, es confidencial y está dirigida
>>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>>> correo por error, por favor avísenos inmediatamente por este medio y
>>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>>> reproducción, divulgación o distribución por otras personas
>>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>>> este correo electrónico es propia del autor o remitente y no
>>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>>> este correo por causas ajenas a su control, por lo que usted debe
>>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-***@r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>>
>>>>
>>>>
>>>> --
>>>>
>>>> Saludos,
>>>> Carlos Ortega
>>>> www.qualityexcellence.es
>>>>
>>>> "Aviso Legal: La información de este correo electrónico, así como de
>>>> sus archivos adjuntos, es confidencial y está dirigida
>>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>>> correo por error, por favor avísenos inmediatamente por este medio y
>>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>>> reproducción, divulgación o distribución por otras personas
>>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>>> este correo electrónico es propia del autor o remitente y no
>>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>>> este correo por causas ajenas a su control, por lo que usted debe
>>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>>
>>>
>>> --
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-***@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-***@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe"


[[alternative HTML version deleted]]
Alva Valiente, Ricardo (RIAV)
2015-04-29 17:56:08 UTC
Permalink
Buen aporte…excelente!!

Atte.
Ricardo Alva Valiente


De: Jose Luis Cañadas Reche [mailto:***@gmail.com]
Enviado el: miércoles, 29 de abril de 2015 12:51 PM
Para: Alva Valiente, Ricardo (RIAV); '***@gmail.com'; R-help-***@r-project.org
Asunto: Re: [R-es] cantidad de datos

Podrías hacer varios kmedias con diferente número de clusters y comprobar como varía la suma de cuadrados entre cluster para "elegir" el número óptimo.

# Determine number of clusters
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")
El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:

El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.



Atte.

Ricardo Alva Valiente



-----Mensaje original-----

De: R-help-es [mailto:r-help-es-***@r-project.org] En nombre de ***@gmail.com<mailto:***@gmail.com>

Enviado el: miércoles, 29 de abril de 2015 12:16 PM

Para: jose luis cañadas; R-help-***@r-project.org<mailto:R-help-***@r-project.org>

Asunto: Re: [R-es] cantidad de datos



Estimados





Justo se me ocurrió una búsqueda y el resultado es parecido.



http://www.r-bloggers.com/k-means-clustering-on-big-data/



Javier Marcuzzi



De: jose luis cañadas

Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.

Para: R-help-***@r-project.org<mailto:R-help-***@r-project.org>





Hola.

Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'



Details



clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).

Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.



Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.

Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.



The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.



Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.



Saludos



El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:

Hola, ¿qué tal?



291GB viene a ser



280 * 280 * 1e6 * 8 / 2^30 / 2



que es el número de GB necesarios para almacenar la matriz de

distancias entre 280k sujetos.



Hay que buscar una alternativa que no implique precalcular esa enormidad.



Un saludo,



Carlos J. Gil Bellosta

http://www.datanalytics.com











El día 29 de abril de 2015, 18:20, <***@gmail.com><mailto:***@gmail.com> escribió:

Estimados



Creo que se puede presentar un problema con el sistema operativo, al

ser de

32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del

todo seguro.



Los 292 GB que informa Carlos son una enormidad, esos requerimientos

son complicados.



¿Qué posibilidad hay de trabajar con memoria virtual en windows?

Aunque me parece que no sería optimo, prefiero intentar en Linux y R.



Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el

i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema

operativo de 64 bit, como también de poder comprar más memoria

(siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.



Javier Marcuzzi



De: Carlos Ortega

Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.

Para: Alva Valiente, Ricardo (RIAV)

CC: R-help-***@r-project.org<mailto:R-help-***@r-project.org>



No sé si va a ser suficiente....

Acabo de correr un ejemplo equivalente:



# Example

mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),

"ave")

plot(hc)

plot(hc, hang = -1)



sobre "Azure Machine Learning" y ...







Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es>



El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)

<***@cajatrujillo.com.pe><mailto:***@cajatrujillo.com.pe> escribió:

Bueno mi máquina es:



HP



Windows 7



Procesador Core I5 de 2.5 GHz



4 GB de Ram (2.94 GB utilizables)



Sistema operativo de 32 bits



Versión de R, 3.2.0











Atte.



Ricardo Alva Valiente



Analista de Control Preventivo



Unidad de Prevención



Of. Recuperaciones – CC Boulevard Chiclayo



'(074) 232740



RPC 978194441 RPM *157793



****@cajatrujillo.com.pe<mailto:****@cajatrujillo.com.pe>



www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe>











De: Carlos Ortega [mailto:***@qualityexcellence.es] Enviado el:

miércoles, 29 de abril de 2015 10:39 AM

Para: Alva Valiente, Ricardo (RIAV)

CC: r-help-***@r-project.org<mailto:r-help-***@r-project.org>

Asunto: Re: [R-es] cantidad de datos







Hola,



La matriz que vas a procesar será de alrededor de 45 Mb. No creo que

tengas problemas para cargar este conjunto de datos a tu entorno.



El problema puede aparecer en generar el objeto clúster y esto

dependerá de la RAM que tengas disponible.



Pásanos el detalle de la máquina que utilizarías y la versión de R

que usas.





He simulado tu conjunto y he tenido problemas a la hora de generar

el clúster. Mi máquina es un MacBook, de 8Gb.







Saludos,



Carlos Ortega.







El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)

<***@cajatrujillo.com.pe><mailto:***@cajatrujillo.com.pe> escribió:



Estimados dos consultas.

-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera

saber si el programa soporta sin ningún inconveniente análisis

cluster y discriminantes, así como análisis uni variados y bi variados.

-Cuando se grafica un dendograma como puedo hacer para que todas las

líneas de los casos, partan desde el X, porque cuando se genera se

visualiza bien desordenado (unas líneas comienzan mas arriba que

otras). También como hacer para que los nombres de los casos

aparezcan en vertical y no en horizontal; y si es posible el gráfico también.



Muchas gracias de antemano.



Atte.

Ricardo Alva Valiente



"Aviso Legal: La información de este correo electrónico, así como de

sus archivos adjuntos, es confidencial y está dirigida

exclusivamente a él o los destinatarios. Si Usted ha recibido este

correo por error, por favor avísenos inmediatamente por este medio y

elimínelo de su sistema. Se encuentra prohibido cualquier uso,

reproducción, divulgación o distribución por otras personas

distintas de él o los destinatarios. Cualquier opinión emitida en

este correo electrónico es propia del autor o remitente y no

representa necesariamente la opinión de la Caja Trujillo. A pesar de

esfuerzos razonables en el control de virus y programas maliciosos,

la Caja Trujillo no puede asegurar que éstos no se encuentren en

este correo por causas ajenas a su control, por lo que usted debe

analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org>

https://stat.ethz.ch/mailman/listinfo/r-help-es









--



Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es>



"Aviso Legal: La información de este correo electrónico, así como de

sus archivos adjuntos, es confidencial y está dirigida

exclusivamente a él o los destinatarios. Si Usted ha recibido este

correo por error, por favor avísenos inmediatamente por este medio y

elimínelo de su sistema. Se encuentra prohibido cualquier uso,

reproducción, divulgación o distribución por otras personas

distintas de él o los destinatarios. Cualquier opinión emitida en

este correo electrónico es propia del autor o remitente y no

representa necesariamente la opinión de la Caja Trujillo. A pesar de

esfuerzos razonables en el control de virus y programas maliciosos,

la Caja Trujillo no puede asegurar que éstos no se encuentren en

este correo por causas ajenas a su control, por lo que usted debe

analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "







--

Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es>



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org>

https://stat.ethz.ch/mailman/listinfo/r-help-es



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org>

https://stat.ethz.ch/mailman/listinfo/r-help-es



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org>

https://stat.ethz.ch/mailman/listinfo/r-help-es

[[alternative HTML version deleted]]



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org>

https://stat.ethz.ch/mailman/listinfo/r-help-es

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatru<http://www.cajatrujillo.com.pe>

jillo.com<http://www.cajatrujillo.com.pe>

.pe<http://www.cajatrujillo.com.pe> "

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "

[[alternative HTML version deleted]]
Carlos Ortega
2015-04-29 20:21:37 UTC
Permalink
Otra alternativa para determinar el númbero de clústers...

*NbClust: An R Package for Determining the Relevant Number of Clusters in a
Data Set*
http://www.jstatsoft.org/v61/i06

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de abril de 2015, 19:56, Alva Valiente, Ricardo (RIAV) <
***@cajatrujillo.com.pe> escribió:

> Buen aporte…excelente!!
>
> Atte.
> Ricardo Alva Valiente
>
>
> De: Jose Luis Cañadas Reche [mailto:***@gmail.com]
> Enviado el: miércoles, 29 de abril de 2015 12:51 PM
> Para: Alva Valiente, Ricardo (RIAV); '***@gmail.com';
> R-help-***@r-project.org
> Asunto: Re: [R-es] cantidad de datos
>
> Podrías hacer varios kmedias con diferente número de clusters y comprobar
> como varía la suma de cuadrados entre cluster para "elegir" el número
> óptimo.
>
> # Determine number of clusters
> wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
> for (i in 2:15) wss[i] <- sum(kmeans(mydata,
> centers=i)$withinss)
> plot(1:15, wss, type="b", xlab="Number of Clusters",
> ylab="Within groups sum of squares")
> El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:
>
> El inconveniente con un K-medias, es que se tiene que se tiene que pre
> definir el número de segmentos, pero eso es algo con lo q no cuento. La
> solución de Javier me parece q sería la única opción.
>
>
>
> Atte.
>
> Ricardo Alva Valiente
>
>
>
> -----Mensaje original-----
>
> De: R-help-es [mailto:r-help-es-***@r-project.org] En nombre de
> ***@gmail.com<mailto:***@gmail.com>
>
> Enviado el: miércoles, 29 de abril de 2015 12:16 PM
>
> Para: jose luis cañadas; R-help-***@r-project.org<mailto:
> R-help-***@r-project.org>
>
> Asunto: Re: [R-es] cantidad de datos
>
>
>
> Estimados
>
>
>
>
>
> Justo se me ocurrió una búsqueda y el resultado es parecido.
>
>
>
> http://www.r-bloggers.com/k-means-clustering-on-big-data/
>
>
>
> Javier Marcuzzi
>
>
>
> De: jose luis cañadas
>
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
>
> Para: R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
>
>
>
>
> Hola.
>
> Yo en vez de utilizar análisis cluster que impliquen distancias, probaría
> con un kmedias o con un pam (partition around medoids) pero utilizando
> muestras, la función clara de la librería cluster puede ayudarte. Pego el
> details de la ayuda de 'clara'
>
>
>
> Details
>
>
>
> clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
>
> Compared to other partitioning methods such as pam, it can deal with much
> larger datasets. Internally, this is achieved by considering sub-datasets
> of fixed size (sampsize) such that the time and storage requirements become
> linear in n rather than quadratic.
>
>
>
> Each sub-dataset is partitioned into k clusters using the same algorithm
> as in pam.
>
> Once k representative objects have been selected from the sub-dataset,
> each observation of the entire dataset is assigned to the nearest medoid.
>
>
>
> The mean (equivalent to the sum) of the dissimilarities of the
> observations to their closest medoid is used as a measure of the quality of
> the clustering. The sub-dataset for which the mean (or sum) is minimal, is
> retained. A further analysis is carried out on the final partition.
>
>
>
> Each sub-dataset is forced to contain the medoids obtained from the best
> sub-dataset until then. Randomly drawn observations are added to this set
> until sampsize has been reached.
>
>
>
> Saludos
>
>
>
> El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
>
> Hola, ¿qué tal?
>
>
>
> 291GB viene a ser
>
>
>
> 280 * 280 * 1e6 * 8 / 2^30 / 2
>
>
>
> que es el número de GB necesarios para almacenar la matriz de
>
> distancias entre 280k sujetos.
>
>
>
> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>
>
>
> Un saludo,
>
>
>
> Carlos J. Gil Bellosta
>
> http://www.datanalytics.com
>
>
>
>
>
>
>
>
>
>
>
> El día 29 de abril de 2015, 18:20, <***@gmail.com
> ><mailto:***@gmail.com> escribió:
>
> Estimados
>
>
>
> Creo que se puede presentar un problema con el sistema operativo, al
>
> ser de
>
> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
>
> todo seguro.
>
>
>
> Los 292 GB que informa Carlos son una enormidad, esos requerimientos
>
> son complicados.
>
>
>
> ¿Qué posibilidad hay de trabajar con memoria virtual en windows?
>
> Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
>
>
>
> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
>
> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
>
> operativo de 64 bit, como también de poder comprar más memoria
>
> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
>
>
>
> Javier Marcuzzi
>
>
>
> De: Carlos Ortega
>
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>
> Para: Alva Valiente, Ricardo (RIAV)
>
> CC: R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
>
>
> No sé si va a ser suficiente....
>
> Acabo de correr un ejemplo equivalente:
>
>
>
> # Example
>
> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
>
> "ave")
>
> plot(hc)
>
> plot(hc, hang = -1)
>
>
>
> sobre "Azure Machine Learning" y ...
>
>
>
>
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>
> <***@cajatrujillo.com.pe><mailto:***@cajatrujillo.com.pe> escribió:
>
> Bueno mi máquina es:
>
>
>
> HP
>
>
>
> Windows 7
>
>
>
> Procesador Core I5 de 2.5 GHz
>
>
>
> 4 GB de Ram (2.94 GB utilizables)
>
>
>
> Sistema operativo de 32 bits
>
>
>
> Versión de R, 3.2.0
>
>
>
>
>
>
>
>
>
>
>
> Atte.
>
>
>
> Ricardo Alva Valiente
>
>
>
> Analista de Control Preventivo
>
>
>
> Unidad de Prevención
>
>
>
> Of. Recuperaciones – CC Boulevard Chiclayo
>
>
>
> '(074) 232740
>
>
>
> RPC 978194441 RPM *157793
>
>
>
> ****@cajatrujillo.com.pe<mailto:****@cajatrujillo.com.pe>
>
>
>
> www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe>
>
>
>
>
>
>
>
>
>
>
>
> De: Carlos Ortega [mailto:***@qualityexcellence.es] Enviado el:
>
> miércoles, 29 de abril de 2015 10:39 AM
>
> Para: Alva Valiente, Ricardo (RIAV)
>
> CC: r-help-***@r-project.org<mailto:r-help-***@r-project.org>
>
> Asunto: Re: [R-es] cantidad de datos
>
>
>
>
>
>
>
> Hola,
>
>
>
> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>
> tengas problemas para cargar este conjunto de datos a tu entorno.
>
>
>
> El problema puede aparecer en generar el objeto clúster y esto
>
> dependerá de la RAM que tengas disponible.
>
>
>
> Pásanos el detalle de la máquina que utilizarías y la versión de R
>
> que usas.
>
>
>
>
>
> He simulado tu conjunto y he tenido problemas a la hora de generar
>
> el clúster. Mi máquina es un MacBook, de 8Gb.
>
>
>
>
>
>
>
> Saludos,
>
>
>
> Carlos Ortega.
>
>
>
>
>
>
>
> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>
> <***@cajatrujillo.com.pe><mailto:***@cajatrujillo.com.pe> escribió:
>
>
>
> Estimados dos consultas.
>
> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
>
> saber si el programa soporta sin ningún inconveniente análisis
>
> cluster y discriminantes, así como análisis uni variados y bi variados.
>
> -Cuando se grafica un dendograma como puedo hacer para que todas las
>
> líneas de los casos, partan desde el X, porque cuando se genera se
>
> visualiza bien desordenado (unas líneas comienzan mas arriba que
>
> otras). También como hacer para que los nombres de los casos
>
> aparezcan en vertical y no en horizontal; y si es posible el gráfico
> también.
>
>
>
> Muchas gracias de antemano.
>
>
>
> Atte.
>
> Ricardo Alva Valiente
>
>
>
> "Aviso Legal: La información de este correo electrónico, así como de
>
> sus archivos adjuntos, es confidencial y está dirigida
>
> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>
> correo por error, por favor avísenos inmediatamente por este medio y
>
> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>
> reproducción, divulgación o distribución por otras personas
>
> distintas de él o los destinatarios. Cualquier opinión emitida en
>
> este correo electrónico es propia del autor o remitente y no
>
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>
> esfuerzos razonables en el control de virus y programas maliciosos,
>
> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>
> este correo por causas ajenas a su control, por lo que usted debe
>
> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja
> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<
> http://www.cajatrujillo.com.pe> "
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
>
>
>
>
>
> --
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> "Aviso Legal: La información de este correo electrónico, así como de
>
> sus archivos adjuntos, es confidencial y está dirigida
>
> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>
> correo por error, por favor avísenos inmediatamente por este medio y
>
> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>
> reproducción, divulgación o distribución por otras personas
>
> distintas de él o los destinatarios. Cualquier opinión emitida en
>
> este correo electrónico es propia del autor o remitente y no
>
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>
> esfuerzos razonables en el control de virus y programas maliciosos,
>
> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>
> este correo por causas ajenas a su control, por lo que usted debe
>
> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja
> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<
> http://www.cajatrujillo.com.pe> "
>
>
>
>
>
>
>
> --
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> [[alternative HTML version deleted]]
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-***@r-project.org<mailto:R-help-***@r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatru<http://www.cajatrujillo.com.pe>
>
> jillo.com<http://www.cajatrujillo.com.pe>
>
> .pe<http://www.cajatrujillo.com.pe> "
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatrujillo.com.pe "
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-***@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]
Alva Valiente, Ricardo (RIAV)
2015-04-29 21:05:49 UTC
Permalink
Interesante artículo….

Atte.
Ricardo Alva Valiente


De: Carlos Ortega [mailto:***@qualityexcellence.es]
Enviado el: miércoles, 29 de abril de 2015 03:22 PM
Para: Alva Valiente, Ricardo (RIAV)
CC: Jose Luis Cañadas Reche; R-help-***@r-project.org
Asunto: Re: [R-es] cantidad de datos

Otra alternativa para determinar el númbero de clústers...

NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set
http://www.jstatsoft.org/v61/i06
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>

El 29 de abril de 2015, 19:56, Alva Valiente, Ricardo (RIAV) <***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>> escribió:
Buen aporte…excelente!!

Atte.
Ricardo Alva Valiente


De: Jose Luis Cañadas Reche [mailto:***@gmail.com<mailto:***@gmail.com>]
Enviado el: miércoles, 29 de abril de 2015 12:51 PM
Para: Alva Valiente, Ricardo (RIAV); '***@gmail.com<mailto:***@gmail.com>'; R-help-***@r-project.org<mailto:R-help-***@r-project.org>
Asunto: Re: [R-es] cantidad de datos

Podrías hacer varios kmedias con diferente número de clusters y comprobar como varía la suma de cuadrados entre cluster para "elegir" el número óptimo.

# Determine number of clusters
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")
El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:

El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.



Atte.

Ricardo Alva Valiente



-----Mensaje original-----

De: R-help-es [mailto:r-help-es-***@r-project.org<mailto:r-help-es-***@r-project.org>] En nombre de ***@gmail.com<mailto:***@gmail.com><mailto:***@gmail.com<mailto:***@gmail.com>>

Enviado el: miércoles, 29 de abril de 2015 12:16 PM

Para: jose luis cañadas; R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

Asunto: Re: [R-es] cantidad de datos



Estimados





Justo se me ocurrió una búsqueda y el resultado es parecido.



http://www.r-bloggers.com/k-means-clustering-on-big-data/



Javier Marcuzzi



De: jose luis cañadas

Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.

Para: R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>





Hola.

Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'



Details



clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).

Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.



Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.

Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.



The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.



Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.



Saludos



El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:

Hola, ¿qué tal?



291GB viene a ser



280 * 280 * 1e6 * 8 / 2^30 / 2



que es el número de GB necesarios para almacenar la matriz de

distancias entre 280k sujetos.



Hay que buscar una alternativa que no implique precalcular esa enormidad.



Un saludo,



Carlos J. Gil Bellosta

http://www.datanalytics.com











El día 29 de abril de 2015, 18:20, <***@gmail.com<mailto:***@gmail.com>><mailto:***@gmail.com<mailto:***@gmail.com>> escribió:

Estimados



Creo que se puede presentar un problema con el sistema operativo, al

ser de

32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del

todo seguro.



Los 292 GB que informa Carlos son una enormidad, esos requerimientos

son complicados.



¿Qué posibilidad hay de trabajar con memoria virtual en windows?

Aunque me parece que no sería optimo, prefiero intentar en Linux y R.



Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el

i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema

operativo de 64 bit, como también de poder comprar más memoria

(siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.



Javier Marcuzzi



De: Carlos Ortega

Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.

Para: Alva Valiente, Ricardo (RIAV)

CC: R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>



No sé si va a ser suficiente....

Acabo de correr un ejemplo equivalente:



# Example

mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),

"ave")

plot(hc)

plot(hc, hang = -1)



sobre "Azure Machine Learning" y ...







Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es><http://www.qualityexcellence.es>



El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)

<***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>><mailto:***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>> escribió:

Bueno mi máquina es:



HP



Windows 7



Procesador Core I5 de 2.5 GHz



4 GB de Ram (2.94 GB utilizables)



Sistema operativo de 32 bits



Versión de R, 3.2.0











Atte.



Ricardo Alva Valiente



Analista de Control Preventivo



Unidad de Prevención



Of. Recuperaciones – CC Boulevard Chiclayo



'(074) 232740



RPC 978194441 RPM *157793



****@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe><mailto:****@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>>



www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe><http://www.cajatrujillo.com.pe>











De: Carlos Ortega [mailto:***@qualityexcellence.es<mailto:***@qualityexcellence.es>] Enviado el:

miércoles, 29 de abril de 2015 10:39 AM

Para: Alva Valiente, Ricardo (RIAV)

CC: r-help-***@r-project.org<mailto:r-help-***@r-project.org><mailto:r-help-***@r-project.org<mailto:r-help-***@r-project.org>>

Asunto: Re: [R-es] cantidad de datos







Hola,



La matriz que vas a procesar será de alrededor de 45 Mb. No creo que

tengas problemas para cargar este conjunto de datos a tu entorno.



El problema puede aparecer en generar el objeto clúster y esto

dependerá de la RAM que tengas disponible.



Pásanos el detalle de la máquina que utilizarías y la versión de R

que usas.





He simulado tu conjunto y he tenido problemas a la hora de generar

el clúster. Mi máquina es un MacBook, de 8Gb.







Saludos,



Carlos Ortega.







El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)

<***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>><mailto:***@cajatrujillo.com.pe<mailto:***@cajatrujillo.com.pe>> escribió:



Estimados dos consultas.

-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera

saber si el programa soporta sin ningún inconveniente análisis

cluster y discriminantes, así como análisis uni variados y bi variados.

-Cuando se grafica un dendograma como puedo hacer para que todas las

líneas de los casos, partan desde el X, porque cuando se genera se

visualiza bien desordenado (unas líneas comienzan mas arriba que

otras). También como hacer para que los nombres de los casos

aparezcan en vertical y no en horizontal; y si es posible el gráfico también.



Muchas gracias de antemano.



Atte.

Ricardo Alva Valiente



"Aviso Legal: La información de este correo electrónico, así como de

sus archivos adjuntos, es confidencial y está dirigida

exclusivamente a él o los destinatarios. Si Usted ha recibido este

correo por error, por favor avísenos inmediatamente por este medio y

elimínelo de su sistema. Se encuentra prohibido cualquier uso,

reproducción, divulgación o distribución por otras personas

distintas de él o los destinatarios. Cualquier opinión emitida en

este correo electrónico es propia del autor o remitente y no

representa necesariamente la opinión de la Caja Trujillo. A pesar de

esfuerzos razonables en el control de virus y programas maliciosos,

la Caja Trujillo no puede asegurar que éstos no se encuentren en

este correo por causas ajenas a su control, por lo que usted debe

analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe><http://www.cajatrujillo.com.pe> "



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

https://stat.ethz.ch/mailman/listinfo/r-help-es









--



Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es><http://www.qualityexcellence.es>



"Aviso Legal: La información de este correo electrónico, así como de

sus archivos adjuntos, es confidencial y está dirigida

exclusivamente a él o los destinatarios. Si Usted ha recibido este

correo por error, por favor avísenos inmediatamente por este medio y

elimínelo de su sistema. Se encuentra prohibido cualquier uso,

reproducción, divulgación o distribución por otras personas

distintas de él o los destinatarios. Cualquier opinión emitida en

este correo electrónico es propia del autor o remitente y no

representa necesariamente la opinión de la Caja Trujillo. A pesar de

esfuerzos razonables en el control de virus y programas maliciosos,

la Caja Trujillo no puede asegurar que éstos no se encuentren en

este correo por causas ajenas a su control, por lo que usted debe

analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe><http://www.cajatrujillo.com.pe> "







--

Saludos,

Carlos Ortega

www.qualityexcellence.es<http://www.qualityexcellence.es><http://www.qualityexcellence.es>



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

https://stat.ethz.ch/mailman/listinfo/r-help-es



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

https://stat.ethz.ch/mailman/listinfo/r-help-es



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

https://stat.ethz.ch/mailman/listinfo/r-help-es

[[alternative HTML version deleted]]



_______________________________________________

R-help-es mailing list

R-help-***@r-project.org<mailto:R-help-***@r-project.org><mailto:R-help-***@r-project.org<mailto:R-help-***@r-project.org>>

https://stat.ethz.ch/mailman/listinfo/r-help-es

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatru<http://www.cajatrujillo.com.pe>

jillo.com<http://jillo.com><http://www.cajatrujillo.com.pe>

.pe<http://www.cajatrujillo.com.pe> "

"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "

[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-***@r-project.org<mailto:R-help-***@r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "

[[alternative HTML version deleted]]
Continue reading on narkive:
Loading...