Investigación en paquetes matriciales - página 2

 
Alexey Burnakov:
Mañana publicaré un par de códigos útiles sobre el tema.
#  hypothesis testing

#  two-sample mean comparison

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

#  two-sample median comparison

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
            conf.int = FALSE, conf.level = 0.95, ...)

#  two distribution comparison

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL)

#  normality test

shapiro.test(x)


# independence / goodness of fit / homogeneity tests for categorical variables
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

#  covariance / correlation

var(x, y = NULL, na.rm = FALSE, use)

cov(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

# ordinary linear regression
lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)   =) that easy
 
Alexey Burnakov:

#  selecting a random subset of rows from an array to perform Shapiro–Wilk test

shapiro.test(x = lateral_residuals$`lateral_linear_model$residuals`[sample(x = nrow(lateral_residuals), size = 4999, replace = F)])
 
Alexey Burnakov:

#  generate pseudo random numbers (or probabilities) for normal

dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)


# for uniform

dunif(x, min = 0, max = 1, log = FALSE)
punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
runif(n, min = 0, max = 1)
 
Alexey Burnakov:
#  perform ANOVA on one or more trained models

anova(object, ...)   that easy =)
 
Alexey Burnakov:
#create histograms with error bars (on first 10 000 rows)

for(i in 1:8){
        
        subdat <- head(pre_an_int_eff, 10000)
        
        dodge <- position_dodge(width = 0.9)
        p <- ggplot(subdat, aes(fill = subdat$'sample_description', y = subdat$'mean', x = subdat$'sample_description')) + 
                geom_bar(position = "dodge", stat = "identity") + 
                geom_bar(position = dodge) + geom_errorbar(aes(ymin = subdat[, 9], ymax = subdat[, 10]), position = dodge, width = 0.25) +
                theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) + 
                theme(legend.position = 'none')
        
        print(p)
        
}
That is all, folks!
 
Alexey Volchanskiy:

Por cierto, si hay alguien que sepa de R, una pregunta de principiante. Veo que hay varias distribuciones de R, R-server, algún "A web application framework for R" http://shiny.rstudio.com/ , paquetes monstruosos de Microsoft... ¿Qué elegir?

R-studio es lo suficientemente bueno - es simplemente una interfaz mejorada sobre el lenguaje (cualquier paquete de R y complementos del desarrollador). Shiny es el mismo paquete de R para crear controles, formularios de entrada, todo tipo de demos web.
No lo he usado de MS, no puedo decirlo.
 

¡Hombres!

Si tienes el más mínimo prerrequisito - experiencia en programación en cualquier lenguaje y algunos conocimientos de estadística, entonces sólo R, y sólo R.

Matlab no se puede comparar en absoluto: es un paquete diferente, y de pago, por mucho dinero.

Los competidores de R son SAS y SPSS, pero son paquetes de pago y R está empezando a superarlos. Durante 5 años se seguía comparando Matlab con R, pero ya no lo veo en las últimas revisiones, ha pasado al olvido.

Hoy en día R es el estándar de la estadística, hay un gran número de publicaciones y en general un movimiento muy potente.

Por ejemplo, un blog muy útil, que se publica todos los días, al que puedes suscribirte para recibir noticias: http://www.r-bloggers.com/

Aquí hay un montón de libros por un precio muy razonable: http://www.twirpx.com/search/?query=R. Escriba una búsqueda de R. Busca bien las palabras clave.

No olvidemos que R, como lenguaje de programación algorítmica, es uno de los diez primeros lenguajes y se sitúa junto a las variantes de C.

Para utilizarlo, debe tomar R habitual con RStudio. Además, no olvidemos que la variante de pago de R fue comprada por Microsoft y empieza a promocionar su variante -sigue las novedades.

R-bloggers
R-bloggers
  • xi'an
  • www.r-bloggers.com
In econometric modeling, I usually have a problem with correlated features. A few weeks ago, I was discussing feature selection when features are correlated. This week, I was wondering about... Clustering French Cities (based on Temperatures) In order to illustrate hierarchical clustering techniques and k-means, I did borrow François Husson‘s...
 
СанСаныч Фоменко:

¡Hombres!

Si tiene el más mínimo prerrequisito - experiencia en programación en cualquier lenguaje y algunos conocimientos de estadística, entonces sólo R, y sólo R.

Matlab no se puede comparar en absoluto: es un paquete diferente, y de pago, por mucho dinero.

Los competidores de R son SAS y SPSS, pero son paquetes de pago y R está empezando a superarlos. Durante 5 años se seguía comparando Matlab con R, pero ya no lo veo en las últimas reseñas, ha pasado al olvido.

Hoy en día R es el estándar de la estadística, hay un gran número de publicaciones y en general un movimiento muy potente.

Por ejemplo, un blog muy útil, que se publica todos los días, al que puedes suscribirte para recibir noticias: http://www.r-bloggers.com/

Aquí hay un montón de libros por un precio muy razonable: http://www.twirpx.com/search/?query=R. Escriba una búsqueda de R. Busca bien las palabras clave.

No olvidemos que R, como lenguaje de programación algorítmica, es uno de los diez primeros lenguajes y se sitúa junto a las variantes de C.

Para utilizarlo, debe tomar R habitual con RStudio. Además no olvidemos que la variante R de pago fue comprada por Microsoft y está empezando a promocionarla.

Bueno, es el primer día que estoy aprendiendo poco a poco R, responde a mis preguntas, quiero comparar las características de R y Matlab. Pero sin algarabía, de forma equilibrada y tranquila :).

  1. ¿Es R un lenguaje con capacidades OOP?
  2. ¿Puedo crear en R una dll de 32 y 64 bits para usarla directamente desde MQL4/5? Si es así, ¿qué tamaño de paquete debo instalar para utilizar dicha dll en el ordenador de un usuario?
  3. ¿Puedo conectar dlls comunes para acceder directamente desde R?
  4. ¿Existe un análogo de Simulink en R?
  5. ¿Por qué todas las reseñas hacen hincapié en que R es un programa de estadística? Estoy interesado en DSP, ¿tiene R paquetes para el procesamiento de señales digitales?
  6. ¿Existe un formato de almacenamiento de datos compacto incorporado en R, similar a los archivos .mat de Matlab?

 
Alexey Volchanskiy:

Genial, es mi primer día de aprendizaje de R, contesta mis preguntas por favor, quiero comparar posibilidades de R y Matlab. Sólo que sin parloteo, de forma equilibrada y tranquila :).


  1. ¿Puedo conectar bases de datos comunes para acceder directamente desde R?

  2. ¿Por qué en todas las reseñas se insiste en que R es un programa estadístico? Estoy interesado en DSP, ¿tiene R paquetes para el procesamiento de señales digitales?

Sí y sí. Mi colega se aferra a MS SQL.

Señales: https://cran.r-project.org/web/packages/signal/index.html

Probablemente también haya otros paquetes similares.

R creció a partir de S. Se desarrolló originalmente para el procesamiento de datos estadísticos. Probablemente, algunas características de los lenguajes completos pueden faltar en él, pero es conveniente hacer la investigación estadística en él. Y hay muchos (miles) paquetes de código abierto para el procesamiento y el análisis de datos.

Incluso las últimas tendencias en aprendizaje automático -el aprendizaje profundo y el sensacional xGBoost- ya se han implementado.

 
Alexey Burnakov:

Sí y sí. Un colega mío se aferra a MS SQL.

Señales: https://cran.r-project.org/web/packages/signal/index.html

Probablemente también haya otros paquetes similares.

R creció a partir de S. Se desarrolló originalmente para el procesamiento de datos estadísticos. Probablemente, algunas características de los lenguajes completos pueden faltar en él, pero es conveniente hacer investigación estadística en él. Y hay muchos (miles) paquetes de código abierto para el procesamiento y el análisis de datos.

Incluso las últimas tendencias en aprendizaje automático -el aprendizaje profundo y el sensacional xGBoost- ya se han implementado.

Debería intentar traducir algunos de mis programas a R en Matlab, para comparar la velocidad. Si consigo resolverlo para el fin de semana, lo haré e informaré. Matlab es bastante lento, hago muchas cosas en C# o C++ y lo conecto como DLL para ganar velocidad.
Razón de la queja: