Recherche dans les paquets matriciels - page 2

 
Alexey Burnakov:
Je publierai demain quelques codes utiles sur le sujet.
#  hypothesis testing

#  two-sample mean comparison

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

#  two-sample median comparison

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
            conf.int = FALSE, conf.level = 0.95, ...)

#  two distribution comparison

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL)

#  normality test

shapiro.test(x)


# independence / goodness of fit / homogeneity tests for categorical variables
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

#  covariance / correlation

var(x, y = NULL, na.rm = FALSE, use)

cov(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

# ordinary linear regression
lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)   =) that easy
 
Alexey Burnakov:

#  selecting a random subset of rows from an array to perform Shapiro–Wilk test

shapiro.test(x = lateral_residuals$`lateral_linear_model$residuals`[sample(x = nrow(lateral_residuals), size = 4999, replace = F)])
 
Alexey Burnakov:

#  generate pseudo random numbers (or probabilities) for normal

dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)


# for uniform

dunif(x, min = 0, max = 1, log = FALSE)
punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
runif(n, min = 0, max = 1)
 
Alexey Burnakov:
#  perform ANOVA on one or more trained models

anova(object, ...)   that easy =)
 
Alexey Burnakov:
#create histograms with error bars (on first 10 000 rows)

for(i in 1:8){
        
        subdat <- head(pre_an_int_eff, 10000)
        
        dodge <- position_dodge(width = 0.9)
        p <- ggplot(subdat, aes(fill = subdat$'sample_description', y = subdat$'mean', x = subdat$'sample_description')) + 
                geom_bar(position = "dodge", stat = "identity") + 
                geom_bar(position = dodge) + geom_errorbar(aes(ymin = subdat[, 9], ymax = subdat[, 10]), position = dodge, width = 0.25) +
                theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) + 
                theme(legend.position = 'none')
        
        print(p)
        
}
That is all, folks!
 
Alexey Volchanskiy:

Au fait, s'il y a des gens qui connaissent R, une question de débutant. Je vois qu'il existe plusieurs distributions R, R-server, un certain "A web application framework for R" http://shiny.rstudio.com/ , des paquets monstres de Microsoft... Que choisir ?

R-studio est suffisamment bon - il s'agit simplement d'une interface améliorée par rapport au langage (tous les paquets R et les add-ons du développeur). Shiny est le même paquet R pour créer des contrôles, des formulaires de saisie, toutes sortes de démos web.
Je ne l'ai pas utilisé depuis MS, je ne peux pas me prononcer.
 

Les hommes !

Si vous avez le moindre prérequis - expérience de la programmation dans n'importe quel langage et quelques connaissances en statistiques, alors R, et seulement R.

Matlab ne peut pas être comparé du tout - il s'agit d'un paquet différent, et d'un paquet payant pour beaucoup d'argent.

Les concurrents de R sont SAS et SPSS, mais ce sont des logiciels payants et R commence à les dépasser. Pendant 5 ans, Matlab a encore été comparé à R, mais je ne le vois plus dans les dernières critiques - il est tombé dans l'oubli.

Aujourd'hui, R est la norme pour les statistiques, il y a un nombre énorme de publications et en général un mouvement très puissant.

Par exemple, un blog très utile, publié tous les jours, vous pouvez vous abonner aux nouvelles : http://www.r-bloggers.com/.

Voici une série de livres pour un prix très raisonnable : http://www.twirpx.com/search/?query=R. J'ai tapé une recherche pour R. Il effectue de bonnes recherches sur les mots clés.

N'oublions pas que R, en tant que langage de programmation algorithmique, fait partie des dix premiers langages et se classe à côté des variantes du C.

Pour l'utiliser, vous devez prendre R habituel avec RStudio. Par ailleurs, n'oublions pas que la variante payante de R a été rachetée par Microsoft et commence à promouvoir sa variante - suivez les développements.

R-bloggers
R-bloggers
  • xi'an
  • www.r-bloggers.com
In econometric modeling, I usually have a problem with correlated features. A few weeks ago, I was discussing feature selection when features are correlated. This week, I was wondering about... Clustering French Cities (based on Temperatures) In order to illustrate hierarchical clustering techniques and k-means, I did borrow François Husson‘s...
 
СанСаныч Фоменко:

Les hommes !

Si vous avez le moindre prérequis - expérience de la programmation dans n'importe quel langage et quelques connaissances en statistiques, alors R, et seulement R.

Matlab ne peut pas du tout être comparé - il s'agit d'un logiciel différent, et d'un logiciel payant qui coûte très cher.

Les concurrents de R sont SAS et SPSS, mais ce sont des logiciels payants et R commence à les dépasser. Pendant 5 ans, Matlab a encore été comparé à R, mais je ne le vois plus dans les dernières critiques - il est tombé dans l'oubli.

Aujourd'hui, R est la norme pour les statistiques, il y a un nombre énorme de publications et en général un mouvement très puissant.

Par exemple, un blog très utile, publié tous les jours, vous pouvez vous abonner aux nouvelles : http://www.r-bloggers.com/.

Voici une série de livres pour un prix très raisonnable : http://www.twirpx.com/search/?query=R. J'ai tapé une recherche pour R. Il effectue de bonnes recherches sur les mots clés.

N'oublions pas que R, en tant que langage de programmation algorithmique, fait partie des dix premiers langages et se classe juste à côté des variantes du C.

Pour l'utiliser, vous devez prendre R habituel avec RStudio. En outre, n'oublions pas que la variante payante R a été rachetée par Microsoft et qu'elle commence à en faire la promotion.

Eh bien, c'est le premier jour que j'apprends lentement R, répondez à mes questions, je veux comparer les caractéristiques de R et Matlab. Mais sans faire de bruit, de manière équilibrée et calme :).

  1. R est-il un langage avec des capacités de POO ?
  2. Puis-je créer dans R une dll 32 bits et 64 bits pour une utilisation directe depuis MQL4/5 ? Si oui, quelle taille de paquet dois-je installer pour utiliser une telle dll sur l'ordinateur d'un utilisateur ?
  3. Puis-je connecter des dlls communes pour un accès direct depuis R ?
  4. Existe-t-il un analogue de Simulink en R ?
  5. Pourquoi toutes les critiques insistent-elles sur le fait que R est un programme de statistiques ? Je suis intéressé par le DSP, est-ce que R a des paquets pour le traitement du signal numérique ?
  6. Existe-t-il un format de stockage de données compact intégré à R, similaire aux fichiers .mat de Matlab ?

 
Alexey Volchanskiy:

Super, c'est mon premier jour d'apprentissage de R, répondez à mes questions s'il vous plaît, je veux comparer les possibilités de R et Matlab. Mais sans bavardage, de manière équilibrée et calme :).


  1. Puis-je connecter des bases de données communes pour un accès direct depuis R ?

  2. Pourquoi toutes les critiques insistent-elles sur le fait que R est un programme de statistiques ? Je suis intéressé par le DSP, est-ce que R a des paquets pour le traitement du signal numérique ?

Oui et oui. Mon collègue s'accroche à MS SQL.

Signaux : https://cran.r-project.org/web/packages/signal/index.html

Il existe probablement d'autres paquets similaires.

R a grandi à partir de S. Il a été développé à l'origine pour le traitement des données statistiques. Il est probable que certaines caractéristiques des langages à part entière lui manquent, mais il est pratique d'y effectuer des recherches statistiques. Et il existe de nombreux (milliers) logiciels libres pour le traitement et l'analyse des données.

Même les dernières tendances en matière d'apprentissage automatique - l'apprentissage profond et le sensationnel xGBoost- sont désormais mises en œuvre.

 
Alexey Burnakov:

Oui et oui. Un de mes collègues s'accroche à MS SQL.

Signaux : https://cran.r-project.org/web/packages/signal/index.html

Il existe probablement d'autres paquets similaires.

R a grandi à partir de S. Il a été développé à l'origine pour le traitement des données statistiques. Il est probable que certaines caractéristiques des langages à part entière lui fassent défaut, mais il est pratique d'y effectuer des recherches statistiques. Et il existe de nombreux (milliers) logiciels libres pour le traitement et l'analyse des données.

Même les dernières tendances en matière d'apprentissage automatique - l'apprentissage profond et le sensationnel xGBoost - sont désormais mises en œuvre.

Je devrais essayer de traduire certains de mes programmes en R dans Matlab, pour comparer la vitesse. Si j'arrive à trouver une solution d'ici le week-end, je le ferai et je ferai un rapport. Matlab est assez lent, je fais beaucoup de choses en C# ou C++ et je les intègre dans une DLL pour plus de rapidité.