Исследования в мат. пакетах - страница 2

 
Alexey Burnakov:
Завтра выложу пару полезных кодов на эту тему.
# hypothesis testing

# two-sample mean comparison

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

# two-sample median comparison

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
            conf.int = FALSE, conf.level = 0.95, ...)

# two distribution comparison

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL)

# normality test

shapiro.test(x)


# independence / goodness of fit / homogeneity tests for categorical variables
chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

# covariance / correlation

var(x, y = NULL, na.rm = FALSE, use)

cov(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))

# ordinary linear regression
lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)   =) that easy
 
Alexey Burnakov:

# selecting a random subset of rows from an array to perform Shapiro–Wilk test

shapiro.test(x = lateral_residuals$`lateral_linear_model$residuals`[sample(x = nrow(lateral_residuals), size = 4999, replace = F)])
 
Alexey Burnakov:

# generate pseudo random numbers (or probabilities) for normal

dnorm(x, mean = 0, sd = 1, log = FALSE)
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
rnorm(n, mean = 0, sd = 1)


# for uniform

dunif(x, min = 0, max = 1, log = FALSE)
punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
runif(n, min = 0, max = 1)
 
Alexey Burnakov:
# perform ANOVA on one or more trained models

anova(object, ...)   that easy =)
 
Alexey Burnakov:
#create histograms with error bars (on first 10 000 rows)

for(i in 1:8){
        
        subdat <- head(pre_an_int_eff, 10000)
        
        dodge <- position_dodge(width = 0.9)
        p <- ggplot(subdat, aes(fill = subdat$'sample_description', y = subdat$'mean', x = subdat$'sample_description')) + 
                geom_bar(position = "dodge", stat = "identity") + 
                geom_bar(position = dodge) + geom_errorbar(aes(ymin = subdat[, 9], ymax = subdat[, 10]), position = dodge, width = 0.25) +
                theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) + 
                theme(legend.position = 'none')
        
        print(p)
        
}
That is all, folks!
 
Alexey Volchanskiy:

Кстати, если есть люди, разбирающиеся в R, вопрос начинающего. Я вижу, что есть несколько дистрибутивов R, R-server, какой-то "A web application framework for R" http://shiny.rstudio.com/ , монструозные пакеты от Microsoft... Что выбрать-то?

R-studio за глаза хватит - это просто улучшенный интерфейс над языком (любые пакеты самого R и плюшки от разработчика). Shiny - это такой же R-пакет для создания контролов, форм ввода, всяких демонстрашек в вебе.
От MS не пользовался, сказать не могу.
 

Мужики!

Если есть малейшие предпосылки - опыт программирования на любом языке и некоторые знания в статистике, то  только R, и только R.

Матлаб вообще нельзя сравнивать - это пакет из другой оперы, да еще платный за бешенные бабки.

Конкурентами для R являются SAS  и SPSS, но это платные пакеты и R их начинает обгонять. Лет 5 Матлаб еще сравнивали с R, а последних обзорах уже не вижу - ушел в небытие.

На сегодняший день R является является стандартом для статистики, имеется огромное количество публикаций и вообще мощнейшая движуха.

Например, очень полезный блог, публикация каждый день, можно подписаться на новости: http://www.r-bloggers.com/ 

Здесь куча книг за очень умеренные деньги: http://www.twirpx.com/search/?query=R. Забил в поиске R. Ищет хорошо по ключевым словам. 

Не будем забывать, что R как алгоритмический язык программирования, вошел в первую десятку языков и стоит рядом с разновидностями С.

Для использования надо брать обычный  R с RStudio. Кроме этого не будем забывать, что платный вариант R купила майкрософт и начинает продвигать этот свой вариант - следим за развитием событий. 

R-bloggers
R-bloggers
  • xi'an
  • www.r-bloggers.com
In econometric modeling, I usually have a problem with correlated features. A few weeks ago, I was discussing feature selection when features are correlated. This week, I was wondering about... Clustering French Cities (based on Temperatures) In order to illustrate hierarchical clustering techniques and k-means, I did borrow François Husson‘s...
 
СанСаныч Фоменко:

Мужики!

Если есть малейшие предпосылки - опыт программирования на любом языке и некоторые знания в статистике, то  только R, и только R.

Матлаб вообще нельзя сравнивать - это пакет из другой оперы, да еще платный за бешенные бабки.

Конкурентами для R являются SAS  и SPSS, но это платные пакеты и R их начинает обгонять. Лет 5 Матлаб еще сравнивали с R, а последних обзорах уже не вижу - ушел в небытие.

На сегодняший день R является является стандартом для статистики, имеется огромное количество публикаций и вообще мощнейшая движуха.

Например, очень полезный блог, публикация каждый день, можно подписаться на новости: http://www.r-bloggers.com/&nbsp;

Здесь куча книг за очень умеренные деньги: http://www.twirpx.com/search/?query=R. Забил в поиске R. Ищет хорошо по ключевым словам. 

Не будем забывать, что R как алгоритмический язык программирования, вошел в первую десятку языков и стоит рядом с разновидностями С.

Для использования надо брать обычный  R с RStudio. Кроме этого не будем забывать, что платный вариант R купила майкрософт и начинает продвигать этот свой вариант - следим за развитием событий. 

Отлично, я первый день потихоньку изучаю R, ответьте на вопросы плз, хочется сравнить возможности R и Matlab. Только без холиваров, взвешенно и спокойно :).

  1. Является ли  R языком с возможностями ООП?
  2. Могу ли я на R сделать 32-битовую и 64-битовую dll для непосредственого использования из MQL4/5? Если да, какого размера пакет надо устанавливать для использования таких dll на компьютере пользователя?
  3. Могу ли я подключить распространенные БД для прямого доступа из R?
  4. Есть ли в R аналог Simulink?
  5. Почему во всех обзорах делается упор на то, что R - программа для статистики? Меня интересует DSP, есть ли в R пакеты для цифровой обработки сигналов?
  6. Есть ли в R встроенный компактный формат для хранения данных, подобный .mat файлам в Матлабе?

 
Alexey Volchanskiy:

Отлично, я первый день потихоньку изучаю R, ответьте на вопросы плз, хочется сравнить возможности R и Matlab. Только без холиваров, взвешенно и спокойно :).


  1. Могу ли я подключить распространенные БД для прямого доступа из R?

  2. Почему во всех обзорах делается упор на то, что R - программа для статистики? Меня интересует DSP, есть ли в R пакеты для цифровой обработки сигналов?

Да и да. Мой коллега цепляется к MS SQL.

 

Сигналы: https://cran.r-project.org/web/packages/signal/index.html 

 Наверное, есть и другие похожие пакеты.

 

R вырос из S. Он изначально затачивался под статистическую обработку данных. Наверное, какие-то возможности полноценных языков в нем могут отсутствовать, но делать стат.исследования в нем удобно. И есть множество (тысячи) опенсорсных пакетов для обработки и анализа данных.

Сейчас реализованы даже последние веяния машинного обучения - deep learning и нашумевший xGBoost

 
Alexey Burnakov:

Да и да. Мой коллега цепляется к MS SQL.

 

Сигналы: https://cran.r-project.org/web/packages/signal/index.html&nbsp;

 Наверное, есть и другие похожие пакеты.

 

R вырос из S. Он изначально затачивался под статистическую обработку данных. Наверное, какие-то возможности полноценных языков в нем могут отсутствовать, но делать стат.исследования в нем удобно. И есть множество (тысячи) опенсорсных пакетов для обработки и анализа данных.

Сейчас реализованы даже последние веяния машинного обучения - deep learning и нашумевший xGBoost. 

Надо попробовать перевести на R какую-нибудь из моих программ на Матлабе, сравнить скорость. Если на выходные успею разобраться, сделаю и отпишусь. Матлаб довольно тормознутый, я многие вещи делаю на C# или С++ и подключаю в виде DLL для скорости.
Причина обращения: