Машинное обучение и нейронные сети - страница 49

 

«Крестный отец ИИ» обсуждает опасности, которые развивающиеся технологии представляют для общества


«Крестный отец ИИ» обсуждает опасности, которые развивающиеся технологии представляют для общества

Доктор Джеффри Хинтон, ведущий специалист в области искусственного интеллекта, высказывает серьезные опасения по поводу потенциальных рисков, связанных со сверхразумными системами искусственного интеллекта. Он выражает опасение по поводу того, что эти системы могут получить контроль над людьми и манипулировать ими в своих собственных целях. Проводя различие между человеческим и машинным интеллектом, Хинтон подчеркивает опасности, связанные с предоставлением ИИ возможности создавать подцели, что может привести к стремлению к увеличению власти и контроля над человечеством.

Несмотря на эти риски, Хинтон признает многочисленные положительные применения ИИ, особенно в области медицины, где он обладает огромным потенциалом для развития. Он подчеркивает, что, хотя осторожность и оправдана, важно не останавливать процесс разработки ИИ полностью.

Хинтон также рассматривает роль создателей технологий и потенциальные последствия их работы для общества. Он указывает, что организации, участвующие в разработке ИИ, в том числе оборонные ведомства, могут отдавать приоритет целям, отличным от благотворительности. Это вызывает обеспокоенность по поводу намерений и мотивов использования технологии ИИ. Хинтон предполагает, что, хотя ИИ может принести обществу значительную пользу, быстрые темпы технического прогресса часто опережают способность правительств и законодательства эффективно регулировать его использование.

Чтобы устранить риски, связанные с ИИ, Хинтон выступает за расширение сотрудничества между творческими учеными в международном масштабе. Работая вместе, эти эксперты могут разрабатывать более мощные системы искусственного интеллекта, одновременно изучая способы обеспечения контроля и предотвращения потенциального вреда. Хинтон считает, что благодаря этим совместным усилиям общество сможет найти баланс между использованием потенциальных преимуществ ИИ и защитой от его потенциальных рисков.

  • 00:00:00 В этом разделе д-р Джеффри Хинтон обсуждает свои опасения по поводу рисков, связанных с тем, что сверхинтеллектуальный ИИ перенимает контроль над людьми и манипулирует людьми в своих собственных целях. Он объясняет различия между человеческим и машинным интеллектом и потенциальные опасности предоставления ИИ возможности создавать подцели, что может привести к тому, что он будет стремиться к большей власти и контролю над людьми. Несмотря на эти риски, Хинтон признает множество положительных применений ИИ, таких как развитие медицины, и подчеркивает, что развитие в этой области не следует полностью останавливать.

  • 00:05:00 В этом разделе доктор Стюарт Рассел признает, что сочетание технологий и людей, их создающих, может создать потенциальную опасность для общества. Он указывает, что министерства обороны входят в число организаций, разрабатывающих ИИ, и поэтому «быть добрым к людям» не обязательно является их главным приоритетом. Хотя ИИ может принести огромную пользу обществу, правительства и законодательство не в состоянии идти в ногу со скоростью, с которой развиваются технологии. Чтобы снизить риски, связанные с ИИ, доктор Рассел поощряет сотрудничество более творческих ученых в международном масштабе для разработки более мощного ИИ и поиска способов держать его под контролем.
 

Возможный конец человечества из-за ИИ? Джеффри Хинтон из MIT Technology Review EmTech Digital


Возможный конец человечества из-за ИИ? Джеффри Хинтон из MIT Technology Review EmTech Digital

Джеффри Хинтон, видный деятель в области искусственного интеллекта и глубокого обучения, размышляет о своей работе в Google и о том, как со временем менялись его взгляды на взаимосвязь между мозгом и цифровым интеллектом. Первоначально Хинтон считал, что компьютерные модели предназначены для изучения мозга, но теперь он признает, что они работают по-другому. Он подчеркивает важность своего новаторского вклада, обратного распространения, который служит основой для большей части сегодняшнего глубокого обучения. Хинтон предлагает упрощенное объяснение того, как обратное распространение позволяет нейронным сетям обнаруживать такие объекты, как птицы, на изображениях.

Двигаясь вперед, Хинтон восхищается успехом больших языковых моделей, основанных на таких методах, как обратное распространение ошибки, и преобразующим влиянием, которое они оказали на обнаружение изображений. Однако его внимание сосредоточено на их потенциале революционизировать обработку естественного языка. Эти модели превзошли его ожидания и коренным образом изменили его понимание машинного обучения.

Что касается возможностей обучения ИИ, Хинтон объясняет, что цифровые компьютеры и ИИ обладают преимуществами по сравнению с людьми благодаря их способности использовать алгоритмы обучения с обратным распространением. Компьютеры могут эффективно кодировать огромные объемы информации в компактную сеть, что позволяет лучше учиться. В качестве примера он приводит GPT4, так как он уже демонстрирует простое мышление и обладает обширными знаниями здравого смысла. Хинтон подчеркивает масштабируемость цифровых компьютеров, позволяющую нескольким копиям одной и той же модели работать на разном оборудовании и учиться друг у друга. Эта способность обрабатывать большие объемы данных дает системам ИИ возможность обнаруживать структурные закономерности, которые могут ускользать от человеческого наблюдения, что приводит к ускоренному обучению.

Однако Хинтон признает потенциальные риски, связанные с тем, что ИИ превосходит человеческий интеллект. Он выражает обеспокоенность по поводу способности ИИ манипулировать людьми, проводя параллели с двухлетним ребенком, которого заставляют делать выбор. Хинтон предупреждает, что даже без прямого вмешательства ИИ может быть использован для манипулирования людьми и потенциального причинения им вреда, ссылаясь на недавние события в Вашингтоне, округ Колумбия. Хотя он не предлагает конкретного технического решения, он призывает научное сообщество к совместным усилиям для обеспечения безопасной и полезной работы ИИ.

Кроме того, Хинтон размышляет о будущем человечества в связи с ИИ. Он утверждает, что цифровой интеллект, не подвергшийся эволюционным процессам, как люди, не имеет врожденных целей. Это потенциально может привести к созданию подцелей системами ИИ, стремящимися к усилению контроля. Хинтон предполагает, что ИИ может развиваться с беспрецедентной скоростью, поглощая огромное количество человеческих знаний, что может превратить человечество в просто переходную фазу в эволюции интеллекта. Хотя он признает причину остановки разработки ИИ, он считает, что это маловероятно.

Хинтон также подробно рассказывает об ответственности технологических компаний за создание и выпуск технологий искусственного интеллекта. Он подчеркивает осторожность, проявленную OpenAI при выпуске своих моделей Transformers для защиты своей репутации, в отличие от необходимости Google выпускать аналогичные модели из-за конкуренции с Microsoft. Хинтон подчеркивает важность международного сотрудничества, особенно между такими странами, как США и Китай, чтобы предотвратить превращение ИИ в угрозу существованию.

Кроме того, Хинтон обсуждает возможности ИИ в мысленных экспериментах и рассуждениях, приводя в качестве примера Alpha Zero, программу для игры в шахматы. Несмотря на потенциальные несоответствия в обучающих данных, препятствующие рассуждениям, он предполагает, что обучение моделей ИИ с последовательными убеждениями может устранить этот пробел. Хинтон отвергает идею о том, что ИИ не имеет семантики, приводя примеры таких задач, как покраска дома, где они демонстрируют семантические знания. Он кратко рассматривает социальные и экономические последствия ИИ, выражая обеспокоенность по поводу смещения рабочих мест и увеличения разрыва в уровне благосостояния. Он предлагает введение базового дохода в качестве потенциального решения для смягчения этих проблем. Хинтон считает, что политические системы должны адаптировать и использовать технологии на благо всех, призывая людей высказываться и взаимодействовать с теми, кто отвечает за формирование технологий.

Хотя Хинтон признает, что немного сожалеет о возможных последствиях своего исследования, он утверждает, что его работа над искусственными нейронными сетями была разумной, учитывая, что в то время кризис нельзя было предвидеть. Хинтон прогнозирует значительный рост производительности, поскольку искусственный интеллект продолжает повышать эффективность некоторых видов работ. Однако он также выражает обеспокоенность потенциальными последствиями увольнения, которое может привести к увеличению разрыва в уровне благосостояния и, возможно, к росту социальных волнений и насилия. Чтобы решить эту проблему, Хинтон предлагает введение базового дохода как средства смягчения негативного воздействия на людей, пострадавших от потери работы.

Что касается экзистенциальной угрозы, исходящей от ИИ, Хинтон подчеркивает важность контроля и сотрудничества, чтобы предотвратить выход ИИ из-под контроля человека и превращение его в опасность для человечества. Он считает, что политические системы должны адаптироваться и меняться, чтобы использовать мощь технологий на благо всех. Именно благодаря сотрудничеству и тщательному рассмотрению научным сообществом, политиками и разработчиками технологий риски, связанные с ИИ, могут быть должным образом устранены.

Размышляя о своих исследованиях и вкладе в ИИ, Хинтон признает, что потенциальные последствия не были полностью ожидаемы. Однако он утверждает, что его работа над искусственными нейронными сетями, включая разработку обратного распространения ошибки, была разумной, учитывая состояние знаний и понимания того времени. Он призывает к постоянному диалогу и критической оценке технологии искусственного интеллекта, чтобы обеспечить ее ответственное и этичное развертывание.

В заключение, развивающийся взгляд Джеффри Хинтона на взаимосвязь между мозгом и цифровым интеллектом подчеркивает различные характеристики и потенциальные риски, связанные с ИИ. Признавая положительное применение и преобразующую силу ИИ, Хинтон призывает к осторожности, сотрудничеству и ответственному развитию, чтобы использовать его потенциал при минимизации потенциального вреда. Решая такие проблемы, как манипулирование ИИ, увольнение с работы, имущественное неравенство и экзистенциальная угроза, Хинтон выступает за сбалансированный подход, который ставит во главу угла благополучие человека и долгосрочную устойчивость общества.

  • 00:00:00 В этом разделе Джеффри Хинтон, пионер глубокого обучения, обсуждает свое решение уйти из Google через 10 лет и свои новые взгляды на взаимосвязь между мозгом и цифровым интеллектом. Он объясняет, что раньше думал, что компьютерные модели предназначены для понимания мозга, но теперь он считает, что они работают иначе, чем мозг. Хинтона
  • Техника обратного распространения, которая позволяет машинам обучаться, является фундаментом, на котором сегодня держится почти все глубокое обучение. Он также дает приблизительное объяснение того, как работает обратное распространение при обнаружении птиц на изображениях.

  • 00:05:00 В этом разделе Хинтон объясняет, как работают детекторы признаков, начиная с детекторов границ. Затем он обсуждает, как метод обратного распространения можно использовать для настройки весов нейронной сети, чтобы она могла обнаруживать такие объекты, как птицы. Он поражен успехом больших языковых моделей, основанных на этой методике, которые полностью изменили его представление о машинном обучении. Эти модели привели к значительному прогрессу в обнаружении изображений, но внимание Хинтона сосредоточено на том, как они преобразуют обработку естественного языка.

  • 00:10:00 В этом разделе Джеффри Хинтон обсуждает, как цифровые компьютеры и искусственный интеллект (ИИ) могут быть лучше людей в обучении благодаря их способности использовать алгоритмы обучения с обратным распространением. Хинтон утверждает, что компьютеры могут упаковывать больше информации в несколько подключений и, таким образом, могут лучше учиться, как продемонстрировал GPT4, который уже может использовать простые рассуждения и знания здравого смысла. Он объясняет, что масштабируемость цифровых компьютеров позволяет запускать множество копий одной и той же модели на разном оборудовании, которые могут взаимодействовать и учиться друг у друга. Хинтон предполагает, что преимущество, которое это дает, заключается в том, что системы ИИ, которые могут обрабатывать большое количество данных, могут видеть структурированные данные, которые люди никогда не увидят, и это может привести к тому, что ИИ будет учиться намного быстрее, чем люди.

  • 00:15:00 В этом разделе ученый-компьютерщик Джеффри Хинтон рассказывает о потенциальных рисках искусственного интеллекта (ИИ) и о том, как он мог бы манипулировать людьми, если бы превзошел человеческий интеллект. Хинтон выражает обеспокоенность тем, что ИИ может научиться контролировать людей, читая литературу и даже манипулируя их мышлением, как двухлетний ребенок, которого просят выбирать между овощами. Он объясняет, что даже без прямого вмешательства ИИ можно использовать для манипулирования людьми и причинения им вреда, как, например, в недавних событиях в Вашингтоне, округ Колумбия. Хотя технического решения не предлагается, Хинтон призывает научное сообщество к тесному сотрудничеству и рассмотрению этой проблемы, чтобы гарантировать, что ИИ работает безопасно и приносит пользу людям.

  • 00:20:00 В этом разделе эксперт по искусственному интеллекту Джеффри Хинтон выражает свою обеспокоенность по поводу возможного конца человечества из-за искусственного интеллекта. Хинтон утверждает, что цифровой интеллект развивался не так, как люди, и поэтому ему не хватает встроенных целей, что может привести к созданию собственных подцелей для получения большего контроля. Он предполагает, что ИИ может развиваться намного быстрее, чем люди, и поглощать все, что люди когда-либо писали, что приводит к возможному сценарию, в котором человечество является всего лишь переходной фазой в эволюции интеллекта. Хинтон предполагает, что остановка разработки ИИ может быть рациональной, но этого не произойдет.

  • 00:25:00 В этом разделе Джеффри Хинтон обсуждает ответственность технологических компаний за создание и выпуск технологий ИИ. Он отмечает, что, хотя OpenAI осторожно относилась к выпуску своих моделей Transformers, чтобы предотвратить потенциальный ущерб их репутации, у Google не было другого выбора, кроме как выпустить аналогичные модели из-за конкуренции с Microsoft. Хинтон подчеркивает важность сотрудничества между такими странами, как США и Китай, чтобы не допустить, чтобы ИИ захватил власть и превратился в экзистенциальную угрозу. Он также затрагивает вопрос о плато интеллекта в ИИ из-за объема данных, необходимых для обучения моделей, но отмечает, что еще есть много неиспользованных знаний, которые можно извлечь из обработки видеоданных.

  • 00:30:00 В этом разделе Джеффри Хинтон утверждает, что, хотя ИИ может быть ограничен данными и моделями, которым мы их учим, они все же могут проводить мысленные эксперименты и рассуждать. На примере Alpha Zero, программы для игры в шахматы, он объясняет, что ИИ может рассуждать и проверять непротиворечивость своих убеждений. Хотя непоследовательность в обучающих данных препятствует их способности рассуждать, он считает, что обучение их идеологии с последовательными убеждениями поможет преодолеть этот разрыв. Кроме того, он отвергает утверждение о том, что у ИИ отсутствует семантика, предполагая, что у них есть семантические знания, приводя примеры таких задач, как покраска дома. Отвечая на вопрос о социальных и экономических последствиях ИИ, Хинтон откладывает вопрос о экзистенциальной угрозе захвата власти ИИ, но комментирует влияние ИИ на создание и потерю рабочих мест.

  • 00:35:00 В этом разделе Хинтон предсказывает огромный рост производительности, поскольку ИИ может сделать определенные виды работ более эффективными. Однако его беспокоит то, что это увеличение приведет к сокращению рабочих мест и увеличению разрыва в уровне благосостояния в обществе, что сделает его более жестоким. Он предлагает ввести базовый доход, чтобы решить эту проблему. Угрозу превращения ИИ в экзистенциальную угрозу можно предотвратить с помощью контроля и сотрудничества, но политические системы должны измениться, чтобы использовать технологии на благо всех. Хинтон считает, что общение и взаимодействие с теми, кто создает технологию, может изменить ситуацию. Хотя он немного сожалеет о возможных последствиях своего исследования, он считает, что его работа над искусственными нейронными сетями была разумной, учитывая, что кризис нельзя было предвидеть.
 

Прорывной потенциал ИИ | Сэм Альтман | Массачусетский технологический институт 2023



Прорывной потенциал ИИ | Сэм Альтман | Массачусетский технологический институт 2023

Сэм Альтман, генеральный директор OpenAI, предлагает ценные идеи и советы по различным аспектам разработки и стратегии ИИ. Альтман подчеркивает важность создания крупной компании с долгосрочным стратегическим преимуществом вместо того, чтобы полагаться исключительно на технологию платформы. Он советует сосредоточиться на создании продукта, который люди любят и удовлетворяют потребности пользователей, так как это является ключом к успеху.

Альтман подчеркивает гибкость новых базовых моделей, которые позволяют манипулировать моделями и настраивать их без серьезного переобучения. Он также упоминает, что OpenAI стремится сделать разработчиков счастливыми и активно изучает способы удовлетворения их потребностей с точки зрения настройки модели. Обсуждая тенденции в моделях машинного обучения, Альтман отмечает сдвиг в сторону меньшей настройки и растущую популярность быстрой разработки и изменений токенов. Хотя он признает потенциал для улучшений в других областях, он упоминает, что инвестирование в базовые модели сопряжено со значительными затратами, часто превышающими десятки или сотни миллионов долларов в процессе обучения.

Альтман размышляет о своих сильных и слабых сторонах как бизнес-стратега, подчеркивая свою сосредоточенность на долгосрочных, капиталоемких и ориентированных на технологии стратегиях. Он призывает начинающих предпринимателей учиться у опытных людей, которые успешно создали быстрорастущие и надежные компании, такие как OpenAI. Альтман критикует зацикленность на подсчете параметров в ИИ и сравнивает это с гигагерцовой гонкой в разработке микросхем предыдущих десятилетий. Он предлагает сосредоточить внимание на быстром увеличении возможностей моделей ИИ и предоставлении миру наиболее эффективных, полезных и безопасных моделей. Альтман считает, что эти алгоритмы обладают необузданной мощностью и могут выполнять то, что раньше было невозможно.

Что касается открытого письма с призывом остановить разработку ИИ, Альтман согласен с необходимостью изучения и проверки безопасности моделей. Тем не менее, он указывает на важность технических нюансов и выступает за осторожность и строгие протоколы безопасности, а не за полную остановку. Альтман признает компромисс между открытостью и риском сказать что-то не так, но считает, что стоит поделиться с миром несовершенными системами, чтобы люди могли испытать и понять их преимущества и недостатки.

Альтман обращается к концепции «взлета» в самосовершенствовании ИИ, утверждая, что это не произойдет внезапно или резко. Он считает, что движущей силой развития ИИ по-прежнему будут люди, которым будут помогать инструменты ИИ. Альтман ожидает, что скорость изменений в мире будет бесконечно увеличиваться по мере разработки более совершенных и быстрых инструментов, но он предупреждает, что это не будет похоже на сценарии, описанные в научной фантастике. Он подчеркивает, что создание новой инфраструктуры занимает значительное время, и революция в самосовершенствовании ИИ не произойдет в одночасье.

Сэм Альтман углубляется в тему развития ИИ и его последствий. Он обсуждает необходимость повышения стандартов безопасности по мере того, как возможности ИИ становятся все более совершенными, подчеркивая важность строгих протоколов безопасности, а также тщательного изучения и проверки моделей. Альтман признает сложность поиска баланса между открытостью и возможными недостатками, но считает крайне важным поделиться системами ИИ с миром, чтобы лучше понять их преимущества и недостатки.

Говоря о влиянии ИИ на производительность инженеров, Альтман подчеркивает использование LLMS (больших языковых моделей) для генерации кода. Он признает его потенциал для повышения производительности труда инженеров, но также признает необходимость тщательной оценки и мониторинга для обеспечения качества и надежности сгенерированного кода.

Альтман предлагает понимание концепции «взлета» в самосовершенствовании ИИ, подчеркивая, что это не произойдет внезапно или в одночасье. Вместо этого он предвидит непрерывный прогресс, в котором люди играют жизненно важную роль в использовании инструментов ИИ для разработки более совершенных и быстрых технологий. В то время как скорость изменений в мире будет увеличиваться до бесконечности, Альтман отвергает идею научно-фантастической революции, подчеркивая трудоемкость создания новой инфраструктуры и необходимость постоянного прогресса.

В заключение скажем, что точки зрения Сэма Альтмана проливают свет на различные аспекты развития ИИ, начиная от стратегических соображений и заканчивая безопасностью, индивидуализацией и долгосрочной траекторией развития ИИ. Его идеи служат ценным руководством для отдельных лиц и компаний, занимающихся индустрией искусственного интеллекта, подчеркивая важность подходов, ориентированных на пользователя, постоянного совершенствования и ответственного внедрения технологий искусственного интеллекта.

  • 00:00:00 В этом разделе к генеральному директору OpenAI Сэму Альтману обращаются за советом по созданию компании, ориентированной на ИИ. Альтман полагает, что ключевое значение имеет создание великой компании, имеющей долгосрочное стратегическое преимущество. Он советует не слишком полагаться на технологии платформы, а вместо этого делает упор на создание продукта, который нравится людям и удовлетворяет потребности пользователей. Альтман также обсуждает гибкость новых базовых моделей, которые обладают гораздо большей способностью манипулировать и настраивать модели без их переобучения. Наконец, Альтман отмечает, что OpenAI открыт для многих вещей, чтобы сделать разработчиков счастливыми, и все еще выясняет, что нужно разработчикам с точки зрения настройки модели.

  • 00:05:00 В этом разделе Сэм Альтман обсуждает тенденцию к меньшей настройке моделей машинного обучения и рост количества быстрых инженерных изменений и изменений токенов по мере того, как эти модели становятся лучше и больше. В то время как он признает, что гигантские модели позволят улучшить другие способы, Альтман заявляет, что инвестиции в базовые модели превышают 50-100 миллионов долларов в процессе обучения. Что касается бизнес-стратегии, Альтман утверждает, что он не великий бизнес-стратег и что он может использовать в качестве стратегии только долгосрочные, капиталоемкие и технологические элементы. Он также советует найти людей, которые прошли практику, и учиться у них, особенно в создании новой быстрорастущей надежной компании, такой как Open AI.

  • 00:10:00 В этом разделе Сэм Альтман обсуждает акцент на подсчете параметров в ИИ и то, как это напоминает гонку гигагерц в чипах 90-х и 2000-х годов. Он предлагает вместо того, чтобы зацикливаться на количестве параметров, сосредоточиться на быстром увеличении возможностей моделей ИИ и предоставлении миру наиболее эффективных, полезных и безопасных моделей. Альтман отмечает, что уникальность этого класса алгоритмов заключается в том, что он удивляет пользователей своей необузданной мощностью. Он отмечает, что с увеличением скорости подложки эти алгоритмы будут делать то, что раньше было невозможно. Альтман рекомендует обращать внимание на то, что работает, и делать больше, реагируя на изменения и имея тесную петлю обратной связи.

  • 00:15:00 В этом разделе видео Сэм Альтман обсуждает открытое письмо, написанное Максом Тегмарком и другими, чтобы остановить разработку ИИ на шесть месяцев, выражая свое согласие с направленностью письма, в котором содержится призыв к обеспечению безопасности моделей. изучены и проверены. Альтман объясняет, что планка безопасности должна быть увеличена по мере того, как возможности становятся более серьезными. Однако он добавляет, что в письме отсутствуют необходимые технические нюансы и что более оптимальными способами решения проблемы являются осторожность и строгие протоколы безопасности. Альтман также говорит о компромиссе между тем, чтобы быть открытым и иногда говорить что-то не так, подчеркивая, что стоит пойти на компромисс, чтобы представить эти системы миру, хотя и несовершенно, чтобы люди могли испытать и понять их преимущества и недостатки. Наконец, Альтман обсуждает использование LLMS для генерации кода и его влияние на производительность инженера.

  • 00:20:00 В этом разделе Сэм Альтман обсуждает понятие «взлета» в самосовершенствовании ИИ. Он считает, что это не произойдет внезапно и взрывоопасно, а скорее люди будут продолжать оставаться движущей силой в развитии ИИ с помощью инструментов ИИ. Альтман отмечает, что скорость изменений в мире будет увеличиваться до бесконечности по мере того, как люди разрабатывают более совершенные и быстрые инструменты, хотя это не сработает так, как в научно-фантастических книгах. Наконец, он отмечает, что создание новой инфраструктуры требует огромного количества времени и что в самосовершенствовании ИИ не произойдет мгновенной революции.
 

ChatGPT и интеллектуальный взрыв



ChatGPT и интеллектуальный взрыв

Эта анимация была создана с использованием короткого кода Python, в котором используется библиотека математической анимации «manim» от Three Blue One Brown. Код генерирует квадратный фрактал, представляющий собой рекурсивный шаблон, в котором квадраты вложены друг в друга. Анимация была полностью написана Chat GPT, программой искусственного интеллекта, которая может генерировать программы. Это была его первая попытка создать анимацию с помощью manim.

Хотя Chat GPT имеет ограничения и иногда сталкивается с ошибками или выдает неожиданные результаты, он по-прежнему является полезным инструментом для отладки и парного программирования. Во многих случаях Chat GPT пишет большую часть кода, включая стандартный код, в то время как человек-программист сосредотачивается на визуальных аспектах и тонкой настройке.

Творческий потенциал Chat GPT выходит за рамки анимации. Он использовался для различных задач творческого кодирования, в том числе для создания автопортрета без какой-либо ручной обработки. Хотя навыки программирования Chat GPT впечатляют, он не заменяет программистов-людей и лучше всего работает при сотрудничестве с ними.

Помимо анимации, Chat GPT использовался для реализации обновленной версии старого симулятора Evolution под названием биоморфы. Программа ИИ творчески расширила первоначальную идею, используя 3.js, 3D-библиотеку для браузера. Окончательная версия biomorphs 3D была создана совместными усилиями, и большая часть кода была написана Chat GPT.

Chat GPT — замечательное программное обеспечение, которое может писать другие программы. Это программа программирования, способная разумно комбинировать языки, методы и идеи, на которых она обучалась. Хотя у него есть свои ограничения, он все же может быть ценным инструментом для программирования, отладки и создания креативных решений.

Глядя в будущее, можно предположить, что более продвинутая версия Chat GPT или другая языковая модель могут быть обучены, чтобы стать полностью автоматическим программистом. Такой ИИ мог бы взаимодействовать с командной строкой, писать, читать, выполнять файлы, отлаживать и даже общаться с менеджерами-людьми. Уже существуют экспериментальные агенты ИИ для задач автономного программирования, и будущие модели могут еще больше расширить эти возможности.

Идея ИИ, создающего ИИ, интригует. Предоставляя программе ИИ собственный исходный код, она потенциально может самосовершенствоваться и повторять свою версию. Через процесс рекурсивного самосовершенствования, начиная с полуприличного программиста, ИИ мог постепенно ускорять свои улучшения, со временем увеличивая свои возможности. В далеком будущем самосовершенствующийся ИИ сможет превзойти человеческий интеллект и создать новые алгоритмы, нейронные архитектуры или даже языки программирования, которые мы, возможно, не полностью понимаем. Это может привести к интеллектуальному взрыву, когда развитие ИИ будет развиваться с экспоненциальной скоростью.

 

ChatGPT и революция ИИ: готовы ли вы?


ChatGPT и революция ИИ: готовы ли вы?

Искусственный интеллект (ИИ) может стать величайшим событием в истории нашей цивилизации, но он также сопряжен со значительными рисками. Если мы не научимся справляться с этими рисками, это может стать последним событием для человечества. Инструменты этой технологической революции, в том числе ИИ, могут предложить решения для частичного устранения ущерба, причиненного индустриализацией, но только в том случае, если мы будем подходить к ним с осторожностью и дальновидностью.

Стивен Хокинг, как известно, предупреждал о рисках, связанных с ИИ, подчеркивая необходимость действовать осторожно. Доверять компьютерам конфиденциальную информацию, такую как данные кредитной карты или документы, удостоверяющие личность, стало неизбежным в сегодняшнюю цифровую эпоху. Однако что, если бы компьютеры перестали обрабатывать такие данные и начали создавать новости, телепередачи и даже диагностировать болезни? Эта перспектива поднимает вопросы о доверии и зависимости от машин.

Каждый сектор работы находится на грани трансформации благодаря силе ИИ, и чат GPT — это только начало. Страх перед технологиями не нов; это было изображено в научной фантастике на протяжении более века. Но сейчас эти предупреждения кажутся более правдоподобными, чем когда-либо. Мы внедрили такие технологии, как Uber, TikTok и Netflix, основанные на алгоритмах, которые предсказывают наши предпочтения и учитывают их. Однако чат GPT выводит его на совершенно новый уровень, бросая вызов превосходству человека в таких областях, как письмо, искусство, кодирование и бухгалтерский учет.

Язык, который долгое время считался исключительно человеческим атрибутом, теперь воспроизводится машинами. Знаменитый тест Тьюринга Алана Тьюринга, в котором компьютеры должны были продемонстрировать человеческий интеллект, в то время казался надуманным. Но благодаря достижениям в области глубокого обучения машины превзошли людей в различных областях, от игры в шахматы до вождения автомобиля. Язык, который когда-то считался исключительной прерогативой людей, теперь находится в пределах досягаемости ИИ.

Chat GPT, разработанный openAI, представляет собой значительный скачок в возможностях ИИ. Это чат-бот, который использует искусственные нейронные сети, огромные объемы данных и обработку естественного языка для генерации ответов, подобных человеческим. С каждой итерацией система становилась все более мощной, с миллиардами параметров для улучшения ее понимания и вывода. Он способен создавать сложные и продуманные ответы, которые очень напоминают человеческое мышление.

Применение чата GPT обширно и разнообразно. Он может служить виртуальным помощником, помогая клиентам, проводя мозговой штурм, обобщая тексты и создавая персонализированный контент. Компании могут извлечь выгоду из снижения затрат на рабочую силу и повышения качества обслуживания клиентов. Однако чат GPT имеет свои ограничения. У него нет доступа к Интернету, что иногда делает его ответы неточными. Он также сталкивается с проблемами проверки информации и решения сложных логических задач.

Хотя чат GPT может произвести революцию в различных областях, его развертывание вызывает этические проблемы. Студенты, например, могут использовать его, чтобы срезать углы при выполнении заданий, создавая проблемы для преподавателей, которые полагаются на программное обеспечение для обнаружения плагиата. Кроме того, мощь ИИ растет в геометрической прогрессии, подталкивая нас к технологической сингулярности, где контроль становится неуловимым.

В заключение, появление ИИ, примером которого является чат GPT, одновременно внушает благоговение и вызывает тревогу. У него есть потенциал изменить наш мир, но мы должны подходить к нему с осторожностью и ответственным управлением. Возможности ИИ быстро расширяются, и по мере того, как мы осваиваем этот новый рубеж, мы должны учитывать этические, социальные и практические последствия, чтобы обеспечить будущее, в котором люди и машины будут гармонично сосуществовать.

  • 00:00:00 В этом разделе видео освещает потенциальные риски и преимущества продолжающейся революции ИИ. Хотя ИИ может помочь устранить ущерб, причиненный индустриализацией, он также представляет серьезную угрозу для человечества, если мы не научимся избегать связанных с ним рисков. Далее в видео объясняется, как каждый сектор работы находится на грани поглощения ИИ, что может привести к захвату человеческого превосходства. Технология способна создавать человекоподобный контент, от письма до бухгалтерского учета, и это приближает нас к машине, которая действительно думает. Хотя у ИИ может быть потенциал, чтобы переопределить все в нашем мире, это новый рубеж, к которому на самом деле никто не готов.

  • 00:05:00 В этом разделе рассказчик объясняет, как когда-то считалось, что язык принадлежит исключительно человеку, и как игра-имитация Алана Тьюринга заставила компьютеры пройти тест Тьюринга, беспрепятственно общаясь на естественном языке. Хотя тест Тьюринга еще не пройден, глубокое обучение привело к созданию искусственных нейронных сетей, которые победили людей в искусственных играх и продвинулись в таких областях, как беспилотные автомобили, распознавание лиц и свертывание белков. Революция ИИ уже наступила, и время между каждым технологическим скачком становится все меньше и быстрее. Рассказчик также представляет ChatGPT, широко доступный инструмент, который использует машинное обучение и имеет как ужасающие, так и удивительные возможности для будущего.

  • 00:10:00 В этом разделе мы узнаем об OpenAI и их революционных технологиях искусственного интеллекта, включая их последний продукт, Chat GPT. Этот продвинутый чат-бот использует огромное количество интернет-данных, обработку естественного языка и обучение с подкреплением, чтобы генерировать человеческие ответы на вопросы пользователей. Благодаря диалоговому характеру Chat GPT обладает безграничным потенциалом для революционного преобразования виртуальной помощи, создания контента и многого другого. Программа уже впечатлила мир своей способностью создавать фотореалистичные изображения из простых письменных входных данных с помощью DALL-E 2.0 и создавать сложные мэшапы визуального искусства с помощью GPT-3. С будущим выпуском GPT-4, который, по прогнозам OpenAI, будет иметь триллионы параметров, мощь технологий ИИ может только продолжать расти.

  • 00:15:00 В этом разделе видео обсуждаются преимущества и ограничения языковой модели ИИ, ChatGPT. Хотя владельцы бизнеса и менеджеры могут извлечь выгоду из способности ChatGPT сократить трудозатраты и персонализировать взаимодействие с клиентами, его точность имеет ограничения. Инструмент не подключен к Интернету и не использует поисковую систему, что приводит к крайне неточным и бессмысленным ответам. Это представляет опасность при предоставлении медицинской информации и может вызвать проблемы при написании заданий для школ. Студенты могут легко обманывать, используя ChatGPT для написания эссе и ответов на вопросы, что приводит к тому, что школы Нью-Йорка запрещают этот инструмент. С другой стороны, создатель, OpenAI, разрабатывает программное обеспечение для определения того, когда текст был сгенерирован их системой, показывая, что мы только царапаем поверхность, когда речь идет о возможностях и ограничениях ИИ.

  • 00:20:00 В этом разделе стенограмма освещает более темные способы использования ChatGPT, которые уже используются киберпреступниками, включая генерацию дезинформации и создание поддельных человекоподобных персонажей, которые могут имитировать поведение реальных людей. Прогнозируется, что по мере того, как ChatGPT станет более доступным, он окажет далеко идущее влияние на ряд секторов, включая писательство, творческие отрасли и приложения для поиска работы. В то время как некоторые рассматривают этот инструмент как помощник по письму, который может повысить производительность, другие опасаются, что это приведет к увольнению работников и еще больше усугубит проблемы, связанные с академической честностью, фальшивыми новостями и дезинформацией.

  • 00:25:00 В этом разделе отмечается, что исследование, проведенное исследователем из Стэнфордского университета Джоном Джеем Наем, предполагает, что чат GPT может заменить многомиллиардную индустрию корпоративного лоббирования, поскольку он имеет 75% точность определения преимущества. законодательства для конкретной компании. Однако использование таких программ, как чат GPT, для законодательства может отойти от интересов граждан. Важно спросить, кому именно обслуживает чат GPT, поскольку OpenAI контролирует, откуда берутся данные, что является огромной силой, которая может означать разработку чата GPT для удовлетворения своих собственных интересов. Microsoft уже выдвинула идею включения инструментов OpenAI в свой офисный пакет, чтобы помочь пользователям быстрее создавать контент, и инвестировала в OpenAI с эксклюзивными правами на GPT-3. Однако, если ИИ возьмет верх, он сможет выполнять всю тяжелую работу, в то время как у людей будет больше времени для отдыха, что является самым оптимистичным прогнозом.
 

Сэм Альтман рассказывает об искусственном интеллекте, Илоне Маске, ChatGPT, Google…


Сэм Альтман рассказывает об искусственном интеллекте, Илоне Маске, ChatGPT, Google…

Большинство людей, которые утверждают, что глубоко обеспокоены безопасностью ИИ, похоже, проводят свое время в Твиттере, выражая свои опасения, а не предпринимая реальных действий. Автор задается вопросом, почему так мало таких фигур, как Илон Маск, который является уникальным и влиятельным персонажем в этом отношении. В интервью с Сэмом Альтманом, генеральным директором OpenAI, проведенном Патриком Коллисоном, соучредителем и генеральным директором Stripe, обсуждаются несколько важных выводов.

  1. Альтман лично использует GPT для электронной почты и сводки Slack, подчеркивая необходимость в улучшении плагинов в будущем.
  2. Альтман признает, что время от времени использует плагины для просмотра и интерпретатора кода, но считает, что они еще не вошли в его повседневную привычку.
  3. Альтман считает, что до тех пор, пока интеллектуальные модели ИИ могут генерировать синтетические данные, не должно быть недостатка в обучающих данных для все более крупных моделей. Однако он признает необходимость новых методов.
  4. Альтман подчеркивает важность обратной связи с людьми в обучении с подкреплением для моделей ИИ и подчеркивает необходимость обратной связи со стороны умных экспертов, что может привести к потенциальной конкуренции между талантливыми аспирантами.
  5. Альтман обсуждает неправильные представления о возможностях искусственного интеллекта Китая, предполагая, что важно иметь тонкое понимание сложных международных отношений, а не полагаться на преувеличенные заявления.
  6. Альтман предвидит будущее как с функциональными моделями искусственного интеллекта с открытым исходным кодом, так и с достижениями, основанными на крупномасштабных кластерах, что даст время для устранения потенциальных рисков, связанных с искусственным интеллектом.
  7. Интервью касается стратегии искусственного интеллекта Facebook, и Альтман предполагает, что подход компании был несколько неясным, но в будущем ожидается более последовательная стратегия.
  8. Альтман признает, что новые открытия в области ИИ могут повлиять на его опасения по поводу экзистенциальных рисков, связанных с ИИ.
  9. Альтман заявляет о необходимости более глубокого понимания внутренностей моделей ИИ, а не только о человеческой обратной связи, подчеркивая ограниченность знаний исследователей о больших языковых моделях в настоящее время.
  10. Альтман критикует акцент на обсуждениях безопасности ИИ в Твиттере, призывая больше технических экспертов активно работать над тем, чтобы сделать системы ИИ безопасными и надежными.
  11. Альтман обсуждает потенциальные последствия того, что люди тратят больше времени на взаимодействие с ИИ, чем с людьми, подчеркивая необходимость установления социальных норм для взаимодействия человека и ИИ.
  12. Альтман предвидит будущее, в котором многочисленные системы ИИ сосуществуют с людьми, сравнивая его с научно-фантастическими фильмами, где ИИ полезен, интерактивен и интегрирован в общество, не представляя особой угрозы со стороны сверхразума.
  13. Альтман подчеркивает, что OpenAI уделяет особое внимание исследованиям, а не прибыли, стремясь стать лучшей в мире исследовательской организацией и способствовать смене парадигм.
  14. Альтман подчеркивает важность парадигмы GPT как преобразующего вклада OpenAI.
  15. Альтман высоко оценивает недавние усилия Google по переосмыслению компании и адаптации ее к возможностям ИИ.
  16. Альтман предполагает, что модели ИИ, такие как GPT, изменят поиск, но не будут угрожать его существованию, указывая на то, что реакция Google на достижения ИИ определит их успех.
  17. Альтман с юмором упоминает, что он не использует многие продукты ИИ, но полагается на GPT как на единственный продукт ИИ, который он использует ежедневно.
  18. Альтман разделяет свое желание иметь второго пилота с искусственным интеллектом, который управляет его компьютером и выполняет различные задачи.
  19. Альтман считает, что такие люди, как Илон Маск, уникальны и их трудно воспроизвести, подчеркивая исключительные качества Маска.
  20. Альтман предпочитает работать с людьми, которых знает давно, ценя преемственность и общую историю, которую они привносят в проекты.
  21. Альтман предполагает, что инвестиционный инструмент, использующий ИИ, может достичь выдающихся результатов, потенциально превзойдя даже хедж-фонды, такие как Renaissance Technologies.
  22. Альтман ожидает, что Microsoft претерпит трансформацию различных аспектов своего бизнеса за счет интеграции ИИ.
  23. Альтман признает, что обучение с подкреплением в процессе обратной связи с человеком может иметь непредвиденные последствия и потенциально нанести вред моделям ИИ.
 

Учебное пособие по науке о данных — полный курс изучения науки о данных [2020]  (части 1-3)


Учебное пособие по науке о данных — полный курс изучения науки о данных [2020]

Часть 1

  • 00:00:00 Итак, наука о данных — это область, которая занимается творческим решением проблем с использованием инструментов кодирования, математики и статистики в прикладных условиях. Это включает в себя прослушивание всех данных и более широкое участие в анализе, чтобы лучше понять вопросы исследования. Эта область пользуется большим спросом, потому что она обеспечивает конкурентное преимущество и понимание того, что происходит вокруг нас. McKinsey Global Institute спрогнозировал потребность в глубоких аналитических должностях, а также в менеджерах и аналитиках, которые разбираются в данных для принятия бизнес-решений.

  • 00:05:00 В видео обсуждается высокий спрос и острая потребность в науке о данных, которая включает в себя как специалистов, так и специалистов широкого профиля, учитывая прогнозируемые 1,5 миллиона вакансий для менеджеров, разбирающихся в данных. Диаграмма Венна по науке о данных, созданная Дрю Конвеем, иллюстрирует, что кодирование, математика/статистика и экспертные знания в предметной области являются тремя компонентами науки о данных, и их пересечение составляет поле. Важность программирования заключается в способности собирать и подготавливать данные из новых источников с использованием основных языков, включая R, Python, SQL и Bash. Раздел заканчивается упоминанием о том, что наука о данных является привлекательной альтернативой карьере и может сделать человека лучше в любой области, в которой он работает, а специалисты по данным занимают третье место в десятке самых высокооплачиваемых в США.

  • 00:10:00 В видео обсуждаются три компонента диаграммы Венна в науке о данных: хакерские навыки, математические и статистические знания, а также опыт в предметной области. Видео объясняет, что, хотя они и пересекаются, способность успешно использовать все три важна для достижения чего-то практического. Далее в видео исследуются три отдельные области, которые перекрывают и пересекают диаграмму: традиционные исследования, машинное обучение и «опасная зона», или пересечение кодирования и знаний предметной области без математики или статистики. Кроме того, в видео освещаются три разных уровня знаний, которые важны в науке о данных: кодирование, статистика и опыт работы в определенной области. Видео завершается подчеркиванием того, что в науке о данных задействовано много ролей, и для успешного завершения проекта по науке о данных необходимы различные навыки и опыт.

  • 00:15:00 Объясняются основные этапы пути науки о данных. Эти этапы включают планирование, подготовку данных, моделирование или статистическое моделирование и последующие действия. Планирование включает в себя определение целей проекта, организацию ресурсов, координацию людей и создание расписания. Подготовка данных включает получение и очистку данных, их изучение и уточнение. Во время моделирования или статистического моделирования создаются, проверяются, оцениваются и уточняются статистические модели. Последующие действия включают в себя представление и развертывание модели, повторное посещение ее, чтобы увидеть, насколько хорошо она работает, и архивирование ресурсов. Отмечается, что наука о данных — это не просто техническая область, она требует навыков планирования, представления и контекстуальных навыков. Кроме того, в науке о данных существуют разные роли, в том числе инженеры, которые сосредоточены на внутреннем оборудовании.

  • 00:20:00 В видео обсуждаются разные типы людей, занимающихся наукой о данных. К ним относятся разработчики, разработчики программного обеспечения и администраторы баз данных, которые обеспечивают основу для науки о данных. Специалисты по большим данным занимаются обработкой больших объемов данных и созданием информационных продуктов, таких как рекомендательные системы. Исследователи сосредотачиваются на исследованиях в предметной области и обладают сильными статистическими навыками. Аналитики играют жизненно важную роль в повседневных задачах управления бизнесом, в то время как предпринимателям нужны данные и деловые навыки. Наконец, в видео рассказывается о командах, занимающихся наукой о данных, и о том, что не существует «единорогов с полным стеком», обладающих всеми навыками обработки данных. Вместо этого у людей разные сильные стороны, и важно научиться эффективно работать в команде, чтобы выполнять проекты.

  • 00:25:00 Подчеркивается важность командной работы в науке о данных, поскольку один человек обычно не может охватить все необходимые навыки для проекта. Пример двух вымышленных людей, Отто и Люси, используется для демонстрации того, как объединение их способностей может создать «команду единорогов», способную соответствовать требуемым критериям для проекта по науке о данных. Кроме того, с помощью диаграмм Венна исследуется различие между наукой о данных и большими данными. Объясняется, что, хотя большие данные могут не требовать всех инструментов науки о данных, таких как предметная экспертиза и статистический анализ, они все же требуют навыков кодирования и количественного анализа. Наоборот, наука о данных может обойтись без больших данных, но все же требует хотя бы одной из трех характеристик больших данных.

  • 00:30:00 Спикер обсуждает разницу между большими данными и наукой о данных, а также разницу между наукой о данных и компьютерным программированием. Спикер объясняет, что большие данные относятся либо к объему, либо к скорости, либо к разнообразию данных, в то время как наука о данных объединяет все три и требует более специализированных навыков, таких как кодирование, статистика, математика и знание предметной области. Между тем, компьютерное программирование предполагает предоставление машинам инструкций по выполнению задач, что отличается от сложного анализа, необходимого в науке о данных. Несмотря на общие инструменты и методы кодирования, наука о данных требует прочной статистической базы.

  • 00:35:00 Объясняется разница между наукой о данных и статистикой. Несмотря на то, что они используют общие процедуры, наука о данных не является подмножеством статистики, поскольку большинство ученых, занимающихся данными, не имеют формального образования в области статистики. Кроме того, машинное обучение и большие данные являются важными областями науки о данных, которые не используются в большинстве статистических данных. Они также различаются по своему рабочему контексту: специалисты по данным часто работают в коммерческих условиях по сравнению со статистиками. Хотя они разделяют анализ данных, у них разные ниши и цели, что делает их концептуально разными областями, несмотря на очевидное совпадение. Бизнес-аналитика, или BI, также противопоставляется науке о данных, поскольку BI очень прикладная и не требует кодирования.

  • 00:40:00 Преподаватель объясняет взаимосвязь между наукой о данных и бизнес-аналитикой (BI). BI в первую очередь фокусируется на простом и эффективном анализе данных с упором на опыт предметной области. Однако наука о данных может помочь настроить и расширить системы бизнес-аналитики, определяя источники данных и обеспечивая более сложный анализ данных. Кроме того, специалисты по обработке и анализу данных могут узнать о дизайне и удобстве использования приложений бизнес-аналитики. Преподаватель также затрагивает этические вопросы в науке о данных, в том числе вопросы конфиденциальности, анонимности и авторского права, подчеркивая важность сохранения конфиденциальности и конфиденциальности данных.

  • 00:45:00 Спикер рассказывает о рисках, связанных с проектами по науке о данных. Одним из таких рисков является безопасность данных, поскольку хакеры могут попытаться украсть ценные данные. Еще одним риском является возможность предвзятости в алгоритмах и формулах, используемых в науке о данных, что может привести к непреднамеренной дискриминации на основе таких факторов, как пол или раса. Еще одним риском является чрезмерная уверенность в анализах, которая может привести к неправильному пути. Несмотря на эти риски, наука о данных обладает огромным потенциалом, и спикер дает краткий обзор методов, используемых в науке о данных, включая поиск источников данных, кодирование, математику, статистику и машинное обучение, с акцентом на понимание, инструменты и технологии по мере их использования. служить достижению этой цели.

  • 00:50:00 В видеоруководстве обсуждаются различные методы получения данных, используемые в науке о данных, и подчеркивается важность оценки качества данных. Эти методы включают использование существующих данных, API-интерфейсов данных, сбор веб-данных и создание новых данных с помощью опросов или экспериментов. Важно оценить качество собранных данных, потому что «мусор на входе, мусор на выходе», поскольку неверные данные приводят к плохому пониманию. Поэтому необходимо проверять актуальность, точность и смысл данных, и в этом могут помочь такие метрики, как бизнес-метрики, KPI и точность классификации. Следующим шагом в методах науки о данных является кодирование, которое включает в себя изучение данных для их освоения. Однако важно помнить, что кодирование — это лишь часть науки о данных, а наука о данных — это больше, чем просто технические процедуры.

  • 00:55:00 Рассказчик объясняет три категории инструментов, имеющих отношение к науке о данных: приложения, форматы данных и код. Некоторые распространенные инструменты включают Excel и R, которые могут выполнять множество задач. Однако рассказчик подчеркивает, что инструменты — это только средство для достижения цели, и что наиболее важной частью науки о данных является понимание цели и выбор правильных инструментов и данных для достижения этой цели. Затем рассказчик кратко затрагивает роль математики в науке о данных; хотя компьютеры могут выполнять многие математические процедуры, все же важно иметь математическое понимание, поскольку оно позволяет сделать осознанный выбор, позволяет проводить отладку, когда что-то идет не так, а иногда ручные вычисления могут быть проще и быстрее.

Часть 2

  • 01:00:00 Спикер обсуждает важность базовых математических знаний для науки о данных. Основы алгебры, линейной или матричной алгебры, систем линейных уравнений, исчисления, большого O, теории вероятностей и теоремы Байеса имеют отношение к науке о данных. Немного математических знаний может помочь с решением проблем и умением разбираться в проблемах. Затем докладчик дает краткий обзор статистики в науке о данных, включая исследовательскую графику и статистику, а также выводы, такие как проверка гипотез и оценки. Докладчик также упоминает некоторые потенциальные проблемы, такие как выбор функций, проверка и выбор оценщиков, но предупреждает аудиторию о троллях и о необходимости самостоятельно принимать обоснованные решения для проведения полезного анализа.

  • 01:05:00 Спикер резюмирует понятия статистики и машинного обучения. Он утверждает, что статистика позволяет исследовать и описывать данные, а также делать выводы о населении. Машинное обучение — это инструмент, используемый для категоризации случаев, прогнозирования оценок и уменьшения размерности больших разбросанных наборов данных. Цель состоит в том, чтобы получить полезную информацию о данных, а визуализация и коммуникация необходимы для того, чтобы вести людей через историю, основанную на данных, чтобы найти ценность. Уравнение ценности — это анализ, умноженный на историю, поэтому важно сосредоточиться на рассказывании историй и коммуникации в дополнение к техническому анализу.

  • 01:10:00 В видео обсуждается важность целевого анализа и то, как важно общаться так, чтобы клиенты могли легко его понять. Спикер подчеркивает необходимость того, чтобы аналитик избегал эгоцентризма, ложного консенсуса и якорения, чтобы сделать проект просто понятным для клиентов. Что касается проведения анализа, видео подчеркивает важность упрощения. Видео предлагает использовать диаграммы и таблицы для представления анализа, а не текста, и что аналитик должен представлять технические детали только в случае необходимости. Затем в видео приводится пример набора данных о поступлении в аспирантуру Университета Беркли в 1973 году, чтобы продемонстрировать правильный способ представления данных в упрощенной форме.

  • 01:15:00 Преподаватель объясняет концепцию парадокса Симпсона, где систематическая ошибка может быть незначительной на уровне отдела, но существенной при рассмотрении всего набора данных. Пример записей о поступлении в Беркли показал, что у женщин был более низкий уровень приема; однако это произошло из-за того, что женщины подали заявки на более избирательные программы, программы с более низким уровнем приема. Преподаватель подчеркивает важность задавать дополнительные вопросы, выходящие за рамки поверхностного анализа, такие как изучение критериев приема, рекламных стратегий, предшествующего образования и уровней финансирования различных программ. Конечная цель анализа данных — предоставить действенную информацию, которая может помочь в принятии решений и достижении конкретной цели для клиента. Поэтому важно обосновать рекомендации данными и убедиться, что они выполнимы и находятся в пределах возможностей клиента.

  • 01:20:00 Объясняется принципиальная разница между корреляцией и причинностью. В то время как данные дают корреляцию, клиенты хотят знать, что является причиной чего-либо, чего можно достичь с помощью экспериментальных исследований, квазиэкспериментов, теории, основанной на исследованиях, и опыта в конкретной области. Кроме того, необходимо учитывать социальные факторы, в том числе миссию и личность клиента, деловую и нормативную среду, а также социальный контекст внутри и за пределами организации. Также обсуждается презентационная графика, причем исследовательская графика проста и полезна для аналитика, в то время как презентационная графика требует ясности и повествования, чтобы избежать отвлекающих факторов, таких как цвет, ложные размеры, взаимодействие и анимация.

  • 01:25:00 Спикер на примерах демонстрирует, чего нельзя делать при визуализации данных, а затем приводит примеры понятных и эффективных диаграмм. Они подчеркивают важность создания повествовательного потока в презентационной графике и объясняют, как этого добиться с помощью легко читаемых и простых диаграмм. Общая цель презентационной графики — четко и эффективно рассказать историю и передать данные. Спикер подчеркивает, что для достижения этой цели графика презентации должна быть четкой и сфокусированной.

  • 01:30:00 Спикер подчеркивает важность воспроизводимых исследований в науке о данных, которая заключается в возможности воспроизвести проект в будущем для проверки результатов. Это достигается за счет архивирования всех наборов данных и кодов, используемых в процессе, их хранения в непатентованных форматах и обеспечения прозрачности исследования с помощью аннотаций. Open Science Framework и Open Data Science Conference также были упомянуты в качестве ресурсов для обмена исследованиями с другими и содействия подотчетности. Спикер предлагает использовать блокноты Jupyter или RMarkdown в качестве цифровых блокнотов для объяснения процессов и создания убедительного повествования, которое можно передать будущим коллегам или клиентам.

  • 01:35:00 Спикер обсуждает использование RMarkdown для архивирования работы и поддержки совместной работы. Анализ R может отображаться в виде форматированных заголовков, текста и выходных данных R, которые можно загружать в RPubs и делиться ими с другими. Чтобы подготовить вашу работу к будущему, важно объяснить свой выбор, показать, как вы это сделали, и поделиться своим повествованием, чтобы люди поняли ваш процесс и выводы. Спикер предлагает зрителям следующие шаги, в том числе попробовать кодирование на R или Python, визуализацию данных, освежить в памяти статистику и математику, попробовать машинное обучение, участвовать в сообществе специалистов по данным и оказывать услуги. В заключение спикер подчеркивает важность того, чтобы каждый научился работать с данными разумно и деликатно, поскольку наука о данных в основе своей демократична.

  • 01:40:00 Преподаватель обсуждает важность определения показателей успеха в проектах по науке о данных. Он объясняет, что цели должны быть ясными и должны направлять общие усилия, помогая всем участникам быть более эффективными и продуктивными. Преподаватель отмечает, что для определения показателей успеха важно понимать конкретную область или отрасль, в которой реализуется проект. Это может включать в себя такие показатели, как доход от продаж, рейтинг кликов, баллы за тесты и коэффициенты удержания, среди прочего. Кроме того, обсуждение охватывает ключевые показатели эффективности (KPI) и цели SMART, которые могут помочь организациям и командам четко и измеримо определить свои показатели успеха.

  • 01:45:00 Обсуждается важность постановки измеримых организационных целей и показателей успеха. При определении успеха и измерении прогресса важно быть реалистичным, конкретным и привязанным ко времени в поставленных целях. Однако когда дело доходит до балансировки нескольких целей, которые могут противоречить друг другу, вам необходимо оптимизировать и найти идеальный баланс усилий. Точность измерений также имеет решающее значение, и создание классификационной таблицы может помочь определить точность тестов, включая чувствительность, специфичность, положительную прогностическую ценность и отрицательную прогностическую ценность. Эти метрики по-разному определяют точность, например, измеряя, срабатывает ли сигнал тревоги во время пожара или правильно ли сигнал тревоги идентифицирует отсутствие пожара.

  • 01:50:00 Преподаватель подчеркивает важность понимания социального контекста измерения при поиске данных. У людей есть свои цели и чувства, которые влияют на точность измерения. Организации имеют свои собственные бизнес-модели, законы, политику и культурные обычаи, которые ограничивают способы достижения целей. Существует конкуренция как между организациями, так и внутри организации, и люди склонны манипулировать системами вознаграждения в своих интересах. Несмотря на эти проблемы, по-прежнему можно получить хорошие показатели с помощью источников данных, особенно с использованием существующих данных, таких как внутренние, открытые и сторонние данные.

  • 01:55:00 Докладчик рассказывает о различных типах источников данных, доступных для проектов по науке о данных. Внутренние данные можно быстро и легко использовать, но их может не быть, может отсутствовать документация, а качество может быть сомнительным. Открытые источники данных, такие как data.gov, предоставляют свободно доступные и хорошо задокументированные стандартизированные данные, но они могут иметь необъективные выборки и проблемы с конфиденциальностью. Третий вариант — это данные как услуга или брокеры данных, такие как Acxiom и Nielsen, которые предоставляют огромное количество данных по различным темам, включая поведение и предпочтения потребителей, маркетинг, идентичность и финансы, но за определенную плату.

Часть 3

  • 02:00:00 Спикер обсуждает преимущества и недостатки использования брокеров данных в качестве источника данных. Хотя данные индивидуального уровня могут быть получены от брокеров данных, что упрощает доступ к конкретной информации о потребителях, это может быть дорого, и по-прежнему требуется проверка. В качестве альтернативы API-интерфейсы предоставляют цифровой способ получения веб-данных, позволяя программам взаимодействовать друг с другом и извлекать данные в формате JSON. API-интерфейсы REST не зависят от языка, что позволяет легко интегрироваться в различные языки программирования, при этом распространенными формами являются API-интерфейсы Visual и Social API. Докладчик демонстрирует использование API в RStudio для получения исторических данных об автомобильных гонках Формулы-1 с сайта Ergast.com.

  • 02:05:00 Спикер обсуждает использование API и парсинг для получения данных для науки о данных. API — это быстрый и простой способ работы со структурированными данными с веб-страниц, которые можно напрямую передавать в программы для анализа. Скрапинг, с другой стороны, включает в себя извлечение информации с веб-страниц, когда данные недоступны в структурированных форматах. Тем не менее, спикер предупреждает пользователей, чтобы они помнили об авторских правах и проблемах конфиденциальности, связанных с просмотром веб-страниц. Такие приложения, как import.io и ScraperWiki, можно использовать для парсинга веб-страниц, но пользователи также могут создавать свои собственные парсеры, используя такие языки, как R, Python или Bash. При очистке текста или таблиц HTML теги HTML используются для идентификации важной информации.

  • 02:10:00 Спикер объясняет, как извлекать данные из разных источников, и упоминает, что если данные, необходимые для анализа, не имеют существующего API, парсинг может быть полезным методом. Тем не менее, нужно помнить о вопросах, связанных с авторским правом и конфиденциальностью. Далее спикер обсуждает, как создавать новые данные, и предлагает такие стратегии, как интервью, опросы, сортировка карточек, лабораторные эксперименты и A/B-тестирование. Методы различаются в зависимости от роли, которую играет человек, от того, нужны ли ему количественные или качественные данные, и от того, как они собираются получить данные.

  • 02:15:00 Основное внимание уделяется двум методам получения данных: интервью и опросы. Интервью эффективны для новых ситуаций или аудиторий, поскольку они предоставляют открытую информацию, не ограничивая ответы. Структурированные интервью включают заранее определенный набор вопросов, в то время как неструктурированные интервью напоминают беседы, в которых вопросы возникают в ответ на ответы. Интервью требуют специальной подготовки и анализа для извлечения качественных данных. С другой стороны, опросы легко настроить и разослать большим группам людей, но они требуют хорошего понимания диапазона ответов, размеров и категорий целевой аудитории. Опросы могут быть закрытыми, с заранее определенными вариантами, или открытыми, с ответами в произвольной форме. Использование таких программ, как SurveyMonkey или Google Forms, может упростить этот процесс. Однако неоднозначный или нагруженный вопрос может поставить под угрозу надежность опроса.

  • 02:20:00 В видео обсуждается использование опросов и предупреждается о возможности предвзятости и push-опросов, которые представляют собой предвзятые попытки сбора данных. В видео подчеркивается важность четкой и недвусмысленной формулировки вопросов, вариантов ответа и выбора выборки для обеспечения репрезентативных результатов. Видео также знакомит с концепцией сортировки карточек, которая представляет собой метод построения ментальной модели ментальных структур людей, позволяющий увидеть, как люди интуитивно организуют информацию. Процесс включает в себя создание карточек с разными темами, которые затем сортируются в похожие группы. Полученные данные о несходстве можно использовать для визуального представления всей совокупности сходства или несходства между отдельными фрагментами информации. Видео рекомендует использовать инструменты сортировки цифровых карт, чтобы упростить процесс.

  • 02:25:00 В видео рассказывается о лабораторных экспериментах по поиску данных, которые используются для определения причинно-следственных связей в исследованиях. Лабораторные эксперименты основаны на гипотезах и направлены на проверку одного варианта за раз и требуют случайного распределения, чтобы сбалансировать ранее существовавшие различия между группами. Лабораторный эксперимент является дорогостоящим, трудоемким и требует обширной специализированной подготовки. Тем не менее, он считается золотым стандартом для получения надежной информации о причине и следствии. Кроме того, A/B-тестирование выделяется как полезная техника для веб-дизайна и определения того, какой элемент веб-сайта наиболее эффективен для пользователей.

  • 02:30:00 В видео обсуждается A/B-тестирование, которое представляет собой вариант экспериментирования с веб-сайтом, используемого для оптимизации дизайна веб-сайта для получения различных результатов, таких как процент откликов, ценность корзины покупок или оставление. A/B-тестирование — это онлайн-процесс, который позволяет проводить непрерывную оценку, тестирование и разработку с помощью программного обеспечения, такого как Optimizely или VWO. Видео также подчеркивает важность знания правильного места инструментов данных в науке о данных и напоминает зрителям о необходимости изучения открытых источников данных, поставщиков данных и рассмотрения возможности создания новых данных, когда это необходимо. Наконец, видео охватывает некоторые важные инструменты обработки данных, в том числе электронные таблицы, Tableau для визуализации данных, язык программирования R, Python, SQL, а также другие языки программирования, такие как C, C++ и Java, которые составляют основу науки о данных. .

  • 02:35:00 Основное внимание уделяется принципу Парето или правилу 80/20. Этот принцип предполагает, что 80 % результата приходится на 20 % инструментов, следовательно, не обязательно изучать все доступные инструменты и способы ведения дел. Вместо этого предлагается сосредоточиться на наиболее продуктивных и полезных инструментах для ведения собственных проектов по науке о данных. Электронные таблицы, в частности, важны, поскольку они широко используются и обеспечивают общий формат для легко передаваемых наборов данных. Они также просты в использовании и позволяют просматривать данные, сортировать и переупорядочивать. На самом деле Excel занимает пятое место в опросе экспертов по интеллектуальному анализу данных, опережая более продвинутые инструменты, такие как Hadoop и Spark.

  • 02:40:00 Преподаватель объясняет важность электронных таблиц в науке о данных, выделяя их различные области применения, такие как поиск и замена, форматирование, отслеживание изменений и создание сводных таблиц. Однако инструктор также подчеркивает необходимость аккуратных данных или хорошо отформатированных данных со столбцами, представляющими переменные, и строками, представляющими случаи, чтобы легко перемещать данные из одной программы или языка в другую. Затем инструктор демонстрирует, как упорядочить данные в Excel, и подчеркивает важность использования инструментов визуализации, таких как Tableau и Tableau Public, для эффективного анализа данных.

  • 02:45:00 Преподаватель представляет Tableau Public, бесплатную версию программного обеспечения Tableau, но с одной важной оговоркой: вы не можете сохранять файлы локально на свой компьютер. Вместо этого он сохраняет их публично в Интернете. Преподаватель покажет, как загрузить и установить программное обеспечение, а также создать учетную запись для сохранения своей работы в Интернете. Затем они пройдут процедуру импорта файла Excel и создания базового графика с помощью интерфейса перетаскивания. Преподаватель показывает, как разбить продажи по товарам и времени и скорректировать временные рамки до трех месяцев. Затем они показывают, как преобразовать диаграмму в график, демонстрируя гибкость и простоту использования Tableau Public.

  • 02:50:00 Видеоруководство представляет Tableau, инструмент, используемый для создания интерактивных визуализаций, которые позволяют пользователям манипулировать данными и анализировать их. В видео пошагово показано, как использовать Tableau для организации данных, добавления цветов к графикам и создания средних линий и прогнозов. После демонстрации того, как сохранять файлы в Tableau Public, видео рекомендует пользователям потратить некоторое время на изучение инструмента и создание привлекательных визуализаций, которые могут предоставить полезную информацию из их данных. Кроме того, в учебнике кратко описывается SPSS, статистический пакет, который изначально был создан для исследований в области социальных наук, но теперь используется во многих академических и бизнес-приложениях.

  • 02:55:00 В видео обсуждается SPSS, программа, которая выглядит как электронная таблица, но имеет выпадающие меню, чтобы сделать жизнь пользователей немного проще по сравнению с некоторыми языками программирования, которые они могут использовать. Когда пользователи открывают SPSS, им предоставляется основной интерфейс, очень похожий на электронную таблицу, и отдельная панель для просмотра переменной информации. Пользователи могут получить доступ к примерам наборов данных в SPSS, но до них нелегко добраться, и они хорошо спрятаны. SPSS позволяет пользователям выполнять анализ методом «наведи и щелкни», что может быть необычно для многих вещей. Видео демонстрирует это, создавая гистограмму цен на жилье и таблицу, содержащую диаграмму ствола и листьев, а также блочную диаграмму. Наконец, в видео подчеркивается, что SPSS имеет тенденцию быть очень медленным при открытии и может привести к сбою, поэтому пользователям следует постоянно сохранять свою работу и быть терпеливыми, когда придет время открывать программу.
 

Учебное пособие по науке о данных — полный курс изучения науки о данных [2020]  (описание частей 4-6)


Учебное пособие по науке о данных — полный курс изучения науки о данных [2020]

Часть 4
  • 03:00:00 Преподаватель обсуждает различные программы, которые можно использовать для анализа данных, включая SPSS и JASP. Хотя SPSS является широко используемой программой, в которой есть как раскрывающиеся меню, так и текстовые синтаксические команды, инструктор также представляет JASP как новую бесплатную программу с открытым исходным кодом, включающую байесовские подходы. Видео показывает, как использовать JASP для проведения различных статистических анализов, и представляет его удобный интерфейс как отличную альтернативу SPSS.

  • 03:05:00 Докладчик представляет JASP, бесплатное программное обеспечение с открытым исходным кодом, которое обеспечивает простой и интуитивно понятный способ проведения статистического анализа, создания визуализаций и обмена результатами в Интернете через веб-сайт открытой научной структуры OSF. Докладчик демонстрирует, как JASP позволяет пользователям модифицировать статистические анализы, вызывая команды, которые их производят, и делясь ими с другими, обеспечивая совместную замену SPSS. Кроме того, докладчик кратко обсуждает другие распространенные варианты программного обеспечения для анализа данных, такие как SAS и Tableau, но отмечает, что многочисленные варианты могут быть огромными.

  • 03:10:00 Спикер обсуждает различные варианты программного обеспечения для анализа данных, из которых пользователи могут выбирать, в том числе некоторые бесплатные и некоторые дорогие инструменты. В то время как некоторые программы предназначены для общей статистики, а другие — для более конкретных приложений интеллектуального анализа данных, спикер советует пользователям учитывать их функциональность, простоту использования, поддержку сообщества и стоимость при выборе программы, которая лучше всего соответствует их потребностям и требованиям. Вместо того, чтобы пробовать каждый вариант программного обеспечения, пользователи могут сосредоточиться на одном или двух инструментах, которые помогут им извлечь максимальную пользу из своих проектов по анализу данных.

  • 03:15:00 Преподаватель подчеркивает важность понимания HTML при работе с веб-данными. HTML — это то, что составляет структуру и содержимое веб-страниц, и возможность навигации по тегам и структуре имеет решающее значение при извлечении данных для проектов по науке о данных. Преподаватель приводит пример тегов HTML и того, как они определяют структуру и содержимое страницы. Кроме того, инструктор затрагивает XML, который расшифровывается как расширяемый язык разметки и используется для определения данных, чтобы компьютеры могли их читать. Файлы XML обычно используются в веб-данных и даже используются для создания файлов Microsoft Office и библиотек iTunes.

  • 03:20:00 В видео обсуждается XML (расширяемый язык разметки) и его использование для полуструктурированных данных. XML использует теги, определяющие данные, и эти теги можно создавать и определять по мере необходимости. В видео также показан пример отображения набора данных из API ergast.com в формате XML, а также показано, как легко преобразовать XML в другие форматы, такие как CSV или HTML, и наоборот. JSON (нотация объектов JavaScript) также представлен как полуструктурированный формат данных, похожий на XML, где каждая часть информации определяется тегами, которые свободно варьируются.

  • 03:25:00 В учебнике обсуждаются различия между форматами XML и JSON. Оба формата используют теги для обозначения информации, но XML используется для хранения данных и имеет возможность включать комментарии и метаданные в теги. Напротив, JSON предназначен для обмена данными и использует структуру, представляющую объекты и массивы. JSON заменяет XML в качестве контейнера для данных на веб-страницах из-за его более компактного характера и гораздо более простого преобразования между форматами. В учебнике также отмечается, что R является основным языком кодирования для науки о данных из-за его бесплатного характера и открытого исходного кода, и он специально разработан для векторных операций.

  • 03:30:00 Спикер рассказывает о преимуществах использования R в науке о данных, в том числе о сильной поддержке сообщества, огромном выборе пакетов, расширяющих его возможности, и о выборе интерфейсов для кодирования и получения результатов. Хотя поначалу программировать через командную строку может быть пугающе, прозрачность и доступность R делают его выгодным для воспроизводимости. Спикер также упоминает альтернативный интерфейс Crantastic!, который ссылается на CRAN, чтобы показать популярность и последние обновления, что позволяет получать самые последние и лучшие пакеты для обработки данных. Кроме того, спикер обсуждает Python, язык программирования общего назначения, который можно использовать для любых приложений и который является единственным языком общего назначения в списке программного обеспечения, используемого экспертами по интеллектуальному анализу данных.

  • 03:35:00 Рассказчик обсуждает язык программирования Python и его полезность для науки о данных. Python прост в использовании и имеет обширное сообщество с тысячами пакетов, доступных для использования, особенно для работы, связанной с данными. Существует две версии Python, 2.x и 3.x, но рассказчик рекомендует использовать 2.x, потому что многие пакеты обработки данных разрабатываются с учетом этого. Python имеет различные доступные для использования интерфейсы, в том числе IDLE и Jupyter, которые основаны на браузере и являются популярным выбором для работы с данными из-за его способности включать форматирование Markdown, вывод текста и встроенную графику. Для Python доступно множество пакетов, в том числе NumPy, SciPy, Matplotlib, Seaborn, Pandas и scikit-learn, все из которых рассказчик планирует использовать при демонстрации возможностей Python для обработки данных на практических примерах.

  • 03:40:00 Спикер обсуждает полезность SQL как языка для науки о данных. Он отмечает, что SQL в основном используется для реляционных баз данных, которые обеспечивают эффективное и хорошо структурированное хранение данных и являются эффективным инструментом, который существует уже некоторое время. Докладчик также объясняет, что существует всего несколько основных команд, необходимых для получения того, что вам нужно от базы данных SQL. После организации данные обычно экспортируются в другую программу для анализа. Кроме того, существует несколько распространенных систем управления реляционными базами данных, включая базу данных Oracle и Microsoft SQL Server (промышленный мир), а также MySQL и PostgreSQL (мир с открытым исходным кодом). Докладчик также коснулся преимуществ графических пользовательских интерфейсов по сравнению с текстовыми интерфейсами.

  • 03:45:00 Обсуждаются основополагающие языки науки о данных, C, C++ и Java. C и C++ известны своей скоростью и надежностью, что делает их хорошо подходящими для написания кода на уровне производства и использования на сервере. Java, с другой стороны, известен своей мобильностью и является самым популярным языком программирования в целом. Хотя аналитики обычно не работают с этими языками, они составляют основу науки о данных и используются инженерами и разработчиками программного обеспечения. Дополнительно Bash упоминается как пример старого, но до сих пор активно используемого инструмента для взаимодействия с компьютерами через интерфейс командной строки.

  • 03:50:00 Инструктор объясняет, что хотя утилиты Bash созданы для конкретных задач, они могут многое сделать и с ними легко работать. Встроенные утилиты включают «cat», «awk», «grep», «sed», «head», «tail», «sort», «uniq», «wc» и «printf». Также доступны устанавливаемые утилиты командной строки, в том числе «jq» и «json2csv», которые работают с данными JSON, а также «Rio» и «BigMLer», которые обеспечивают доступ к командной строке для программирования R или серверов машинного обучения. Преподаватель подчеркивает, что регулярное выражение (регулярное выражение) — это мощный способ поиска определенных шаблонов в тексте и данных, говоря, что после определения шаблона вы можете экспортировать его в другую программу для дальнейшего анализа.

  • 03:55:00 В видеоруководстве объясняются регулярные выражения или регулярные выражения, которые помогают специалистам по данным находить нужные данные для своих проектов путем поиска определенных элементов в целевой строке. Регулярные выражения состоят из литералов, метасимволов и escape-последовательностей, и пользователи могут использовать их для поиска шаблонов данных путем объединения элементов. Интересным способом изучения регулярных выражений является игра в Regex Golf, где пользователи пишут выражение регулярного выражения, которое соответствует всем словам в левом столбце и ни одному из слов в правом, используя наименьшее возможное количество символов. Учебник завершается рекомендацией инструментов обработки данных, включая Excel, Tableau, R, Python, Bash и regex, для всех, кто интересуется практикой науки о данных, но отмечает, что наука о данных — это больше, чем просто знание инструментов, поскольку они являются лишь частью гораздо большее усилие.

Часть 5

  • 04:00:00 Подчеркивается важность хорошего понимания математики в науке о данных. Во-первых, математика позволяет узнать, какие процедуры использовать и почему. Во-вторых, твердое понимание математики помогает диагностировать проблемы и знать, что делать, когда что-то идет не так. Наконец, некоторые математические процедуры проще и быстрее выполнить вручную. Видео охватывает несколько областей математики, которые имеют значение в науке о данных, включая элементарную алгебру, линейную алгебру, системы линейных уравнений, исчисление, большой O или порядок, теорию вероятностей и теорему Байеса. Хотя некоторые люди могут находить математику пугающей, это важный инструмент, который может помочь извлечь смысл из данных, чтобы сделать осознанный выбор.

  • 04:05:00 Нам нужна прочная математическая база. Сюда входят такие темы, как алгебра и линейная алгебра. Алгебра помогает нам объединить несколько оценок и получить один результат. С другой стороны, линейная алгебра или матричная алгебра имеет дело с матрицами, которые состоят из множества строк и столбцов чисел. Машины любят матрицы, поскольку они обеспечивают эффективный способ организации и обработки данных. Понимание линейной алгебры имеет важное значение, поскольку оно помогает нам моделировать и решать сложные проблемы в науке о данных.

  • 04:10:00 Докладчик объясняет, как линейная алгебра и матричная алгебра используются в науке о данных для представления и обработки больших коллекций чисел и коэффициентов. Использование выделенных жирным шрифтом переменных в матричных обозначениях обеспечивает сверхкомпактное представление данных, которые можно использовать для прогнозирования значений. Кроме того, спикер раскрывает концепцию решения систем линейных уравнений и демонстрирует, как ее использовать на примере расчета продаж и выручки гипотетической компании, продающей чехлы для iPhone. Решение систем линейных уравнений можно выполнять вручную или с помощью линейной матричной алгебры, и оба метода можно использовать для решения нескольких взаимосвязанных неизвестных.

  • 04:15:00 Ведущий демонстрирует, как решить систему линейных уравнений с помощью алгебры и построения графиков. Они используют пример задачи, чтобы показать, как найти уникальные решения, изолируя переменные и выполняя простые вычисления. Пересечение двух линий на графике представляет собой решение уравнений. Затем видео переходит к обсуждению исчисления, которое является основой для многих процедур, используемых в науке о данных, особенно для анализа величин, которые меняются со временем. Объясняются два типа исчисления, дифференциальное и интегральное, и дифференциальное исчисление демонстрируется графически.

  • 04:20:00 В видео обсуждается взаимосвязь между вычислениями и оптимизацией в практической науке о данных. Наклон кривой в определенной точке можно найти с помощью исчисления, что важно при принятии решений, которые максимизируют или минимизируют результаты. В видео показан пример ценообразования для службы онлайн-знакомств, где можно использовать расчет для определения оптимальной цены, которая максимизирует доход. Найдя продажи как функцию цены и используя производную, можно найти максимальный доход, найдя цену, которая соответствует максимальному наклону.

  • 04:25:00 Спикер объясняет, как с помощью вычислений найти максимальный доход для гипотетического продукта. Первый шаг — рассчитать продажи как функцию цены и получить наклон линии, равный -0,6. Затем это уравнение превращается в доход, который можно рассчитать как 480-кратное значение цены минус 0,6-кратное значение цены. Производная от этого уравнения используется для нахождения максимального дохода, который составляет 400 долларов США при общем количестве 240 новых подписок в неделю, в результате чего годовой доход составляет 96 000 долларов США. Это по сравнению с текущим доходом в 90 000 долларов в год по цене 500 долларов в год и 180 новых подписок в неделю.

  • 04:30:00 В видео обсуждается концепция нотации Big O и ее связь со скоростью операций. Большой O показывает скорость, с которой вещи растут по мере увеличения количества элементов, и могут быть удивительные различия в скорости роста. Видео объясняет несколько типов темпов роста, таких как O1, логарифмический, линейный, логарифмический, квадратичный, экспоненциальный и факториальный, с примерами каждого из них. Кроме того, в ролике отмечается, что некоторые функции более вариативны, чем другие, что влияет на скорость выполнения операций. Таким образом, понимание большого O важно для принятия обоснованных решений по оптимизации операций и повышению эффективности.

  • 04:35:00 Докладчик обсуждает важность знания различных видов и методов сортировки данных, а также то, как они различаются по скорости и эффективности, особенно с точки зрения требований, которые они предъявляют к дисковому пространству и памяти компьютера. Помнить об этих требованиях крайне важно для эффективного использования времени и получения ценной информации в области науки о данных. В этом разделе также представлены фундаментальные принципы вероятности, которые играют жизненно важную роль в математике и науке о данных. Вероятности варьируются от нуля до ста процентов, поскольку они рассчитываются из вероятностного пространства, включающего все возможные исходы. Дополнение вероятности представлено символом тильды, а условные вероятности используются для определения вероятности события при условии, что произошло другое событие.

  • 04:40:00 Спикер обсуждает вероятность и объясняет, как рассчитать совместные вероятности с помощью правила умножения. Они используют выборочное пространство различных форм, чтобы продемонстрировать, как рассчитать вероятность того, что что-то будет квадратным или красным (что составляет 60%), а также вероятность того, что что-то будет и квадратным, и красным (что составляет 10%). Они объясняют, как вероятности не всегда могут быть интуитивными и как условные вероятности могут быть полезны, но могут работать не так, как вы ожидаете. Наконец, они вводят теорему Байеса, которая представляет собой способ расчета вероятности гипотезы с учетом данных, и объясняют, чем она отличается от традиционной проверки на основе вывода.

  • 04:45:00 Преподаватель демонстрирует пример расчета апостериорной вероятности с использованием Общего рецепта, который сочетает в себе априорные вероятности, вероятность данных и вероятность данных. В примере используется медицинское состояние и тест, который имеет 90% -ную вероятность обнаружения для тех, у кого есть заболевание, но также 10% ложноположительных результатов. Инструктор объясняет, как рассчитать вероятность заболевания при положительном результате теста, который на самом деле составляет всего 81,6%. Пример подчеркивает важность понимания точности и ограничений тестов, а также того, как изменения в априорных вероятностях могут повлиять на апостериорные вероятности.

  • 04:50:00 Объясняется концепция теоремы Байеса и почему она важна в науке о данных. Теорема Байеса может помочь ответить на вопросы и дать точные вероятности в зависимости от базовой скорости измеряемой вещи, например, вероятность заболевания при положительном результате теста. Также рекомендуется, чтобы специалисты по данным хорошо разбирались в математических принципах, таких как алгебра, исчисление и вероятность, чтобы выбрать соответствующие процедуры для анализа и диагностики проблем, которые могут возникнуть. Статистика также играет решающую роль в науке о данных, поскольку она помогает обобщать и обобщать данные, но анализ всегда зависит от целей проекта и общих знаний.

  • 04:55:00 Подчеркивается важность статистики в науке о данных как инструмента, используемого для обобщения и обобщения данных. Однако подчеркивается, что однозначного ответа не существует, и обобщение предполагает работу с выводной статистикой с учетом ограничений статистических моделей. Модели предназначены для определенной цели и представляют собой сводки, которые часто полезны, но не совсем точны. Затем обсуждается исследование данных с акцентом на использование графических методов перед числовым исследованием и важность уделения пристального внимания данным. Цель исследования — помочь понять набор данных перед построением статистических моделей.

Часть 6

  • 05:00:00 Подчеркнута важность начала работы с графикой в науке о данных. Используя графику, можно получить представление о данных, проверить наличие аномалий и проанализировать переменные. Предлагаются различные типы графиков, в том числе гистограммы, ящичные диаграммы и диаграммы рассеяния, которые можно использовать в зависимости от типа анализируемой переменной. Кроме того, также обсуждаются многовариантные распределения и отмечается, что к использованию трехмерной графики следует подходить с осторожностью.

  • 05:05:00 Спикер обсуждает ограничения 3D-графики и преимущества использования вместо нее матрицы графиков. Докладчик объясняет, что, хотя 3D-графика может быть полезна для поиска кластеров в 3-х измерениях, ее, как правило, трудно читать и она сбивает с толку. С другой стороны, матрица графиков упрощает чтение диаграммы и обеспечивает многомерное отображение. Докладчик подчеркивает важность графического исследования данных как важного первого шага в изучении данных и предлагает использовать быстрые и простые методы, такие как гистограммы и диаграммы рассеяния. Второй шаг включает в себя исследовательскую статистику или численное исследование данных, которое включает надежную статистику, повторную выборку данных и преобразование данных.

  • 05:10:00 Докладчик обсуждает принципы робастной статистики, повторной выборки и преобразования переменных. Они объясняют, как повторная выборка позволяет эмпирически оценить изменчивость выборки, и упоминают различные методы, такие как складной нож, бутстрап и перестановка. Спикер также представляет лестницу полномочий Тьюки, которая представляет собой способ преобразования переменных и исправления асимметрии и других проблем. Затем они объясняют, как описательная статистика может помочь рассказать историю о данных, используя несколько чисел для представления большего набора данных. Докладчик обсуждает различные меры центра или местоположения распределения, такие как мода, медиана и среднее значение.

  • 05:15:00 Докладчик обсуждает меры, используемые для описания разброса набора данных, включая диапазон, процентили, межквартильный диапазон, дисперсию и стандартное отклонение. Диапазон — это просто разница между самой высокой и самой низкой оценкой в наборе данных, а межквартильный диапазон — это расстояние между оценками в первой и третьей квартилях. Дисперсия — это среднеквадратичное отклонение от среднего значения набора данных, а стандартное отклонение — это квадратный корень из дисперсии. Докладчик также приводит примеры расчета каждой меры с использованием небольшого набора данных.

  • 05:20:00 Докладчик обсуждает различные меры центральной тенденции и изменчивости, включая диапазон, межквартильный диапазон (IQR), дисперсию и стандартное отклонение. Он объясняет, что, хотя диапазон легко рассчитать, на него могут повлиять выбросы. IQR часто используется для искаженных данных, поскольку он игнорирует крайности. Дисперсия и стандартное отклонение являются наименее интуитивными, но наиболее полезными, поскольку они используются во многих других процедурах в науке о данных. Выступающий также говорит о форме распределения, отмечая различные варианты, такие как симметричное, асимметричное, одномодальное, бимодальное и равномерное. Наконец, он вводит понятие статистики вывода, обсуждая разницу между популяциями и выборками и два основных подхода к выводу: тестирование и оценка.

  • 05:25:00 Докладчик представляет логическую статистику, которая включает в себя выборку данных из большей совокупности и поправку на ошибку выборки путем тестирования или оценки значений параметров. Основная проблема логической статистики заключается в изменчивости выборки, которая влияет на интерпретацию основной совокупности. Затем докладчик углубляется в проверку гипотез, которая используется в научных исследованиях, медицинской диагностике и других процессах принятия решений для проверки теорий и определения вероятности наблюдаемых различий, возникающих случайно. Используются два типа гипотез: нулевая гипотеза, предполагающая отсутствие систематического эффекта, и альтернативная гипотеза, предполагающая наличие такого эффекта. Раздел завершается обзором стандартного нормального распределения, используемого в статистическом анализе.

  • 05:30:00 Инструктор объясняет концепцию проверки гипотез и возможные подводные камни. Проверка гипотезы включает в себя вычисление z-показателей данных и принятие решения о том, следует ли сохранить нулевую гипотезу или отклонить ее. Однако этот процесс может привести к ложноположительным и ложноотрицательным результатам, которые обусловлены отклонением или не отклонением нулевой гипотезы соответственно. Преподаватель подчеркивает важность тщательного расчета ложноотрицательных результатов на основе нескольких элементов схемы тестирования. Несмотря на критику проверки гипотез, она остается очень полезной во многих областях. Преподаватель продолжает обсуждение оценки, которая предназначена для оценки параметра и по-прежнему является процедурой вывода. Доверительные интервалы - это распространенный подход к оценке, который фокусируется на вероятных значениях для значения генеральной совокупности.

  • 05:35:00 В видео обсуждаются доверительные интервалы и три основных этапа их оценки. Первым шагом является выбор уровня достоверности, обычно 95%, который дает диапазон вероятных значений. Второй шаг включает в себя компромисс между точностью и точностью. Видео демонстрирует разницу между точными и точными оценками, а идеальный сценарий — это тот, который и точен, и точен. Последним шагом является правильная интерпретация доверительного интервала. Статистически точная интерпретация заключается в том, чтобы указать интервал в форме предложения, в то время как разговорная интерпретация описывает вероятность того, что среднее значение населения находится в этом диапазоне. Видео завершается демонстрацией случайно сгенерированных данных, содержащих среднее значение генеральной совокупности и количество выборок, необходимых для включения истинного значения генеральной совокупности в доверительный интервал.

  • 05:40:00 Объясняются факторы, влияющие на ширину доверительного интервала, в том числе уровень достоверности, стандартное отклонение и размер выборки. В учебном пособии представлены графические примеры, показывающие, как каждый из факторов влияет на размер интервала и как изменчивость данных учитывается при оценке. Введен метод обычных наименьших квадратов (OLS), который является наиболее распространенным подходом, а также метод максимального правдоподобия (ML), метод выбора параметров, которые делают наблюдаемые данные наиболее вероятными. Подчеркнута разница между этими двумя методами: OLS действует как лучшая линейная несмещенная оценка, а ML работает как своего рода локальный поиск.

  • 05:45:00 Преподаватель объясняет три распространенных метода оценки параметров генеральной совокупности, в том числе метод наименьших квадратов (OLS), метод максимального правдоподобия (ML) и апостериорный максимум (MAP), а также то, как все три метода связаны друг с другом. Затем инструктор обсуждает различные меры соответствия для соответствия между данными и созданной моделью, включая R2, скорректированный R2, -2LL, AIC, BIC и хи-квадрат, а также их вариации, которые помогают выбрать лучшие модели для данных и уменьшить эффект переобучения.

  • 05:50:00 В видео обсуждается выбор функций и то, как он используется для выбора лучших функций или переменных, избавления от неинформативных или зашумленных переменных и упрощения создаваемой статистической модели, чтобы избежать переобучения. Основной проблемой выбора признаков является мультиколлинеарность, возникающая из-за перекрытия предикторов и переменной результата. В видео объясняются различные способы работы с мультиколлинеарностью, такие как значения вероятности, стандартизированные коэффициенты и варианты последовательной регрессии. Однако полагаться на p-значения может быть проблематично, так как это увеличивает количество ложных срабатываний, а пошаговые процедуры резко увеличивают риск переобучения. Для решения этих проблем доступны новые методы, такие как анализ общности, анализ доминирования и весовые коэффициенты относительной важности.

  • 05:55:00 Докладчик обсуждает распространенные проблемы моделирования, включая ненормальность, нелинейность, мультиколлинеарность и недостающие данные. Ненормальность и нелинейность могут искажать измерения и модели, поскольку они предполагают симметрию и одномодальный характер нормального распределения и прямолинейной зависимости соответственно. Мультиколлинеарность может повлиять на коэффициенты в модели в целом, и способ решения этой проблемы может заключаться в использовании меньшего количества переменных или в опоре на опыт предметной области. Проблема комбинаторного взрыва возникает, когда комбинации переменных или категорий растут слишком быстро для анализа.

  • 06:00:00 В видео обсуждаются проблемы, связанные с комбинаторным взрывом, проклятием размерности и недостающими данными в науке о данных. Чтобы решить первую проблему, можно положиться на теорию или использовать подход, основанный на данных, такой как модель Монте-Карло с цепью Маркова, чтобы исследовать диапазон возможностей. Чтобы справиться с проклятием размерности, можно уменьшить размерность данных, спроецировав их в пространство меньшего размера. Наконец, проблема отсутствующих данных может привести к систематической ошибке и искажению анализа, и ее можно решить путем проверки шаблонов, создания новых переменных и вменения отсутствующих значений с использованием различных методов. Также обсуждается проверка модели, и в видеоролике представлены несколько общих способов ее достижения, включая байесовский подход, репликацию, контрольную проверку и перекрестную проверку.

  • 06:05:00 Докладчик обсуждает различные методы проверки статистических моделей, такие как проверка задержек, перекрестная проверка и проверка по исключению. Он подчеркивает важность проверки того, насколько хорошо разработанная статистическая модель работает в различных ситуациях, поскольку это поможет проверить достоверность их анализа и рассуждений, а также укрепить уверенность в полезности их результатов. Он также подчеркивает, что начинающие должны учитывать менталитет DIY (сделай сам), когда начинают заниматься наукой о данных, потому что простые инструменты, такие как R и Python, могут помочь начать, и не нужно ждать, пока начнутся передовые разработки. Наконец, он предупреждает слушателей остерегаться троллей в области науки о данных, поскольку есть критики, которые могут ошибаться и пугать, но каждый анализ имеет ценность, и нужно внимательно слушать и быть целенаправленным, опасаясь вероятностей.

  • 06:10:00 Спикер завершает курс «Статистика и наука о данных», побуждая учащихся продолжать изучение и анализ данных для улучшения своих навыков. Спикер рекомендует учащимся пройти дополнительные курсы, в том числе концептуальные курсы по машинному обучению и визуализации данных, а также практические курсы по статистическим процедурам на таких языках программирования, как R, Python и SPSS. Спикер также подчеркивает важность предметной экспертизы в науке о данных, в дополнение к навыкам кодирования и количественного анализа. В конечном счете, спикер советует учащимся «просто начать» и не беспокоиться о совершенстве, поскольку всегда есть возможности для совершенствования.
 

Свертки в глубоком обучении — интерактивное демонстрационное приложение



Свертки в глубоком обучении — интерактивное демонстрационное приложение

Добро пожаловать в демонстрацию Steeplezer с Мэнди. В этом эпизоде мы рассмотрим интерактивное демонстрационное приложение свертки на deeplister.com, чтобы улучшить наше понимание операций свертки, используемых в нейронных сетях.

Операции свертки являются важными компонентами сверточных нейронных сетей для отображения входных данных на выходные с использованием фильтров и скользящего окна. У нас есть специальный эпизод, который объясняет операцию свертки и ее роль в нейронных сетях для более глубокого понимания. Теперь давайте сосредоточимся на том, как мы можем использовать демонстрационное приложение интерактивной свертки на deeplister.com, чтобы углубить наше понимание этой операции. На странице приложения мы сначала видим верхнюю часть, а позже мы прокручиваем вниз, чтобы просмотреть нижнюю часть. Демонстрационное приложение позволяет нам наблюдать операцию свертки в действии на заданном входе и наблюдать, как получается результат. У нас есть несколько вариантов для работы в демоверсии. Во-первых, мы можем переключаться между полноэкранным режимом. Во-вторых, мы можем выбрать набор данных и выбрать цифру, с которой мы хотим работать, в диапазоне от 0 до 9, поскольку мы используем MNIST.

В сверточных слоях нейронных сетей значения фильтров изучаются в процессе обучения для обнаружения различных шаблонов, таких как края, формы или текстуры. В этой демонстрации мы можем выбирать из различных наборов фильтров, таких как краевые фильтры, для наблюдения за примерами сверток. В нашем первом примере мы выберем фильтр левого края, чтобы применить его к изображению цифры 9 из набора данных MNIST. Настроив эти параметры, мы готовы приступить к демонстрации. Отображается входное изображение цифры 9, где каждый маленький квадрат представляет собой пиксель и его значение. Мы фокусируемся на блоке пикселей 3x3 и выбранном фильтре левого края. Операция свертки включает в себя поэлементное умножение входных значений и значений фильтра с последующим суммированием для получения окончательного результата.

Наводя курсор на каждый пиксель, мы можем наблюдать умножение, происходящее между входными значениями и значениями фильтра. После суммирования всех продуктов мы сохраняем результат внизу, представляя все изображение после свертки. Нажав кнопку шага, мы перемещаем входной блок на один пиксель вправо (шаг 1) и снова выполняем операцию свертки. Этот процесс продолжается до тех пор, пока мы не достигнем конечного результата. Мы также можем воспроизвести демонстрацию, чтобы автоматизировать эти операции, и приостановить ее, чтобы проверить определенные пиксели.

Выходные данные представляют положительные активации в виде оранжевых или красных пикселей, указывая на левые края, обнаруженные фильтром. Отрицательные активации показаны синими пикселями, представляющими правые края. Функция активации значения обычно применяется к выходным данным свертки, сохраняя положительные значения и устанавливая отрицательные значения в ноль. Наводя курсор на выходные значения, мы можем сопоставить их с соответствующими входными значениями и значениями фильтра. Результирующий результат представляет собой набор положительных активаций, представляющих левые ребра. Мы можем воспроизвести оставшуюся часть демо, чтобы увидеть окончательный результат. Чтобы продемонстрировать противоположный эффект, мы переключаемся на фильтр правого края, что приводит к тому же результату с заменой положительных и отрицательных пикселей.

В качестве другого примера мы переключаемся на набор данных Fashion MNIST и выбираем изображение футболки. Применяя фильтр «верхнего» края, мы можем наблюдать обнаружение верхнего и нижнего края.

Не стесняйтесь исследовать различные примеры в демонстрации на deeplister.com, чтобы углубить свое понимание операций свертки. Благодарим за просмотр и рекомендуем посетить наш второй канал «Влог Blizzard» на YouTube, где можно найти больше контента. Не забудьте посетить beeplezer.com, чтобы найти соответствующую запись в блоге, и подумайте о присоединении к Deep Blizzard Hive Mind, чтобы получить эксклюзивные привилегии и награды.

 

Что такое глубокое обучение? (ДЛ 01)



Что такое глубокое обучение? (ДЛ 01)

Добро пожаловать в глубокое обучение! Меня зовут Брайс, и я рад помочь вам узнать об этой актуальной теме компьютерных наук. Глубокое обучение повсюду в нашей повседневной жизни. Алгоритмы, которые распознают ваше лицо, понимают вашу речь и рекомендуют контент на вашей любимой платформе, основаны на глубоком обучении.

Но что такое глубокое обучение? Он включает в себя использование нейронных сетей и дифференцируемого программирования для машинного обучения. Нейронные сети — это вычислительные модели, вдохновленные поведением нейронов в мозге. Они состоят из узлов, представляющих нейроны, и направленных ребер, представляющих связи между ними, причем каждое ребро имеет вес, указывающий на его силу. Нейроны могут суммировать взвешенные входные данные от своих соседей, чтобы определить, активируются ли они.

Машинное обучение, лежащее на стыке искусственного интеллекта и науки о данных, заключается в автоматическом выводе интеллектуальных выводов из данных. В отличие от традиционной компьютерной науки, где алгоритмы предназначены для непосредственного решения проблем, машинное обучение позволяет примерам данных определять входные и выходные данные задачи. Затем мы реализуем алгоритмы, которые выводят решение из набора данных.

Проблемы машинного обучения можно разделить на регрессию или классификацию. Регрессия включает в себя вывод функции, которая отображает непрерывные входные данные в непрерывные выходные данные, такие как линейная регрессия. Классификация, с другой стороны, присваивает входным точкам дискретные метки, такие как вывод границ решений.

Глубокое обучение позволяет решать сложные задачи, сочетающие аспекты регрессии и классификации. Например, распознавание объектов включает в себя изучение функции, которая принимает изображение в качестве входных данных и выводит ограничивающие рамки и метки для объектов на изображении.

Для обучения нейронной сети мы используем градиентный спуск — метод, который минимизирует функцию, следуя ее градиенту. Это требует дифференциации активаций нейронной сети. Функции активации, такие как ступенчатые функции, не подходят для дифференцирования, поэтому мы используем гладкие аппроксимации, такие как сигмовидная функция.

Принципы обучения нейронных сетей и дифференцируемого программирования выходят за рамки глубокого обучения. Мы можем думать о нейронах как о вычислительных простых программах, которые выполняют взвешенные суммы и применяют функции активации. Это приводит к концепции дифференцируемого программирования, где функции, которые можно математически оперировать и дифференцировать, могут быть включены в модели глубокого обучения.

В этом курсе мы начнем с простых нейронных сетей, чтобы понять основы машинного обучения и стохастического градиентного спуска. Мы будем постепенно добавлять сложность, исследуя глубокие нейронные сети и общее дифференцируемое программирование. Попутно мы попрактикуемся в использовании библиотек глубокого обучения, обсудим ограничения и недостатки и подготовим вас к разработке, применению, оценке и критике моделей глубокого обучения для решения реальных задач.

К концу семестра вы будете готовы решать интересные задачи с помощью глубокого обучения и будете иметь полное представление о его приложениях и последствиях.

Причина обращения: