Дейта сайнс. Что такое data science и как это работает? И когда этим начали пользоваться

Data Scientist в инфографике. Профессия свежая, высокооплачиваемая и на слуху. Но какими навыками должен обладать такой специалист? Рассмотрим.

Поговорим о навыках

Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.

Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.

Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:

Математике и статистике.
Предметной области и софте.
Программировании и БД.
Обмене данными и визуализации.

Рассмотрим каждый пункт подробнее.

Data Scientist и математическая статистика

Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.

1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.

2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.

3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.

4. Байесовский вывод способствует подправке вероятности гипотезы.

5. Контролируемое обучение:

деревья решений;
случайные леса;
логистическая регрессия.

6. Неконтролируемое обучение:

кластеризация;
уменьшение размерности.

7. Оптимизация: градиентный спуск и варианты.

Навыки в предметной области и софте

Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.

Перечень необходимых скиллов диковинный, но не менее полезный:

Программирование и базы данных

От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.

1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.

Data Science - очень трендовая тема. Специалиста в этой области, Data Scientist, уже назвали самой “сексуальной” профессией XXI века. Коллеги в SkillFactory нашли и собрали полезные статьи, мастер-классы и онлайн-курсы, которые помогут вам самостоятельно разобраться в этой теме и составить собственное впечатление.

Взрыв data science

Почему data science вызывает такой интерес? Основная причина - это скрытая эффективность, которая содержится в данных. Любая компания собирает данные. И их анализ позволяет делать более совершенные продукты, привлекать больше целевых клиентов и удерживать их, усовершенствовать бизнес-процессы и многое другое. Почему data science воспринимается как некая “волшебная пилюля”? Основной принцип состоит в том, что data science позволяет делать объективные выводы из имеющихся данных, свободные от предвзятости или предрассудков, свойственных для человека. Спрос со стороны бизнеса рождает и большой спрос на специалистов. Только в США в ближайшие три года ожидается нехватка порядка 190 тысяч специалистов по данным. Интерес соискателей также не заставил себя ждать:

Кто такой data scientist?

Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч. Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них - это математика, программирование, а также понимание бизнеса и стратегии.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) - работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. Разработчик BI (Business Intelligence Developer) - занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования. Инженер по данным (Data Engineer) - занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. Специалист по данным (Data Scientist) - занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.

Оригинал: http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

Введение в Data Science и Big Data

“Специалист по большим данным: где учиться и куда пойти работать”

В чем разница между Data Scientist и Data Engineer
Где учиться: курсы, магистерские программы и др.
Лайфхаки как найти работу

Введение в профессию Big Data от популярного сервиса Антирабство
Обзор всех профессий, связанных с Big Data
Какие навыки нужны для попадания в профессию

Подборка видео с неформальных встреч DataTalks на Youtube .

Организатор: компания Wargaming
Темы: как зарабатывать на данных и машинном обучении, визуализация данных
Спикеры: специалисты по анализу данных, бизнес-аналитики

“Как данные изменят бизнес” (TED)

Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
Спикер: вице-президент Boston Consulting Group Филип Эванс
Есть расшифровка лекции на русском

Кто и зачем создает искусственный интеллект?

Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
Очень занимательное и наглядное описание того, как развивался искусственный интеллект

Машинное обучение

Вторая лекция Байрама Аннакова
Типы машинного обучения и методов создания искусственного интеллекта
Множество кейсов и практических советов

Машинный интеллект и машинное обучение

Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
Увлекательное введение в тему с множеством ярких примеров

Нейросети: доступно о сложном

Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning

Подборка хороших курсов

Онлайн-курс “Машинное обучение и анализ данных”

Специализация Яндекса и МФТИ на Coursera на русском языке
Полное введение в data science и машинное обучение на базе Python
Теорию можно смотреть бесплатно, задания и сертификат - платные

Dataquest.io

Интерактивное пошаговое изучение Data Science с фокусом на Python
Обучение через практику: с самого начала работа с реальными данными и кодом
3 направления на выбор: Data Scientist, Data Analyst или Data Engineer

Datacamp

Интерактивный онлайн-курс по Data Science с фокусом на R
66 курсов по машинному обучению, анализу данных и статистике
Курс построен на решении практических задач

Анализ данных

Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
Срок обучения: 1 год. С лета 2017 - ускоренная программа (полгода)
Стоимость: 1999 рублей в месяц

Основы статистики

Бесплатное и ясное введение в математическую статистику для всех

Машинное обучение

Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
Этот курс можно считать индустриальным стандартом по введению в машинное обучение
Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)

Введение в машинное обучение

Курс от Яндекса и ВШЭ
Очень хорошее теоретическое введение в машинное обучение

Видеозаписи лекций Школы анализа данных Яндекса

Видеозаписи занятий легендарной Школы анализа данных Яндекса
Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.

“10 онлайн-курсов по машинному обучению”

Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”

Ведение в SQL

Один из немногих бесплатных онлайн-курсов по SQL на русском языке
Интерактивный курс построенный на практике для аналитиков, маркетологов и product-менеджеров
Необходимый минимум, все самые важные операторы включая JOIN, GROUP BY и др.

Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий

Включает соревнования, научный семинар, выставку

Strata+Hadoop World

Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
Все звезды и все новинки - здесь
Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие

Data Science Week

Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
Для профессионалов в области Big Data и новичков в этой сфере
Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов

Data Fest?

Ежегодная конференция по Data Science, проходящая раз в год в Москве
Для разработчиков, инженеров, исследователей
Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом

Open Data Science

Одно из самых крупных и живых сообществ по анализу данных в рунете
В основе - групповой чат Slack
Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а

Moscow Data Science

Группа, посвященная митапам по Data Science в Москве
Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений - все на тему Data Science
Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом

Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом.

О том, как приобщиться к этой профессии, рассказывает Александр Петров, CTO E-Contenta и руководитель математического курса GoTo Course.

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist - самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта , кто еще из пользователей сайта может оказаться его знакомым.

Убедив руководство LinkedIn опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила рейтинг 25 лучших вакансий в США кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute , к 2018 году в одних только понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

В России потребность в специалистах по работе с данными тоже растет , хотя на рынке их по-прежнему немного.

Неудивительно, что сегодня так много желающих освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Кто он, Data Scientist?

Вообще-то Data Scientist - профессия, окруженная разными мифами. В глазах одних Data Scientists - это подобие шаманов, способных из « добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать - умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist - это специалист, владеющий тремя группами навыков:

IT-грамотность - программирование, придумывание и решение алгоритмических задач, владение софтом;
Математические и статистические знания;
Содержательный опыт в какой-то области - понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий - аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

Сколько стоит специалист по данным

На сегодняшний день только треть спроса на Data Science специалистов может быть удовлетворена. Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области Data Mining или прогнозной аналитики, что ведёт к росту спроса и зарплат.

В США, согласно O’Reilly Media , уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше - в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.

Согласно исследовательскому центру рекрутингового портала Superjob, зарплатные предложения для специалистов без соответствующего опыта работы в Москве начинаются от 70 тысяч рублей, в Санкт-Петербурге - от 57 тысяч рублей.

Для следующего зарплатного уровня от соискателей потребуется наличие глубоких знаний методов статистического анализа данных, навыков построения математических моделей (нейронные сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.), а также опыт работы с большими массивами данных и умение выявлять закономерности. Для таких специалистов зарплата может достигать 110 тысяч рублей в Москве и 90 тысяч рублей в Петербурге.

Специалисты с опытом построения коммерчески успешных сложных моделей поведения целевой аудитории с помощью инструментов глубокого исследования данных (Data Mining) могут рассчитывать на максимальный доход. Для них зарплатные предложения в Москве - до 220 тысяч рублей, в Петербурге - до 180 тысяч рублей.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science , найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться .

На мой взгляд, лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: «Прикладная математика», «Информатика», «Математическая статистика».

Потому как Data Scientist - это человек, который знает математику. Анализ данных, технологии и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? - спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», - отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course . Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных - это лекции и семинары от опытных практиков. Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях.

15 сентября в Москве состоится конференция по большим данным Big Data Conference . В программе - бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.

Следите за Big Data Conference в Telegram ,на

Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

Определимся с терминологией

Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует - это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют - «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

Первая часть: data

Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, - это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

Важная часть этого пункта - как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия - так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science - не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными - полезными могут быть и маленькие.

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе - и так далее.

Изобразим полученные данные на графике (визуализация - тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y - кофе в миллилитрах. Получим что-то вроде такого:

Вторая часть: science

У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

Они формируют следующую и, возможно, самую важную составляющую data science - анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

Проанализируем данные

Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример - любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

Зеленая линия - и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель - ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

Применим результат

Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект - это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение - офис-менеджер Михаил, ответственный за закупку продукта.

Найдем исключения

Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

Можно было бы сперва найти в наших данных выбросы - объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

Кроме того, Полина демонстрирует нам еще одну важную идею - несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

Продолжим рассказ

Итак, data science - это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования - об этом мы расскажем в следующих статьях.

Давно хотели разобраться, как стать аналитиком данных, изучить data science, но не знали с чего начать? Тогда эта статья для вас.

Кто из нас не слышал про «big data»? Вряд ли найдётся хоть один. В последние годы интерес к работе с данными значительно вырос, так как крупным IT компаниям нужно придумывать всё новые решения для анализа, обработки и последующего использования данных. Некоторые даже запускают учебные программы совместно с вузами. Однако у большинства нет понимания, что это за люди, аналитики данных. Если вы один из таких людей, и у вас есть желание стать аналитиком данных, то эта статья для вас. Мы отобрали только бесплатные средства обучения, которыми можно пользоваться вне зависимости от вашего местоположения.

Чем занимаются аналитики данных

Так называемые data analyst`ы занимаются её информации и анализом для получения наглядных, воспринимаемых человеком результатов. К таким людям обычно причисляют специалистов по big data, data mining, машинному обучению, анализу систем, бизнес-аналитиков.

Что смотреть

Лекции «Школы анализа данных» от Яндекса

ШАД - курсы по анализу данных от сотрудников Яндекса. Поступить туда довольно непросто, минимум, предъявляемый к поступающим - базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования. К счастью, курсы записываются, чтобы все желающие смогли обучаться по видеолекциям.

Курс «Машинное обучение»

На курсе учат применять теорию вероятности и статистику, рассказывают об основах машинного обучения, учат строить алгоритмы

Курс «Алгоритмы и структуры данных поиска»

Во время лекций рассказывается про алгоритмы поиска и сортировки больших объёмов данных, алгоритмы и манипуляции со строками, теоретико-графовые алгоритмы, построение и анализ структур данных.

Курс «Параллельные и распределенные вычисления»

Для тех, кто хотел давно познакомиться с многопоточным и параллельным программированием, а также MapReduce.

Курс «Дискретный анализ и теория вероятностей»

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики, а также демонстрируется их применение.

Курс «Сложность вычислений»

После просмотра курса вы узнаете о вероятностных классах сложности и основных приёмов анализа и построения данных.

Лекции Технострим Mail.ru Group

Программы курсов предназначены для учащихся нескольких вузов Москвы, но доступны любым желающим. Будущим аналитикам мы советуем следующие сборники лекций:

Лекции Big Data University

Big Data University - онлайн курс, созданный совместно с IBM для новичков и людей не имеющих математического образования. Лекции, помогающие ознакомиться с основами работы с данными записаны на понятном английском языке.

Welch Labs

На этом канале собраны лекции по математике, информатике, программированию и машинному обучению. В процессе, приводятся примеры применения изучаемых вещей в реальной жизни. Лекции на английском, но есть отличные русские субтитры.

Курс « Обучение по структурированным данным: Введение в вероятностные графические модели» факультета компьютерных наук НИУ ВШЭ

Курс ориентирован на углублённое введение в теорию и приложения одного из самых популярных на сегодняшний день подходов к решению таких задач — дискретных вероятностных графических моделей. Язык курса — английский.

Канал sentdex

Канал полностью посвящен работе с данными. Причем полезные вещи для себя найдут не только те, кому интересна математика. Здесь есть видео по анализу и программированию для финансовых аналитиков и робототехнике с помощью Rasperri Pi.

Канал Siraj Raval

Парень рассказывает о современных технологиях и как с ними работать. Научиться работе с данными помогут курсы по глубинному обучению, data science, машинному обучению.

Канал Data School

Если вы только краем уха слышали что-то про машинное обучение, но уже заинтересовались, то этот канал для вас. Автор на понятном уровне, с примерами объяснит что это, как работает и где применяется.

Где заниматься

Для тех, кто не уверен, что готов полностью самостоятельно обучаться смотря лекции существуют онлайн-курсы с заданиями с проверкой.

Курсы по data science на Coursera

Не нужно объяснять что это за платформа. Нужно выбирать курс и начинать заниматься.

Stepik.org

Анализ данных в R

В первой части рассматриваются все основные этапы статистического анализа R, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов. Слушатели научатся основным элементам программирования на языке R, что позволит быстро и эффективно решать широчайший спектр задач, возникающих при обработке данных.

Во второй части разбираются несколько продвинутых тем, которые не были рассмотрены в первой: предобработка данных при помощи пакетов data.table и dplyr, продвинутые приемы визуализации, работа в R Markdown.

Введение в базы данных

Погружение в СУБД

Курс для тех, кто имеет некоторый опыт общения с реляционными СУБД и желает знать больше про то, как они работают. В курсе затронуты:

проектирование схемы базы данных;
управление транзакциями;
оптимизация запросов;
новые возможности реляционных СУБД

Hadoop. Система для обработки больших объемов данных

Курс посвящен методам обработки больших объемов данных с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.