Инструкции. Прошивка. Программы. Интернет. Навигация
Поиск по сайту

Что такое data science. Что такое data science и где этому учиться? А как это применяется в банковской сфере

Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом.

О том, как приобщиться к этой профессии, рассказывает Александр Петров, CTO E-Contenta и руководитель математического курса GoTo Course.

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist - самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта , кто еще из пользователей сайта может оказаться его знакомым.

Убедив руководство LinkedIn опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила рейтинг 25 лучших вакансий в США кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute , к 2018 году в одних только понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

В России потребность в специалистах по работе с данными тоже растет , хотя на рынке их по-прежнему немного.

Неудивительно, что сегодня так много желающих освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Кто он, Data Scientist?

Вообще-то Data Scientist - профессия, окруженная разными мифами. В глазах одних Data Scientists - это подобие шаманов, способных из « добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать - умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist - это специалист, владеющий тремя группами навыков:

  1. IT-грамотность - программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области - понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий - аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

Сколько стоит специалист по данным

На сегодняшний день только треть спроса на Data Science специалистов может быть удовлетворена. Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области Data Mining или прогнозной аналитики, что ведёт к росту спроса и зарплат.

В США, согласно O’Reilly Media , уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше - в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.

Согласно исследовательскому центру рекрутингового портала Superjob, зарплатные предложения для специалистов без соответствующего опыта работы в Москве начинаются от 70 тысяч рублей, в Санкт-Петербурге - от 57 тысяч рублей.

Для следующего зарплатного уровня от соискателей потребуется наличие глубоких знаний методов статистического анализа данных, навыков построения математических моделей (нейронные сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.), а также опыт работы с большими массивами данных и умение выявлять закономерности. Для таких специалистов зарплата может достигать 110 тысяч рублей в Москве и 90 тысяч рублей в Петербурге.

Специалисты с опытом построения коммерчески успешных сложных моделей поведения целевой аудитории с помощью инструментов глубокого исследования данных (Data Mining) могут рассчитывать на максимальный доход. Для них зарплатные предложения в Москве - до 220 тысяч рублей, в Петербурге - до 180 тысяч рублей.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science , найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться .

На мой взгляд, лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: «Прикладная математика», «Информатика», «Математическая статистика».

Потому как Data Scientist - это человек, который знает математику. Анализ данных, технологии и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? - спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», - отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course . Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных - это лекции и семинары от опытных практиков. Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях.


15 сентября в Москве состоится конференция по большим данным Big Data Conference . В программе - бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.

Следите за Big Data Conference в Telegram ,на

В мире IT существуют различные направления. Кто-то занимается администрированием, кто-то - разработкой или тестированием. Создаются курсы, готовящие системных администраторов, программистов, тестеров. В этой статье будет рассмотрена особая программа - Data Scientist - специально для разработчиков, аналитиков и продакт-менеджеров.

Кто такой Data Scientist, или специалист по данным

Вокруг профессии Data Scientist ходит немало мифов, и многие толком не понимают, что это такое. Кому-то кажется, что специалист по данным или специалист по анализу данных - это что-то вроде программиста (по принципу: умеешь программировать, значит, умеешь работать с данными), кто-то считает эту профессию похожей на администратора баз данных, а кто-то вообще не знает, что это такое.

Забегая вперед, нужно сразу отметить, что специалист по анализу данных - это не программист и никак уж не администратор базы данных, хотя навыки программирования он иметь обязан.

Специалист по данным - это специалист, владеющий тремя группами навыков:

  • математика и статистика;
  • IT-навыки, в том числе программирование;
  • понимание бизнес-процессов в той или иной области.

Вакансии не всегда называются Data Scientist. Очень часто встречаются варианты: программист-аналитик, аналитик Big Data, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик и другие.
Среди обязанностей специалиста по данным можно выделить следующие:

  • сбор больших объемов данных и приведение их в удобный формат;
  • программирование на языках Python, R, SAS;
  • решение бизнес-задач с использованием методов обработки данных;
  • поиск скрытых связей и закономерностей в данных;
  • проведение статистических тестов.

Специалист по данным должен понимать бизнес-запросы своей организации, владеть аналитическими инструментами: машинным обучением и текстовой аналитикой.
По утверждению консалтинговой компании McKinsey Global Institute , уже в следующем году в США (только в США, не во всем мире!) понадобится целая армия специалистов по данным - от 140 до 190 тысяч.

Сколько зарабатывает специалист по данным

В США средняя зарплата специалиста по данным составляет более 138 тысяч долларов в год. В России можно претендовать на зарплату от 120 тысяч рублей в месяц (более 26 тысяч долларов в год).

Если сравнивать с профессией простого программиста, то в США средняя зарплата программиста составляет 65–80 тысяч долларов в год, а в России 60 тысяч рублей в месяц, или 13 тысяч долларов в год.

В любом случае, получив специальность специалиста по данным, можно зарабатывать больше программиста.

Как видишь, специалист по данным - очень перспективная профессия. Во-первых, зарплата у него выше, чем у обычного программиста. Во-вторых, специалистов по данным не так много и рынок испытывает дефицит специалистов, причем не только в России, но и во всем мире.

Освоить профессию Data Scientist можно в университете по подготовке и дополнительному обучению специалистов « ».

Что дает курс обучения Data Scientist

INFO

  • Месяцев обучения: 5
  • Часов в неделю: 9
  • Экспертов: 13
  • Часов практики: 100+

Требования к студентам

Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.

Курс подготовки

Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.

Сколько стоит

Базовая стоимость - 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.

Что в итоге

Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.

Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца.


Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Data Science - наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

(С.Мальцева, В.Корнилов НИУ «ВШЭ»)

Профессия новая, актуальная и . Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт (10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Массивы данных подразделяют на 3 вида:

структурированные (например, данные кассовых аппаратов в торговле);

полуструктурированные (сообщения E-mail);

неструктурированные (видеофайлы, изображения, фотографии).

Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

Особенности профессии

В работе с данными Data Scientist использует различные способы:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • приложения искусственного интеллекта для работы с данными;
  • методы проектирования и разработки баз данных.

Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

  • сбор данных из разных источников для последующей оперативной обработки;
  • анализ поведения потребителей;
  • моделирование клиентской базы и персонализация продуктов;
  • анализ эффективности внутренних процессов базы;
  • анализ различных рисков;
  • выявление возможного мошенничества по изучению сомнительных операций;
  • составление периодических отчетов с прогнозами и презентацией данных.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным - это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.

Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. По данным McKinsey Global Institute к 2018 г. только в США потребуется более 190 тысяч Data Scientist. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Место работы

Data Scientist занимают ключевые позиции в:

  • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
  • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицине (автоматическая диагностика болезней);
  • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
  • телекомпаниях;
  • крупных торговых сетях;
  • избирательных кампаниях.

Важные качества

  • аналитический склад ума;
  • трудолюбие;
  • настойчивость;
  • скрупулёзность, точность, внимательность;
  • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • коммуникабельность;
  • умение объяснить сложные вещи простыми словами;
  • бизнес-интуиция.

Профессиональные знания и навыки:

  • знание математики, матанализа, математической статистики, теории вероятностей;
  • знание английского языка;
  • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
  • главный базовый навык специалиста по data scientist - организация и администрация кластерных систем хранения больших массивов данных;
  • знание законов развития бизнеса;
  • экономические знания.

Вузы

  • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
  • МФТИ, Кафедра анализа данных.
  • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
  • Школа анализа данных Яндекс.
  • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
  • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Оплата труда

Зарплата на 04.07.2019

Россия 50000—200000 ₽

Москва 60000—300000 ₽

Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. - $140 тыс. в год.

По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ « BIG DATA » в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Видео: Новая специализация «Большие данные» - Михаил Левин

Data Science - очень трендовая тема. Специалиста в этой области, Data Scientist, уже назвали самой “сексуальной” профессией XXI века. Коллеги в SkillFactory нашли и собрали полезные статьи, мастер-классы и онлайн-курсы, которые помогут вам самостоятельно разобраться в этой теме и составить собственное впечатление.

Взрыв data science

Почему data science вызывает такой интерес? Основная причина - это скрытая эффективность, которая содержится в данных. Любая компания собирает данные. И их анализ позволяет делать более совершенные продукты, привлекать больше целевых клиентов и удерживать их, усовершенствовать бизнес-процессы и многое другое. Почему data science воспринимается как некая “волшебная пилюля”? Основной принцип состоит в том, что data science позволяет делать объективные выводы из имеющихся данных, свободные от предвзятости или предрассудков, свойственных для человека. Спрос со стороны бизнеса рождает и большой спрос на специалистов. Только в США в ближайшие три года ожидается нехватка порядка 190 тысяч специалистов по данным. Интерес соискателей также не заставил себя ждать:

Кто такой data scientist?

Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч. Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них - это математика, программирование, а также понимание бизнеса и стратегии.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) - работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. Разработчик BI (Business Intelligence Developer) - занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования. Инженер по данным (Data Engineer) - занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. Специалист по данным (Data Scientist) - занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.


Оригинал: http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

Введение в Data Science и Big Data

“Специалист по большим данным: где учиться и куда пойти работать”
  • В чем разница между Data Scientist и Data Engineer
  • Где учиться: курсы, магистерские программы и др.
  • Лайфхаки как найти работу
  • Введение в профессию Big Data от популярного сервиса Антирабство
  • Обзор всех профессий, связанных с Big Data
  • Какие навыки нужны для попадания в профессию
Подборка видео с неформальных встреч DataTalks на Youtube .
  • Организатор: компания Wargaming
  • Темы: как зарабатывать на данных и машинном обучении, визуализация данных
  • Спикеры: специалисты по анализу данных, бизнес-аналитики
“Как данные изменят бизнес” (TED)
  • Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
  • Спикер: вице-президент Boston Consulting Group Филип Эванс
  • Есть расшифровка лекции на русском
Кто и зачем создает искусственный интеллект?
  • Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
  • Очень занимательное и наглядное описание того, как развивался искусственный интеллект
Машинное обучение
  • Вторая лекция Байрама Аннакова
  • Типы машинного обучения и методов создания искусственного интеллекта
  • Множество кейсов и практических советов
Машинный интеллект и машинное обучение
  • Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
  • Увлекательное введение в тему с множеством ярких примеров
Нейросети: доступно о сложном
  • Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning

Подборка хороших курсов

Онлайн-курс “Машинное обучение и анализ данных”
  • Специализация Яндекса и МФТИ на Coursera на русском языке
  • Полное введение в data science и машинное обучение на базе Python
  • Теорию можно смотреть бесплатно, задания и сертификат - платные
Dataquest.io
  • Интерактивное пошаговое изучение Data Science с фокусом на Python
  • Обучение через практику: с самого начала работа с реальными данными и кодом
  • 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
Datacamp
  • Интерактивный онлайн-курс по Data Science с фокусом на R
  • 66 курсов по машинному обучению, анализу данных и статистике
  • Курс построен на решении практических задач
Анализ данных
  • Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
  • Срок обучения: 1 год. С лета 2017 - ускоренная программа (полгода)
  • Стоимость: 1999 рублей в месяц
Основы статистики
  • Бесплатное и ясное введение в математическую статистику для всех
Машинное обучение
  • Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
  • Этот курс можно считать индустриальным стандартом по введению в машинное обучение
  • Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
Введение в машинное обучение
  • Курс от Яндекса и ВШЭ
  • Очень хорошее теоретическое введение в машинное обучение
Видеозаписи лекций Школы анализа данных Яндекса
  • Видеозаписи занятий легендарной Школы анализа данных Яндекса
  • Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.
“10 онлайн-курсов по машинному обучению”
  • Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”
Ведение в SQL
  • Один из немногих бесплатных онлайн-курсов по SQL на русском языке
  • Интерактивный курс построенный на практике для аналитиков, маркетологов и product-менеджеров
  • Необходимый минимум, все самые важные операторы включая JOIN, GROUP BY и др.
  • Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий
  • Включает соревнования, научный семинар, выставку
  • Strata+Hadoop World
    • Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
    • Все звезды и все новинки - здесь
    • Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие
    Data Science Week
    • Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
    • Для профессионалов в области Big Data и новичков в этой сфере
    • Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов
    Data Fest?
    • Ежегодная конференция по Data Science, проходящая раз в год в Москве
    • Для разработчиков, инженеров, исследователей
    • Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом
    Open Data Science
    • Одно из самых крупных и живых сообществ по анализу данных в рунете
    • В основе - групповой чат Slack
    • Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а
    Moscow Data Science
    • Группа, посвященная митапам по Data Science в Москве
    • Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений - все на тему Data Science
    • Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом

    Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

    Определимся с терминологией

    Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует - это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

    Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют - «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

    Первая часть: data

    Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, - это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

    Важная часть этого пункта - как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия - так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science - не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными - полезными могут быть и маленькие.

    Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе - и так далее.

    Изобразим полученные данные на графике (визуализация - тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y - кофе в миллилитрах. Получим что-то вроде такого:

    Вторая часть: science

    У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

    Они формируют следующую и, возможно, самую важную составляющую data science - анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

    Проанализируем данные

    Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример - любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

    Зеленая линия - и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель - ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

    Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

    Применим результат

    Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект - это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

    Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение - офис-менеджер Михаил, ответственный за закупку продукта.

    Найдем исключения

    Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

    Можно было бы сперва найти в наших данных выбросы - объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

    Кроме того, Полина демонстрирует нам еще одну важную идею - несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

    Продолжим рассказ

    Итак, data science - это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

    В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования - об этом мы расскажем в следующих статьях.