Зачем консультанту Data Science
Статьи / Зачем консультанту Data Science
bg

Зачем консультанту Data Science

Если работаете с данными, вам нужно освоить инструменты Data Science. Они позволят сэкономить часы работы и найти неочевидные закономерности в большом массиве информации. В этом на своем опыте убедился Никита Худов, выпускник Школы Changellenge >>. Сейчас он работает на позиции Associate Consultant в Bain & Company. В статье Никита рассказал, помогают ли навыки Data Science в работе консультанта и как освоить их самостоятельно.


Содержание




Худов круглый.png

Никита Худов

Досье

  • Вуз: НИУ ВШЭ, факультет МИЭФ / London School of Economics (LSE), University of London (бакалавр). IE Business School (магистр).

  • Место работы: Bain & Company, должность — Associate Consultant.

Что такое навыки Data Science

Data Science — достаточно широкое понятие. Но в статье я буду говорить о совокупности знаний и скиллов, которые позволяют на продвинутом уровне хранить, обрабатывать, моделировать и визуализировать данные. В этом помогут навыки Data Science. Чтобы их получить, необходимо хорошо знать математику, статистику и теорию вероятности. Из инструментов будут полезны языки программирования (Python, R, SQL и другие) и умение работать с софтом для анализа данных (например, Alteryx) и их визуализации (например, Tableau).

giphy.gif

Почему я решил освоить Data Science

В 2017 году я поехал в Мадрид, чтобы получить магистерскую степень по Data Science. Я поступил на программу Master in Business Analytics and Big Data в IE Business School. До этого мне вовсе не приходилось программировать. Я изучал финансы в МИЭФ и London School of Economics, а термины Big Data, Machine Learning и Artificial Intelligence были для меня просто модными словами. При выборе магистратуры я руководствовался двумя причинами. Во-первых, я считаю, что за Data Science — будущее. Во-вторых, было просто заманчиво научиться манипулировать терабайтами информации, изучать искусственный интеллект и разрабатывать нейросети.

Углубившись в учебу, я обнаружил еще больше причин. Главная из них — новые возможности. Многие из нас регулярно сталкиваются с задачами из области анализа данных, но справляются без инструментов Data Science — обычно людям хватает среднего уровня владения Excel. Раньше я тоже использовал в основном его. И конечно, Excel все еще остается главным помощником консультантов. Если ваша работа связана с аналитикой, без этой программы не проживешь. Но за целый год в Мадриде я только пару раз открыл ее: оказалось, в решении многих задач инструменты Data Science могут быть гораздо полезнее.


Три способа применять инструменты Data Science в работе

1.  Автоматизировать процессы

Даже в интересной аналитической работе встречаются однотипные задачи. Если вам нужно повторить набор действий, Excel не поможет: он не дает автоматизировать такие процессы (если не брать в расчет VBA). А я предпочитаю делегировать рутинную работу компьютеру. Здесь на помощь приходят инструменты Data Science. Любой из них включает в себя алгоритм, который поэтапно описывает весь процесс работы с данными. Одна часть алгоритма отвечает за загрузку данных, другая — за первый этап обработки, третья — за анализ и так далее. Инструменты Data Science позволяют создать последовательный список задач, которые нужно выполнять для анализа данных, а затем настраивать и повторять отдельные элементы или весь процесс целиком.

Поясню на примере. Недавно передо мной стояла задача проанализировать продажи авиакомпании по нескольким маршрутам. По каждому из них нужно было загрузить данные, обработать их, сделать pivot и сохранить в правильном формате. Задача несложная, не больше 10 минут на анализ одного маршрута, но их было около 20 штук. Тратить на это больше трех часов мне не хотелось. Поэтому примерно за полчаса я создал простенький скрипт в Python, который анализировал один маршрут. Еще минут за 15 — другой скрипт, который автоматизировал загрузку и выгрузку данных, чтобы весь процесс запускался с одной кнопки. В результате вместо скучной механической работы я выполнил интересную и при этом сэкономил много времени. Приятный бонус: через пару недель моему коллеге понадобилось сделать похожий анализ. Я поделился скриптом и упростил задачу еще и ему.

2. Работать с Big Data

Говоря о больших данных, мы не всегда имеем в виду одно и то же. Иногда под этими словами подразумевают терабайты информации, которая никак не структурирована или создается в режиме реального времени. Эти данные требуют распределенного хранения и вычисления, а также особых навыков для работы. В других случаях большими данными называют любой массив информации, который не влезает в Excel. То есть все таблицы, где количество строк превышает миллион. С такими объемами мы на работе сталкиваемся регулярно. Как быть в этом случае? Можно сказать, что Excel не тянет и требуется помощь эксперта, но это дорого и долго. Другой вариант — найти хитрый шорткат, который позволит решить задачу, не анализируя весь объем данных. Например, проанализировать отдельную выборку или обратиться к другим информационным ресурсам. Но так получается не всегда. Кроме того, есть опасность что-то упустить. А третий вариант — применить навыки Data Science.

Например, недавно мне нужно было проанализировать базу данных авиапассажиров за определенный срок и выявить тенденции. В базе было около 15 миллионов строк, и она весила примерно 20 Гб. Я не мог взять выборку, потому что требовалось показать результаты по всем пассажирам. Поэтому я использовал комбинацию Alteryx и Python для эффективной обработки данных.

3. Строить сложные модели

Продвинутые Machine Learning-модели помогают находить инсайты, глубоко скрытые в данных. Их не выявить с помощью логического анализа или линейной регрессии. В Excel даже отдаленно нет таких функций. А нейросети или бустинговые алгоритмы находят настолько неочевидные закономерности, что человеку они никогда бы в голову не пришли. При этом найденные инсайты вполне применимы в бизнесе.

Это, пожалуй, самый интересный способ использовать инструменты Data Science, хотя к нему и редко удается прибегнуть. Но однажды мне нужно было построить прогноз по количеству перевезенных пассажиров на разных маршрутах. Простые модели плохо работали из-за сильной нестационарности, то есть корреляции данных со временем, и слабой объяснительной силы внешних факторов. Тогда я сделал эконометрическую модель в R и получил гораздо более адекватные прогнозы.

Это только три категории задач, с которыми инструменты Data Science справляются эффективнее, чем привычные техники. Я уверен, что со временем таких задач будет все больше, поэтому осваивать новые технологии нужно уже сейчас.






Топ-5 полезных инструментов Data Science

Если вы хотите применять навыки Data Science, вам потребуется либо овладеть основными языками программирования, либо специальными программами, либо и теми и другими. Расскажу об обоих.

Python

Это самый популярный язык программирования. Он многофункционален и отлично подходит для работы с данными. Кроме того, в открытом доступе есть много образовательных материалов и ответы на все вопросы по Python. Для него написаны огромные библиотеки — пакеты готовых подпрограмм, которые решают распространенные задачи. Среди них — scikit-learn, PyTorch, Tensorflow, Keras, а также удобные пакеты pandas и numpy для обработки данных.

R

Чуть менее распространенный язык программирования, который немного проигрывает Python по удобству и обращению с Machine learning. Зато он лучше подходит для работы с эконометрикой и временными рядами. Его часто используют экономисты, финансисты и статистики, а значит, для этих сфер уже есть удобные библиотеки. Например, в прогнозировании временных рядов вам помогут библиотеки forecast и astsa.

SQL

Это самый простой язык программирования — язык запросов. Он позволяет обращаться к базам данных и сам по себе, и внутри Python или R. Его легко освоить и удобно применять для первичной обработки информации. Например, когда нужно выгрузить ее в определенном формате. Но он гораздо менее функционален, чем Python и R. Его нельзя использовать для сложного моделирования или визуализаций. Для работы с неструктурированными данными применяется его ответвление NoSQL.

Alteryx и аналоги

Это категория программ с готовыми решениями, которые позволяют работать с большими данными без знания программирования. У них очень простой интерфейс: по принципу drag & drop вы добавляете все действия, которые хотите произвести с данными, а результаты отображаются в виде наглядной схемы. Но это недостаточно гибкий инструмент, так как все команды уже запрограммированы. Сервисов такого типа много. В консалтинге чаще всего используется именно Alteryx, но есть и другие удобные аналоги, например Dataiku. Он позволяют вставлять скрипты кода на Python или R, что значительно расширяет функционал.

Tableau и аналоги

Эта категория программ нужна для визуализации данных. Tableau позволяет создавать отдельные графики и целые презентации, которые будут воспроизводиться в интерактивном режиме. Более того, вы сможете менять их во время демонстрации. Как и в случае с Alteryx, функционал Tableau ограничен, и некоторые привычные действия могут потребовать дополнительных усилий. Зато этот инструмент прост и интуитивен в использовании.

В качестве более сложной альтернативы можно обратиться к инструментам open source. Например, библиотека Bokeh для Python позволяет создавать изменяемые интерактивные визуализации, а с помощью ggplot2 для R можно рисовать красивые профессиональные визуализации, но без интерактива.

giphy1.gif

С чего начать изучение Data Science

Уже захотели прокачаться в Data Science? К счастью, это легко можно сделать самостоятельно. Достаточно найти правильные ресурсы и продумать всестороннюю подготовку: в ней должно быть два блока.

Теория и практика

Data Science — это абсолютно прикладная наука, ее невозможно освоить в теории. Необходимо сразу начинать практиковаться и осваивать инструменты. Для знакомства с Data Science прекрасно подходит платформа DataCamp. Весь контент там разделен на целевые треки, например Data Scientist with Python, Quantitative Analyst with R. В каждом треке собраны курсы по ключевым навыкам и инструментам: Data Visualization with Seaborn, Deep Machine Learning with keras. А каждый курс включает в себя отдельные занятия, где соединены теория и практика.

Обучение происходит так: вы смотрите короткое видео, а потом сразу же применяете новые знания в решении задач. Вам не придется устанавливать никакие приложения — все происходит в одном окне браузера. Такой процесс позволяет быстро вникнуть в тему и научиться на базовом уровне работать с важными инструментами Data Science.

После этого можно перейти к более продвинутым урокам, которые помогут достичь профессиональных целей. Много полезных курсов есть на Coursera (например, ШАД Яндекса) и Stepik (курсы от Mail.ru или Computer Science Center). Большинство из них тоже совмещают теорию и практику.

Соревнования

Когда прокачаетесь до определенного уровня, пора будет проверить, насколько вы хороши. А как еще это сделать, если не в состязании с другими? Выбирайте хакатон или турнир по душе, например на платформе Kaggle, где зарегистрировалось уже более 2,5 млн человек. Соревнования дают информацию, задачу и сильную конкуренцию, а вам остается только показать, на что вы способны. По моему опыту это самая важная часть обучения. Выполняя домашние задания на курсе, вы не сталкиваетесь с такими сложностями, как в жизни. Соревнования же симулируют реальные условия. Они заставляют креативно мыслить и изучать новый контент, чтобы справиться с задачей. Помимо этого, на мой взгляд, конкуренция дает дополнительную мотивацию.

Разумеется, конкретную программу обучения нужно строить исходя из ваших целей, но все вышеперечисленное должно дать отличный старт. Так что вооружайтесь этими советами, становитесь эффективнее и получайте удовольствие!


Теги

Получите карьерную поддержку

Если вы не знаете, с чего начать карьеру, зашли в тупик или считаете, что совершили какие-то ошибки, спросите совета у специалистов. Заполните заявку и консультанты Changellenge >> окажут вам помощь. Это отличный шанс вместе экспертом проработать проблемные вопросы и составить карьерный план.