Интервью с руководителем Академии Анализа Данных Учебного центра Softline к.ф.-м.н. В.П. Боровиковым
- Интервью с руководителем Академии Анализа Данных Учебного центра Softline к.ф.-м.н. В.П. Боровиковым
Вопрос: Расскажите, пожалуйста, об Академии Анализа Данных Учебного центра Softline
В.П.: Сделанный в конце 20-го века рывок в компьютерных технологиях анализа данных открыл новый этап компьютерной аналитики.
Современный мир наполнен данными, которые нужно анализировать, находить закономерности, использовать результаты в реальном бизнесе, экономике, промышленности. На промышленных предприятиях накоплены огромные массивы данных, которые должны работать на эффективность производства, повышение качества, создание новых видов продукции, оптимизацию производства.
Развитие новых технологий анализа данных, нейронных сетей глубокого обучения, деревьев классификации и регрессии, случайных лесов позволяет получать результаты, которые невозможно получить, используя классические методы. Традиционные технологии, например, 6 сигма используют оганиченное число датчиков и не работают с потоками данных, реально мы имеем дело с потоками данных, собранных с тысячи сенсоров. Использование этих данных позволяет получить качественно новый эффект и совершенствовать производства, повышая интеллектуальную составляющую и уровень принимаемых решений.
Вопрос: Какие курсы читаются в Академии?
В.П.: Лейтмотивом обучения в Академии является синтез технологий и практический результат полученных решений в экономике, бизнесе, промышленности. Theoria cum praxis – Теория рука об руку с практикой, это девиз академии. Курсы читаются на всех известных аналитических платформах, включая открытое ПО, R и Python. Мы предлагаем корпоративные курсы для промышленных предприятий из различных сегментов экономики: металлургия, нефть\газ, энергетика, транспорт, ритейл.
Нашим флагманским курсом для промышленности является курс "Мониторинг и анализ производственных процессов: методология, технология, кейсы", который аккумулирует передовой мировой опыт от карт контроля качества до нахождения причин брака и оптимизации процессов с помощью машинного обучения. Комплексная оптимизация процессов, определение состояний процесса, настройка технологических процессов под реальный заказ, разработка новых видов продукции, эти задачи находятся в фокусе данного курса. Корпоративное обучение для реального сектора и бизнеса является основным направлением Академии.
Отдельным направлением Академии являются курсы для руководителей предприятий, позволяющие в течение одного-двух дней войти в круг задач и применять технологии анализа данных для развития и решения стратегических задач: "Data Science для руководителей бизнеса и промышленности: задачи, технологии, кейсы". Этот курс аккумулирует лучшие мировые компетенции и позволяет понять, где и каким образом технологии машинного обучения дают эффект. Особенностью Академии является обучение на реальных данных с привлечением уникальных кейсов.
Мы предлагаем также курсы для всех желающих войти в область дейта сайнс и получить востребованную профессию: "Введение в анализ данных и дейта сайнс на Statistica и R", "Углубленные методы анализа данных и дейта сайнс в Statistica и R: построение предсказательных моделей", "Современный анализ данных и машинное обучение на Statistia и Python"
Вопрос: Расскажите, пожалуйста, о курсах дейта сайнс в Академии.
В.П.: Спрос на специалистов в области анализа данных и дейта сайнс стремительно растет. Этот спрос вызван цифровой революцией и развитием экономики 4.0. В настоящее время профессия дейта сайнтист – специалиста в области дейта сайнс (науки о данных) – является наиболее востребованной в мире. Эта бурно развивающаяся область, в которую мечтают войти многие люди и где можно раскрыть творческий потенциал.
Введение в профессию дейта сайнс обычно проводится в программе Statistica, полностью переведенной на русский язык. Благодаря уникальному пользовательскому интерфейсу даже новичок с помощью Statistica может быстро войти в анализ данных и находить закономерности и связи в реальном мире. Следующим этапом обучения является открытое программное обеспечение, в частности, R и Python. R и Python указываются в качестве обязательных навыков в большинстве предложений о работе в дейта сайнс. Передовые компании используют возможности R и Python для развития бизнеса. Например, Google используют R для отслеживания тенденций в ценообразовании и нахождении закономерностей в данных. Pfizer создал настраиваемые пакеты для R, позволяющим ученым глубоко исследовать данные. Ключевым принципом в работе специалиста в области дейта сайнс является системность, позволяющая провести весь цикл исследований от импорта данных из разных источников, визуализации и описательного анализа до построения предсказательных моделей и их практическом использовании.
Мы предлагаем курс для начинающих, желающих эффективно войти в R и Python, читать код, программировать, решать задачи в области анализа данных, строить эффективные графики, вычислять описательные статистики, создавать простейшие предсказательные модели с помощью множественной регрессии. Образование нужно ставить системно, специалист в области дейта сайнс должен иметь знания в области теории вероятностей, статистики, численных методов, оптимизации, дискретной математики, программирования и др. В начальных курсах не требуется знаний статистики и анализа данных, эти курсы доступны школьникам старших классов и студентам первых курсов вузов. Далее навыки развиваются на углубленных курсах, такая последовательность обучения позволяет стать квалифицированным специалистом в дейта сайнс.
Вопрос: Приведите примеры применения современных аналитических технологий на практике.
В.П.: Задачи построения предсказательных моделей актуальны во всех областях: необходимо оптимально управлять процессами, а для этого нужно знать, как связаны данные между собой. Применение предсказательной аналитики в каждой области имеет свою специфику, но имеется общая методология.
Телеком:
Технологии мобильной связи пронизывают общество, генерируя большие объемы данных. Важно построить модель пользователей, предотвратить отток клиентов, оценить степень лояльности, найти оптимальное предложение по сервисам и пакетам услуг для разных групп, в реальных исследованиях мы имеем миллионы наблюдений и тысячи переменных. Известен проект Orange Telecom, направленный на нахождение взаимосвязей между различными районами города, которые возникают из высококоррелированных временных вариаций локальных плотностей населения. Это позволяет оценить мобильность населения в пределах города или региона, использовать найденные закономерности для развития сети.
Ритейл:
Настройка CRM-системы для оптимизации маркетинговых компаний является ключевым требованием. Персонализированные предложения по предоставлению услуг должны направляться нужным клиентам в нужное время. Необходима таргетированная рассылка с целью максимизации отклика, аналогичные задачи возникают в финансовой сфере. Особенно важно применение компьютерной аналитики в промышленности, именно этому направлению мы уделяем большое внимание.
Вопрос: Остановитесь, пожалуйста, на данном вопросе подробнее.
В.П.: Давайте рассмотрим отдельные отрасли промышленности и покажем, как работает методы анализа данных в них.
Металлургия:
Автоматизированные системы мониторинга и управления процессом алюминиевого производства включают цифровые камеры и используют методы многомерного анализа данных для определения состояния процесса по яркости излучения. Проводится оценка зависимостей составляющих оптического спектра от переизбытка фторида алюминия и расчет криолитового отношения в реальном времени. В направлении предиктивного моделирования промышленного производства интенсивно развиваются Alcoa, Alcan, Siemens и другие компании. Аналитика нужна не сама по себе, а для создания реально работающих моделей и принятия правильных решений.
С одной стороны, имеется множество разнородных данных, поступающих от различных источников, датчиков, контроллеров, с другой стороны, множество аналитических методов, доступных в рамках единой системы или с помощью объектно-ориентированных языков. Из-за обилия данных и сложности процесса у оператора не всегда есть четкое понимание какова реальная ситуация с процессом в данный момент: отказ, предаварийная ситуация или нормальное состояние. Оператору выдается предупреждение о выходе процесса из-под контроля на ранней стадии разладки, что позволяет провести необходимые действия, чтобы предотвратить отказ.
В черной металлургии актуальной является задача комплексной оптимизации состава многокомпонентной стали, здесь эффективно работают методы добычи данных, позволяя снижать стоимость продукции, повышать рентабельность производства.
Нефтедобывающая и газовая отрасль:
Интеллектуальное месторождение - будущее нефтедобывающей отрасли. Нефтеоборудование функционирует в сложных технологических условиях, любая из компонент может выйти из строя, создавая аварийные ситуации, предиктивная аналитика позволяет прогнозировать моменты выхода оборудования из строя, минимизировать риски внезапных отказов. Анализируя базу данных об отказе и ремонте оборудования, мы можем построить математическую модель и на ее основе оптимизировать процесс обслуживания. Ключевой момент состоит в том, что мы работаем с потоками данных в режиме реального времени.
В течение долгого времени получение информации от оборудования представляло технологическую проблему, теперь ситуация изменилась. За счет использования передовых решений для беспроводной связи и визуализации нефтегазовые компании получают дистанционный доступ к мониторингу технических данных, именно здесь возникает поле деятельности для дейта майнинга и предиктивной аналитики. Благодаря расширению доступа к данным компании получают возможность использовать полученные в реальном времени данные для оптимизации производства и сокращения простоев, незапланированного технического обслуживания, посещений скважин и других операционных расходов.
Например, онлайн-мониторинг шумов и вибрации позволяет предотвратить отказ оборудования, разрушение зубцов в редукторе, отказ подшипников, выявить проблемы со смазкой и др. Отслеживание пиков вибрации в реальном времени, так называемая технология пиковых нагрузок (Peak Value), позволяет минимизировать отказы оборудования и сократить расходы на обслуживание. Данные о шумах и вибрации, передаваемые в систему управления технологическими процессами, анализируются с помощью заранее настроенных моделей.
Вопрос: Как наиболее эффективно использовать технологии анализа данных?
В.П.: Нужны правильно настроенные шаблоны анализа, доступные инженерам, технологам, администраторам в удобном пользовательском интерфейсе. Здесь уместно сравнение с игрой в шахматы: компьютер играет лучше чемпиона мира, гроссмейстер на видит всей доски в целом, пропускает компьютерный ход, который ведет к выигрышу. Аналогичная ситуация имеет место с возникновением внештатных ситуаций на производстве, алгоритмы машинного обучения позволяют правильно принимать решения.
Вопрос: Как компьютерная аналитика связана с технологиями биг_дейта и облачными решениями?
В.П.: Образование нужно ставить системно, специалист в области дейта сайнс должен иметь знания в области теории вероятностей, статистики, численных методов, оптимизации, дискретной математики, программирования и др. В качестве первого шага я рекомендую прослушать курсы по современному анализу данных и дейта сайнс в Академии Анализа Данных, это уникальная возможность получить знания из первых рук. Важным элементов системы обучения является использование данных из конкретной области слушателей. Разработанная нами методика формирует навыки аналитического мышления и технологий в конкретной предметной области. Курсы Академии Анализа Данных поддержаны многочисленными кейсами и решениями реальных прикладных задач, теперь доступны широкому кругу слушателей.