Машинное обучение:
No-code кластеризация
текстов
Совместно с экспертами Банка России и ВТБ создай прототип NLP-сервиса для разведочного анализа постов в социальных сетях с элементами конвейера обучения моделей и презентуй его на международной онлайн-конференции по анализу данных Data Fusion
Описание программы



Проблематика
Банки работают с огромными потоками текстовой информации, большая часть которых представляет собой неразмеченные и неструктурированные данные. Поэтому специалистов Data Science часто просят провести разведочный анализ коллекции текстов. Например, сгруппировать отзывы, выделить типовые запросы клиентов, найти новые виды обращений и т.д.

Разведочный анализ является вспомогательным этапом, цель которого –помочь бизнесу сформулировать конкретную задачу. Так результаты анализа обращений клиентов могут побудить колл-центр перестроить рубрикатор обращений – сервис маршрутизации (т. е. классификации и отправки) обращений на профильного специалиста.

Участники спроектируют и разработают сервис анализа текстовых данных, который позволит убрать рутину на первых этапах работы DS.
Участие в программе бесплатное.
Проезд, питание и проживание при участии в модуле 2 участники организовывают и оплачивают самостоятельно.
Программа позволит участникам узнать о новейших подходах к работе с Big Data, погрузиться в изучение искусственного интеллекта и машинного обучения и применить полученные знания на практике.

Для кого эта программа
К участию в отборочных испытаниях приглашаются студенты профильных направлений российских вузов и ссузов (аналитика данных, информатика, прикладная математика, программная инженерия, системная инженерия, математическое обеспечение разработки программного обеспечения, экономика и математика и т.п.)

Программа подойдет желающим углубить знания и получить практические навыки по следующим направлениям.
Машинное обучение:
Основы NLP
Алгоритмы кластеризации
Основы Deep Learning
Умение работать с базовыми библиотеками ML
Основы ИТ и навыки программирования
PyTorch
Front-end:
HTML + CSS
JavaScript + npm, Webpack, prettier, eslint
Фреймворк (Bootstrap/Material UI)
React
Plotly.js
React+Хуки+Redux (PWA)
Back-end:
Python
Django/Flask/Fastapi
Docker/compose
Умение работать с базами данных
Модуль 1: ТЕОРИЯ
Мы набираем участников на 2 параллельных трека: машинное обучение и разработка цифровых продуктов. Ты можешь обучаться сразу на двух треках, но в итоге нужно выбрать 1 основной, по которому мы оценим прогресс обучения. Участников, показавших наилучшие результаты мы пригласим принять участие во втором модуле, посвященном командной практической работе над проектом.

Модуль проходит в дистанционном формате.
Трек "Машинное обучение"
Трек "Разработка цифровых продуктов"
Научишься разрабатывать типовые модели Back-сервисов для реализации бизнес-логики
Разработка Back-end и API приложения
Спроектируешь свой сервис
Познакомишься с разными способами реализации гибкой архитектуры приложения
Проектирование архитектуры
Прокачаешь навык визуализации своего продукта
Научишься превращать идеи в продукты
Создание ИТ-продукта, построение CJM
Научишься легко интегрировать RestAPI и Websocket
Разберешься с тонкостями авторизации
Попробуешь создать компоненты React
Узнаешь современные подходы к разработке UI
Разработка UI
Подготовишь общую площадку для выкатки MVP при помощи инструментов контейнеризации
Узнаешь плюсы и минусы end-2-end vs two-stage подходов к кластеризации текстов
Применишь нейросетевые подходы для кластеризации текста
Поймешь, как применять классические модели кластеризации в NLP
Познакомишься с задачей кластеризации и классическими методами ее решения
Кластеризация
Поработаешь с моделями Huggingface
Научишься получать эмбеддинги из предобученных моделей
Эмбеддинги и их виды
Поймешь, как применять эмбеддинги для решения NLP задач

На практике применишь полученные знания
Познакомишься с метриками тематического моделирования и по ним научишься оптимально подбирать число тем
Поработаешь с библиотекой gensim
Тематическое моделирование
Научишься проводить разведочный анализ и визуализировать коллекции документов
Познакомишься с методами представления текстов в ML
Познакомишься с библиотеками по препроцессингу текстовых данных, а также с библиотеками pandas, numpy, sklearn
Задачи сферы NLP
Модуль 2: ПРАКТИКА
На практическом модуле ты применишь полученные знания для разработки web-сервиса разведочного анализа данных и погрузишься в атмосферу продуктовой разработки. Совместно с менторами и командой участников ты разработаешь архитектуру сервиса и сценарии взаимодействия пользователя с сервисом.

ВАЖНО! Модуль проходит в комбинированном формате — дистанционно, с очными встречами команды и менторов в Москве.
Для успешной реализации сервиса потребуется слаженная работа команды по направлениям DS, Front-end и Back-end
DS реализуют несколько алгоритмов кластеризации текстов и подберут алгоритмы для human-in-the-loop обучения моделей.
Front-end совместно с DS придумают как «донести» модели и пайплайны до пользователей. А затем Front-end реализуют все интерфейсы: от загрузки данных до презентации результатов.
Back-end специалисты организуют оркестрацию обучения моделей, и соединят инструмент разметки и наработки DS и Front-end в единый сервис.
Команде участников практического модуля предстоит презентовать разработанный сервис на конференции DATA FUSION, ежегодной международной конференции по машинному обучению и искусственному интеллекту, посвященной синергии данных и алгоритмов работы с ними.

В конференции принимают участие ведущие эксперты в области Data Science — представители бизнес- и технологических департаментов крупнейших компаний и госорганов, а также известные российские ученые.


Презентация проекта
01
11 ноября 2022 -
24 января 2023
Прием заявок
для тех, кто подал заявку
до 1 декабря
02
1 - 11 декабря 2022
Тестирование
для тех, кто подал заявку
после 1 декабря
03
25 января - 3 февраля 2023
Тестирование
лекции, мастер-классы
и самостоятельная работа
04
14 февраля - 7 марта 2023
Модуль 1: ТЕОРИЯ
по итогу проверки работ и заданий
05
15 марта
Оглашение
результатов модуля 1
06
16 марта - 7 апреля 2023
07
Презентация
проекта
Модуль 2:
ПРАКТИКА
работа в команде, разработка
сервиса анализа текстовых данных
конференция Data Fusion
13 - 14 апреля 2023
Таймлайн
и дедлайны
Об организаторах
Подразделение Департамента финансовых технологий Банка России, которое проводит просветительские и образовательные программы в области финансовых технологий, инноваций в платежах и финансовой кибербезопасности.
Российская финансовая группа, включающая более 20 кредитных и финансовых компаний, работающих во всех основных сегментах финансового рынка. Программа подготовлена с участием экспертов команды Департамента анализа данных и моделирования Банка ВТБ.
Физтех-школа прикладной математики и информатики (ФПМИ) МФТИ — ведущий мировой центр науки и образования в области математики и информатики. Особенность школы заключается в том, что она сочетает в себе активную научную деятельность и тесную связь с индустрией.
Менторы и преподаватели
  • Лев Меркушов
    Ментор модуля "Машинное обучение",
    ПАО ВТБ, Директор управления перспективных алгоритмов машинного обучения департамента анализа данных и моделирования
  • Дмитрий Попов
    Ментор модуля "Разработка цифрового продукта",
    ГК Иннотех, Директор по управлению портфелем проектов
  • Сергей Муравьев
    Преподаватель модуля "Машинное обучение",
    руководитель образовательной программы «Глубокое
    обучение и генеративный искусственный интеллект»,
    Университет ИТМО
  • Анна Колесникова

    Преподаватель модуля "Разработка цифровых продуктов", руководитель проектов, директор по развитию продуктов и новых направлений бизнеса

  • Анастасия Смирнова

    Преподаватель модуля "Разработка цифровых продуктов", FullStack-разработчик в компании "ГЕРОФАРМ"

  • Николай Хитров

    Преподаватель модуля "Разработка цифровых продуктов", Backend-разработчик в компании "Литрес" 

  • Тигран Мовсисян

    Преподаватель модуля "Разработка цифровых продуктов"

Фотогалерея
Финансовая кибербезопасность
Инновации в платежах
Технологии распределенного реестра
Инноваии в платежах
Финансовая кибербезопасность
Финансовая кибербезопасность
Инновации в платежах
Биометрия
Технологии распределенного реестра
Технологии распределенного реестра