[Open Bio] Машинное обучение в биологии и биомедицине (Илья Воронцов, Артем Касьянов)

Евражкa · 12 сен 2025 в 14:34

Машинное обучение – это не только модная технология, это инструмент, который быстро развивается и меняет мир на наших глазах. Программа курса направлена на навигацию в “зоопарке” подходов в биологии и биомедицине, построена с постепенным усложнением и даст уверенное понимание, когда и как лучше применять классические методы ML, а когда пора переходить на нейросети. В завершающем модуле по Computer Vision раскрываются прикладные точечные технологии с освоением практических навыков инженерии.

По окончании курса вы получите конкурентное преимущество - не только опыт работы по готовым протоколам обработки конкретных типов данных, а понимание специфики мира ML в биологии и медицине, знания составных частей процессов, которые лежат в основе популярных пайплайнов. Наши эксперты передадут опыт изучения ML и расставят акценты, которые помогут сэкономить время, спланировать развитие карьеры в области DataScience и общаться на одном языке с другими коллегами.

Для кого этот курс:

биологи, биоинженеры, биотехнологи, врачи-диагносты

биостатистики и клинические биоинформатики

аналитики и специалисты по данным в биологии/медицине

научные сотрудники лабораторий и RnD центров

руководители лабораторий и team-лиды научных групп

а также разработчики Python, которые хотят решать проблемы биоинформатики и биомедицины

Необходимый уровень знаний:

Требуются знания Python, а также библиотек numpy и pandas.

Курс подойдет для вас, если вы:

Хотите познакомиться с передовыми методами биоинформатики

Ставите цель улучшить и систематизировать навыки программирования, которые были получены исключительно самообучением

Вам нужно глубже изучить Python и получить практику в ML по биологическим или медицинским данным

Стремитесь понять, как применять ML в NGS и распознавании изображений из клинических данных

Прокачиваете свое резюме кейсами, которые помогут вам найти работу или получить повышениеХотите получить базу для потенциальной смены сферы деятельности в сторону IT для био/медицины

Хотите сэкономить свое время и получить рафинированный набор ресурсов для дальнейшего развития

После обучения вы сможете:

Навигировать в “зоопарке” методов машинного обучения

Применять методы классического машинного обучения для распространенных задач

Оценивать качество моделей ML и корректно использовать метрики качества

Решать задачи бинарной классификации и сегментации изображений самостоятельно

Общаться с опытными ML-щиками на одном языке

Показать работодателю ваши кейсы через ссылку на нашем сайте с отзывом наставника

Эффективно развиваться в новых задачах на базе знаний курса

Претендовать на новые зоны ответственности по задачам ML и Computer Vision в биомеде

Программа:
Модуль 1. Задачи классического ML в биологии и биомедицине.

Основные задачи машинного обучения: регрессия и классификация.

Линейная регрессия. Функция потерь. Метрики MSE и R2

Скоррелированные признаки. Проблема переобучения, гиперпараметры, Train/Test/Validation. L1 и L2 регуляризация.

Шкалирование признаков. One-hot encoding категориальных признаков. Работа с пропущенными значениями.

Логистическая регрессия. Метрики качества классификации: accuracy, AUROC, AUPRC. Задача мультиклассовой классификации. Линейная разделимость и feature engineering. Методы оценки значимости признаков.

Библиотека sklearn и интерфейс fit/predict/predict_proba.

Основные типы классических моделей: SVM, градиентный бустинг и случайный лес, kNN, кластеризация.

Модуль 2. Обучение без учителя. Кластеризация. Понижение размерности. Примеры биологических задач.

Кластеризация. K-means, KNN, Иерархическая кластеризация, DBScan.

Методы оценки качества кластеризации.

Примеры биоинформатических задач, в решении которых применяются методы кластеризации.

Методы понижения размерности. PCA, t-SNE, UMAP. Сравнительные характеристики методов.

Практика применения методов понижения размерности.

Модуль 3. Нейронные сети с нуля. NEW

Фундаментальные математические основы нейронных сетей. Линейная алгебра, векторный анализ и теория вероятностей для ML.

Построение базовых блоков нейросети с нуля. Реализация плотного слоя и векторизация операций на NumPy.

Функции активации и их роль в обучении. ReLU, Sigmoid и численно устойчивая реализация Softmax.

Функции потерь для задач классификации и регрессии. Cross-Entropy для Softmax и MSE для линейного выхода.

Механизм обратного распространения ошибки (Backpropagation). Пошаговая реализация градиентного спуска на основе правила цепочки.

Современные алгоритмы оптимизации. Разбор и реализация Momentum, RMSProp и Adam.

Методы борьбы с переобучением. L1/L2 регуляризация и реализация Dropout.

Построение полного тренировочного цикла "с нуля". Логирование метрик, валидация и сохранение лучшей модели.

Практический проект на реальном датасете. Полный пайплайн от предобработки данных до финальной оценки модели.

Переход от NumPy к профессиональным фреймворкам. Как фундаментальные знания ускоряют работу в PyTorch и TensorFlow.

Модуль 4. Нейронные сети и введение в DeepLearning.

Введение в нейронные сети. Перцептрон. Вспоминаем бэкпроп и оптимизацию. Полносвязные нейронные сети.

Введение в PyTorch, работа тензоров, .to("cuda"), как понимать написание сложных функций на примере функций потерь. Примеры построения линейной и логистической регрессий в pytorch.

Оптимизационные методы первого порядка: SGD, Momentum, AdaGrad, Adam. Разбор работы современных оптимизаторов. Что такое learning rate и можно ли обойтись без него?

Сверточные нейронные сети. Сверточное ядро, инвариантности, слои, архитектуры, работа основных составных блоков архитектур.

Pytorch+Torchvision: знакомство, обучаем сверточные сети на классификации. Timm - библиотека для работы с нейронными сетями для обработки изображений.

Диагностика проблем работы нейронной сети. Визуализация работы сверточного ядра.

Разбор статей, ResNet, BatchNorm, Visual transformer. Как изменялись парадигмы с усовершенствованием архитектур.

Модуль 5. Интеграция мультиомиксных данных.

Омиксные данные. Обзор основных типов. Введение в анализ омиксных данных (основные подходы, best practices).

Примеры задач для которых необходимо проводить интеграцию мультиомиксных данных.

Итеграция мультиомиксных данных с использованием подходов, основанных на методах понижения размерности: MOFA, MCCA и другие.

Использование нейросетей для понижения размерности. Автоэнкодеры и их архитектуры.

Примеры использования автоэнкодеров для интеграции мультиомиксных данных в биоинформатике.

Архитектуры автоэнкодеров

Модуль 6. Классификация и сегментация изображений с помощью технологий Computer Vision.

Обзор задач CV в медицине и биотехнологиях.

Работа с изображениями в python (numpy, Pillow, элементы opencv).

Медицинские изображения в формате DICOM.

Нейронные сети для обработки изображений (свёрточный слой и свёрточная нейронная сеть).

Задача классификации изображений при помощи свёрточных нейронных сетей (построение функции потерь и функционала качества).

Базовые методы улучшения качества и ускорения сходимости моделей: использование предобученных моделей, использование аугментаций.

Методы аугментации изображений (transforms v2, Albumentations, kornia).

Построение общего пайплайна классификации изображений на основе предобученных моделей из библиотеки pytorch image models (timm).

Задача семантической сегментации изображений при помощи свёрточных нейронных сетей (построение функции потерь и функционала качества).

Построение общего пайплайна семантической сегменации изображений на основе предобученных моделей из библиотеки segmentation models pytorch (smp).

Проведение воспроизводимых ml-экспериментов: пайплайн обучения на pytorch lightning, запись и визуализация экспериментов в tensorboard и wandb.

Проведение хакатона и разбор базового решения заключительного соревнования по машинному обучению.

Выпускной проект - групповое соревнование по теме Computer Vision.

Скрытый текст. Доступен только зарегистрированным пользователям.
Нажмите, чтобы раскрыть...