This is an old revision of the document!
Как проводить эксперименты в науках о данных?
2-ой онлайн-семинар по актуальным проблемам. 2021 г.
Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!
В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ.
Страница прошедшего онлайн семинара в 2020 г.
Видео докладов семинара 2020 г.
Когда - в конце ноября. Онлайн.
Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1817677/
Сайт конференции — https://conf.mipt.ru
Контакты по вопросам — Telegram или mailto:info [at] mlrep.org
Темы онлайн семинара
- reproducible research, MLops и проблемы воспроизводимости экспериментов
- анализ и автоматический выбор моделей как часть эксперимента
- полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных
- построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных
- автоматизация проведения экспериментов на учебных курса
О проблеме воспроизводимости
Онлайн семинар посвящен актуальной проблеме открытости данных и воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.
Принципы открытости данных FAIR предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.
Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется обеспечивать воспроизводимость экспериментов при публикации.
Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.
Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.
В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере MLOps создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.
Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.
[Hutson] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018.
[MLOps] Why MLOps (and not just ML) is your Business’ New Competitive Frontier
[FAIR] FAIR Principles
[REPRO] Чего хотят конференции: воспроизводимость экспериментов в data science?
Программа семинара
Программа семинара уточняется
- приглашенные доклады по проведению экспериментов в ML
- секционные доклады конференции МФТИ (conf.mipt.ru) секции Проблем проведения экспериментов
- круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных
Приглашенные доклады
Время | Докладчик | Название и аннотация |
---|---|---|
Вадим Стрижов МФТИ | Постановка задач и оценка результатов в научных исследованиях Аннотация будет добавлена позднее |
|
Андрей Устюжанин НИУ ВШЭ, МФТИ, CERN | Тема доклада уточняется Аннотация будет добавлена позднее |
|
Антон Хританков MLRep, МФТИ | Воспроизводимые эксперименты в MLDev на Google Colab Аннотация будет добавлена позднее |
|
Евгений Баулин МФТИ | Применение методов машинного обучения на примере анализу структур РНК Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе “разведывательных” экспериментов и при подготовке публикации, и как всего этого можно избежать. |
Круглый стол: Доверие к ИИ: открытый код, данные, стандарты
Как создать интеллектуальные системы достойными доверия? Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю банках, управляют поставками товаров в магазины и топлива на электростанции, проводят собеседования при приеме на работу. Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания. | ![]() |
Темы круглого стола
- доверие к исследованиям в области ИИ и ответственность исследователей
- постановка задачи и воспроизводимость результатов
- открытые данные (FAIR), открытый код, открытые эксперименты
- инструменты автоматизации научных исследований
Модератор - Антон Хританков, к.ф.-м.н., руководитель проекта MLDev, МФТИ.
Приглашенные эксперты
![]() | Михаил Бурцев, к.ф.-м.н. зав. лаб. нейронных систем и глубокого обучения МФТИ Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2). |
||
![]() | Вадим Стрижов, д.ф.-м.н. проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”. |
||
![]() | Андрей Устюжанин, к.ф.-м.н. зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/ Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта. |
||
![]() | Григорий Фурсин, Ph.D. VP of MLOps at OctoML.ai, https://octoml.ai Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям. |