This is an old revision of the document!


~~META: title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? ~~

Как проводить эксперименты в науках о данных?
2-ой онлайн-семинар по актуальным проблемам.
1-2 декабря 2021 г.


Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!

В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ.

Содержание


Когда - 1-2 декабря. Онлайн.

Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1817677/

Сайт конференцииhttps://conf.mipt.ru

Контакты по вопросамTelegram или mailto:info [at] mlrep.org

Страница прошедшего онлайн семинара в 2020 г.

Видео докладов семинара 2020 г.

Онлайн семинар посвящен актуальной проблеме открытости данных и воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.

Принципы открытости данных FAIR предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.

Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется обеспечивать воспроизводимость экспериментов при публикации.

Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.

Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.

В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере MLOps создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.

Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.

[Hutson] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018.

[MLOps] Why MLOps (and not just ML) is your Business’ New Competitive Frontier

[FAIR] FAIR Principles

[REPRO] Чего хотят конференции: воспроизводимость экспериментов в data science?

  • reproducible research, MLops и проблемы воспроизводимости экспериментов
  • анализ и автоматический выбор моделей как часть эксперимента
  • полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных
  • построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных
  • автоматизация проведения экспериментов на учебных курса

Программа семинара уточняется

  1. приглашенные доклады по проведению экспериментов в ML
  2. секционные доклады конференции МФТИ (conf.mipt.ru) секции Проблем проведения экспериментов
  3. круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных
ВремяДокладчикНазвание и аннотация
Вадим Стрижов

МФТИ
Риски и результаты научных исследований

Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов.
Сергей Широбоков

Imperial College London
Оптимизация “черного ящика” с использованием локальных генеративных суррогатных моделей

В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую. Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметров. Мы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента. В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь.
Андрей Устюжанин

НИУ ВШЭ, МФТИ, CERN
Co-research: методология академических и научных исследований, основанных на данных (data-driven research)

Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов. Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта.
Антон Хританков

MLRep, МФТИ
Воспроизводимые эксперименты в MLDev на Google Colab

Полезные решения в науках о данных редко возникают из ниоткуда. Чаще всего они будут основываться на применении ранее полученных научных результатов, их переосмыслении и применении к прикладным задачам. Несмотря на усилия сообщества исследователей, повторное использование или даже проверка полученных другими командами результатов вызывает большие сложности. В докладе будет разобран пример применения системы MLDev для восстановления работоспособности и запуска на Google Colab опубликованных ранее исследовательских экспериментов.
Евгений Баулин

МФТИ
Применение методов машинного обучения на примере анализу структур РНК

Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе “разведывательных” экспериментов и при подготовке публикации, и как всего этого можно избежать.


Как создать интеллектуальные системы достойными доверия?

Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю банках, управляют поставками товаров в магазины и топлива на электростанции, проводят собеседования при приеме на работу.

Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания.

Темы круглого стола


  • доверие к исследованиям в области ИИ и ответственность исследователей
  • постановка задачи и воспроизводимость результатов
  • открытые данные (FAIR), открытый код, открытые эксперименты
  • инструменты автоматизации научных исследований

Модератор - Антон Хританков, к.ф.-м.н., руководитель проекта MLDev, МФТИ.

Приглашенные эксперты


Михаил Бурцев, к.ф.-м.н.

зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai

Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2).


Вадим Стрижов, д.ф.-м.н.

проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org

Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”.


Андрей Устюжанин, к.ф.-м.н.

зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/

Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта.


Григорий Фурсин, Ph.D.

VP of MLOps at OctoML.ai, https://octoml.ai

Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям.




ATP MIPT My First Scientific Paper 64th MIPT Conference Lambda HSE