This is an old revision of the document!


~~META: title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? ~~

Как проводить эксперименты в науках о данных?
2-ой онлайн-семинар по актуальным проблемам.
1-2 декабря 2021 г.


Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!

В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ.

Содержание


Когда - 1-2 декабря. Онлайн.

Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1817677/

Сайт конференцииhttps://conf.mipt.ru

Контакты по вопросамTelegram или mailto:info [at] mlrep.org

Страница прошедшего онлайн семинара в 2020 г.

Видео докладов семинара 2020 г.

Онлайн семинар посвящен актуальной проблеме открытости данных и воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.

Принципы открытости данных FAIR предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.

Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется обеспечивать воспроизводимость экспериментов при публикации.

Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.

Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.

В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере MLOps создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.

Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.

[Hutson] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018.

[MLOps] Why MLOps (and not just ML) is your Business’ New Competitive Frontier

[FAIR] FAIR Principles

[REPRO] Чего хотят конференции: воспроизводимость экспериментов в data science?

  • reproducible research, MLops и проблемы воспроизводимости экспериментов
  • анализ и автоматический выбор моделей как часть эксперимента
  • полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных
  • построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных
  • автоматизация проведения экспериментов на учебных курса

Программа семинара уточняется

  1. приглашенные доклады по проведению экспериментов в ML
  2. секционные доклады конференции МФТИ (conf.mipt.ru) секции Проблем проведения экспериментов
  3. круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных
ВремяДокладчикНазвание и аннотация
Вадим Стрижов

МФТИ
Риски и результаты научных исследований

Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов.
Андрей Устюжанин

НИУ ВШЭ, МФТИ, CERN
Тема доклада уточняется

Аннотация будет добавлена позднее
Антон Хританков

MLRep, МФТИ
Воспроизводимые эксперименты в MLDev на Google Colab

Аннотация будет добавлена позднее
Евгений Баулин

МФТИ
Применение методов машинного обучения на примере анализу структур РНК

Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе “разведывательных” экспериментов и при подготовке публикации, и как всего этого можно избежать.


Как создать интеллектуальные системы достойными доверия?

Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю банках, управляют поставками товаров в магазины и топлива на электростанции, проводят собеседования при приеме на работу.

Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания.

Темы круглого стола


  • доверие к исследованиям в области ИИ и ответственность исследователей
  • постановка задачи и воспроизводимость результатов
  • открытые данные (FAIR), открытый код, открытые эксперименты
  • инструменты автоматизации научных исследований

Модератор - Антон Хританков, к.ф.-м.н., руководитель проекта MLDev, МФТИ.

Приглашенные эксперты


Михаил Бурцев, к.ф.-м.н.

зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai

Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2).


Вадим Стрижов, д.ф.-м.н.

проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org

Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”.


Андрей Устюжанин, к.ф.-м.н.

зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/

Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта.


Григорий Фурсин, Ph.D.

VP of MLOps at OctoML.ai, https://octoml.ai

Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям.




ATP MIPT My First Scientific Paper 64th MIPT Conference Lambda HSE