mlrep [Программная инженерия и машинное обучение]

This is an old revision of the document!

~~META: title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? ~~

Как проводить эксперименты в науках о данных?
2-ой онлайн-семинар по актуальным проблемам.
1-2 декабря 2021 г.

Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!

В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ.

Содержание

Регистрация
О проблеме воспроизводимости
Программа семинара
Круглый стол: Доверие к ИИ
Организаторы

Когда - 1-2 декабря. Онлайн.

Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1817677/

Сайт конференции — https://conf.mipt.ru

Контакты по вопросам — Telegram или mailto:info [at] mlrep.org

Страница прошедшего онлайн семинара в 2020 г.

Видео докладов семинара 2020 г.

Онлайн семинар посвящен актуальной проблеме открытости данных и воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.

Принципы открытости данных FAIR предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.

Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется обеспечивать воспроизводимость экспериментов при публикации.

Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.

Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.

В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере MLOps создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.

Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.

[Hutson] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018.

[MLOps] Why MLOps (and not just ML) is your Business’ New Competitive Frontier

[FAIR] FAIR Principles

[REPRO] Чего хотят конференции: воспроизводимость экспериментов в data science?

reproducible research, MLops и проблемы воспроизводимости экспериментов
анализ и автоматический выбор моделей как часть эксперимента
полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных
построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных
автоматизация проведения экспериментов на учебных курса

Программа семинара уточняется

приглашенные доклады по проведению экспериментов в ML
секционные доклады конференции МФТИ (conf.mipt.ru) секции Проблем проведения экспериментов
круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных

Время	Докладчик	Название и аннотация
	Вадим Стрижов МФТИ	Риски и результаты научных исследований Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов.
	Андрей Устюжанин НИУ ВШЭ, МФТИ, CERN	Тема доклада уточняется Аннотация будет добавлена позднее
	Антон Хританков MLRep, МФТИ	Воспроизводимые эксперименты в MLDev на Google Colab Аннотация будет добавлена позднее
	Евгений Баулин МФТИ	Применение методов машинного обучения на примере анализу структур РНК Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе “разведывательных” экспериментов и при подготовке публикации, и как всего этого можно избежать.

Как создать интеллектуальные системы достойными доверия?

Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю банках, управляют поставками товаров в магазины и топлива на электростанции, проводят собеседования при приеме на работу.

Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания.

Темы круглого стола

доверие к исследованиям в области ИИ и ответственность исследователей
постановка задачи и воспроизводимость результатов
открытые данные (FAIR), открытый код, открытые эксперименты
инструменты автоматизации научных исследований

Модератор - Антон Хританков, к.ф.-м.н., руководитель проекта MLDev, МФТИ.

Приглашенные эксперты

Михаил Бурцев, к.ф.-м.н.

зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai

Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2).

Вадим Стрижов, д.ф.-м.н.

проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org

Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”.

Андрей Устюжанин, к.ф.-м.н.

зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/

Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта.

Григорий Фурсин, Ph.D.

VP of MLOps at OctoML.ai, https://octoml.ai

Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям.

О проблеме воспроизводимости

Темы семинара

Приглашенные доклады

Доверие к ИИ: открытый код, данные, стандарты. Круглый стол

Помощь в организации онлайн семинара