Как проводить эксперименты в науках о данных? Онлайн-семинар по актуальным проблемам.

Воспроизводимость результатов — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!

В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 63-ей конференции МФТИ.

Когда - 23-24 ноября. Онлайн.

Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1451826/

Сайт конференции — https://conf.mipt.ru

Контакты по вопросам — Telegram или mailto:info [at] mlrep.org

reproducible research, MLops и проблемы воспроизводимости экспериментов
анализ и автоматический выбор моделей как часть эксперимента
полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных
построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных
автоматизация проведения экспериментов на учебных курса

Видео докладов семинара

Время	Докладчик	Название и аннотация
17:05-17:35	Вадим Стрижов МФТИ	Анализ ошибки и выбор моделей машинного обучения Рассматривается процедура построения модели машинного обучения, в которой принимают участие эксперт в прикладной области и аналитик (дата-сайентист). Они совместно определяют критерии качества и общий вид модели. Аналитик связывает алгебраические и статистические свойства данных с множеством моделей из которых будет выбрана оптимальная. Результатом выбора является модель, которая сравнивается с альтернативными моделями согласно определенным критериям качества на нескольких наборах данных со схожими свойствами. В докладе рассматривается процедура планирования вычислительного эксперимента и анализа ошибки. По результату этого анализа модель признается пригодной для эксплуатации в производстве.
17:35-18:05	Андрей Устюжанин НИУ ВШЭ, МФТИ, МИСиС	Командный исследовательский процесс работы над междисциплинарными проектами В своем рассказе я затрону основные предпосылки к построению командного исследовательского процесса. Такой процесс включает разных людей, преследующих различные цели, и разделяющих различные ценности. В условиях удаленной работы, особенно актуальной в наши дни, требуются дополнительные усилия для фокусировки внимания всех участников на совместной работе. Мы используем несколько сервисов, которые, как оказалось, хорошо подходят для ведения междисциплинарных распределенных проектов. Часть из них существует относительно давно, некоторые мы разработали специально. В рассказе будет продемонстрирована их работа на нескольких характерных примерах. Будут даны рекомендации по запуску новых проектов с использованием предлагаемого подхода.
18:05-18:35	Антон Хританков МФТИ	Задачи воспроизводимости исследований в проекте MLdev Проблема повторяемости и достоверности результатов экспериментов - одна из основных в науках о данных. Проект MLdev помогает студентам и исследователям проводить качественные эксперименты. Расскажем о реализуемых кейсах по автоматизации экспериментов.
18:35-19:30	Круглый стол	Проблемы воспроизводимости и проведения экспериментов в науках о данных Обсудим, как проявляется проблема воспроизводимости и повторяемости экспериментов в разных областях наук о данных, какие есть решения и при чем здесь MLops. Вот некоторые темы: - Что такое воспроизводимость и невоспроизводимость? - Качество результатов экспериментов и публикации - Инструменты, Kaggle, MLops и что еще поможет воспроизводимости? - Как научиться и как научить воспроизводимости? Участники: - Михаил Бурцев, руководитель iPavlov.ai - Константин Воронцов, зав. лаб. MIL МФТИ - Владимир Игловиков, Lyft, Kaggle Grandmaster - Вадим Стрижов, проф. МФТИ - Андрей Устюжанин, зав. лаб. Lambda ВШЭ

Студенческая секция 63-й конференции МФТИ
19:35-20:30	Уточняется	Перечень докладов будет уточнен позднее Рецензирование работ продолжается

Время	Докладчик	Название и аннотация
17:05-17:35	Александр Левин НИУ ВШЭ	Natural Language to Machine Learning NL2ML - это проект с большой целью научиться переводить естественный язык в исходный код. В последний год была проделана подготовительная работа для составления корпуса размеченного исходного кода. В рамках этого доклада мы расскажем о том, что такое граф знаний, как мы научились классифицировать исходный код по его вершинам и какие результаты получили, а также расскажем о дальнейших планах развития проекта.
17:35-18:05	Олег Ивченко МФТИ	Автоматизация проверки домашних заданий на курсах по большим данным Тестирование приложений в области больших данных имеет ряд сложностей по сравнению с тестированием традиционных программ. Одна из них - это собственно большие данные и, как следствие, большой объём результата программы. Кроме того, при проверке Hadoop-задания важно не только проверить его результат, но и оптимальность реализации. В этом случае полезен мониторинг ресурсов кластера в период выполнения программы. Третья в том, что рабочее окружение при проверке и окружение, в рамках которого работает студент, отличается и для перенесения кода между окружениями часто требуется модифицировать код. Эти модификации требуется автоматизировать. Система HJudge решает эти 3 проблемы, имея при этом простой интерфейс как со стороны студента, так и со стороны проверяющего поскольку базируется на Gitlab CI.
18:05-18:35	Алексей Гончаров Лаборатория машинного интеллекта МФТИ	Методология реализации наукоемких проектов в области искусственного интеллекта Выступление поможет ответить на вопрос: “Как выстроить работу над высокорискованным проектом, чтобы получить ожидаемый и ценный для индустрии результат?”. Будут рассмотрены основные тематические блоки: организация работы команды, формирование видения решения, разработка решения и накопление результатов.
18:35-19:05	Олег Сериков DeepPavlov, НИУ ВШЭ	Практика NLP экспериментов с использованием библиотеки DeepPavlov В докладе будет рассказано, о типовых паттернах использования библиотеки DeepPavlov для обучения и использования моделей машинного обучения.
19:05-19:35	Александр Наумчев, Владимир Иванов, Андрей Садовых Университет Иннополис	NLP for Extraction of Software Requirements from Text. Experience with BERT and Request for Information Documents Requirements identification in textual documents is a tedious and error prone task that many researchers suggest to automate. In this work we discuss a novel approach taking advantage of the latest advances in the natural language processing field. The originality of the approach stems from application of the synthetic data set to the Bidirectional Encoder Representations from Transformers model followed by fine tuning with a smaller human-annotated data set. We validated the approach with five documents including both a requirements specification and four Request For Information (RFI) documents to experiment with a requirements specification approach that differs from the traditional requirements engineering. The resulting prototype demonstrated at least comparable performance as the similar studies, while presenting several advantages. The experiments with the RFI documents showed certain limitations of the approach that we intend to alleviate in future work.

Студенческая секция 63-й конференции МФТИ
19:35-20:30	Уточняется	Перечень докладов будет уточнен позднее Рецензирование работ продолжается

Представляемые тезисы докладов должны соответствовать требованиям конференции МФТИ. В отдельных случаях возможно участие с докладом без представления тезисов. При оформлении работ по машинному обучению следует придерживаться рекомендаций и структуры m1p.org (https://m1p.org/index.php/Templates) и NeurIPS (https://github.com/paperswithcode/releasing-research-code). В работах по инструментам и программным средствам следует придерживаться рекомендаций (https://tiny.cc/progautom-template)

Секция посвящена актуальной проблеме воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.

Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных.

Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.

Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.

В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний.

Для решения целого круга задач в сфере MLops создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.

Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.

[1] Baker M. Reproducibility crisis. Nature. 2016 May 26;533(26):353-66.

[2] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. 16 Feb 2018: 359(6377):725-726

[3] https://en.wikipedia.org/wiki/MLOps

[4] Why MLOps (and not just ML) is your Business’ New Competitive Frontier

[5] Sculley D, Holt G, Golovin D, Davydov E, Phillips T, Ebner D, Chaudhary V, Young M, Crespo JF, Dennison D. Hidden technical debt in machine learning systems. Advances in neural information processing systems. 2015 (pp. 2503-2511).

Как проводить эксперименты в науках о данных? Онлайн-семинар по актуальным проблемам.

Темы онлайн семинара

Видео докладов семинара

Программа семинара

Понедельник 23 ноября - начало в 17:00

Вторник, 24 ноября - начало в 17:00

Представление тезисов на конференцию

О проблеме воспроизводимости