mlrep [Программная инженерия и машинное обучение]

~~META: title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? ~~

Как проводить эксперименты в науках о данных?
2-ой онлайн-семинар по актуальным проблемам.
1-2 декабря 2021 г.

Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!

В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ.

1 декабря -- 18:30

2 декабря -- 17:00

2 декабря -- 18:00 -- Круглый стол: Доверие к ИИ

О проблеме воспроизводимости

Организаторы

Регистрация - https://mlrep-atp-mipt.timepad.ru/event/1817677/

Сайт конференции — https://conf.mipt.ru

Оптимизация “черного ящика” с использованием локальных генеративных суррогатных моделей

Сергей Широбоков
Imperial College London

Слайды

В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую.

Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметров. Мы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента.

В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь.

Применение методов машинного обучения на примере анализа структур РНК

Евгений Баулин
МФТИ

Слайды

Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов.

В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе “разведывательных” экспериментов и при подготовке публикации, и как всего этого можно избежать.

Что такое доверенный ИИ?

Антон Хританков
MLRep, МФТИ

Слайды

Какие системы машинного обучения можно считать доверенными (trustworthy)? Сейчас много разговоров о том, какие требования должны предъявляться к системам, имеющим влияние на широкие группы пользователей. Что такое надежность, безопасность, непредвзятость и другие характеристики качества, предъявляемые к таким системам.

Расскажу о паре примеров, когда использование недосточно доверенных систем приводило к совершенно нежелательным и заранеее не понятным последствиям. Обсудим, что нужно делать для создания доверенных систем машинного обучения и при чем здесь воспроизводимость экспериментов?

Секционные доклады 64-й конференции МФТИ

Секция проблем повторяемости и достоверности результатов в науках о данных

Секция алгоритмов и технологий программирования

Перечень докладов будет уточнен позднее

Риски и результаты научных исследований

Вадим Стрижов
МФТИ

Слайды

Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов.

Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов.

Co-research: методология академических и научных исследований, основанных на данных (data-driven research)

Андрей Устюжанин
НИУ ВШЭ, МФТИ, CERN

Слайды

Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов.

Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта.

Доверие к ИИ: открытый код, данные, стандарты

Темы круглого стола:

– доверие к исследованиям в области ИИ и ответственность исследователей

– постановка задач и воспроизводимость результатов в науках о данных

– открытые данные (FAIR), открытый код, открытые эксперименты

– инструменты автоматизации научных исследований

Михаил Бурцев, к.ф.-м.н.

зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai

Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2).

Вадим Стрижов, д.ф.-м.н.

проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org

Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”.

Андрей Устюжанин, к.ф.-м.н.

зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/

Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта.

Шамиль Мусин

Рук. департамента проектов ИИ, Forecsys, https://forecsys.ru

Руководит коммерческими проектами в области анализа данных и машинного обучения. Среди реализованных проектов система прогнозирования дефолтов корпоративных клиентов банка, индикатор наличия рабочего напряжения с использованием интеллектуального анализа данных, система прогнозирования балансов банков.

Модератор дискуссии - Антон Хританков, к.ф.-м.н., руководитель проекта MLDev.

Онлайн семинар посвящен актуальной проблеме открытости данных и воспроизводимости результатов исследований в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.

Принципы открытости данных FAIR предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.

Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется обеспечивать воспроизводимость экспериментов при публикации.

Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.

Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.

В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере MLOps создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.

Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.

[Hutson] Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018.

[MLOps] Why MLOps (and not just ML) is your Business’ New Competitive Frontier

[FAIR] FAIR Principles

[REPRO] Чего хотят конференции: воспроизводимость экспериментов в data science?