Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
mlrep [2021/11/15 08:11]
user
mlrep [2023/07/21 20:37] (current)
Line 8: Line 8:
 Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!  Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения! 
  
-В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. +В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. \\ \\
  
-**Содержание**+<fs medium>[[#декабря -- 18:30|1 декабря -- 18:30]]</fs> 
  
-  * [[https://mlrep-atp-mipt.timepad.ru/event/1817677/егистрация]] +<fs medium>[[#2 декабря -- 17:00|декабря -- 17:00]]</fs>
-  * [[#О проблеме воспроизводимости|О проблеме воспроизводимости]] +
-  * [[#Темы семинара|Программа семинара]] +
-  * [[#Доверие к ИИ: открытый код, данные, стандарты. Круглый стол|Круглый столДоверие к ИИ]] +
-  * [[#Помощь в организации онлайн семинара|Организаторы]]+
  
 +<fs medium>[[#2 декабря -- 18:00|2 декабря -- 18:00 -- Круглый стол: Доверие к ИИ]]</fs>
  
-----+<fs medium>[[#О проблеме воспроизводимости|О проблеме воспроизводимости]]</fs> 
  
-**Когда** - **1-2 декабря. Онлайн.**+<fs medium>[[#Помощь в организации онлайн семинара|Организаторы]]</fs> 
 + 
 +----
  
 <html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/ <html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/
Line 32: Line 31:
 **Сайт конференции** — https://conf.mipt.ru **Сайт конференции** — https://conf.mipt.ru
  
-**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org 
  
-Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]]+==== 1 декабря -- 18:30 ====
  
-Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]]+<fs large>Оптимизация "черного ящика" с использованием локальных генеративных суррогатных моделей</fs> \\ \\ 
 +**Сергей Широбоков** \\ Imperial College London \\
  
-===== О проблеме воспроизводимости =====+<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/rw1RKOilr2I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.+{{Слайды}}
  
-Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источникцитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.+В таких областях, как физика и инженериямногие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую
  
-Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]].+Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметровМы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента
  
-Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами+В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь\\ \\
  
-Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.+<fs large>Применение методов машинного обучения на примере анализа структур РНК</fs> \\ \\  
 +**Евгений Баулин** \\ МФТИ \\ 
  
-В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами. +<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/3VG1pckshCA" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.+{{| Слайды}}
  
-[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]]+Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов
  
-[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]]+В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниямРазберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать\\ \\ 
  
-[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]]+<fs large>Что такое доверенный ИИ?</fs> \\ \\ 
 +**Антон Хританков** \\ MLRep, МФТИ \\
  
-[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]]+<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/dx-R0puH24I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-===== Темы семинара =====+{{| Слайды}}
  
-  * reproducible research, MLops и проблемы воспроизводимости экспериментов +Какие системы машинного обучения можно считать доверенными (trustworthy)? Сейчас много разговоров о том, какие требования должны предъявляться к системам, имеющим влияние на широкие группы пользователей. Что такое надежность, безопасность, непредвзятость и другие характеристики качествапредъявляемые к таким системам.
-  * анализ и автоматический выбор моделей как часть эксперимента +
-  * полезность публикации кодаданных и эксперимента в научной сферепроблемы доступности данных  +
-  * построение пайплайнов обучения моделей в компаниихранение и управление конфигурацией данных +
-  * автоматизация проведения экспериментов на учебных курса+
  
-**Программа семинара уточняется**+Расскажу о паре примеров, когда использование недосточно доверенных систем приводило к совершенно нежелательным и заранеее не понятным последствиям. Обсудим, что нужно делать для создания доверенных систем машинного обучения и при чем здесь воспроизводимость экспериментов? \\ \\
  
-  - приглашенные доклады по проведению экспериментов в ML 
-  - секционные доклады конференции МФТИ (conf.mipt.ru) секции [[https://conf.mipt.ru/view/conference/view_division/2702321|Проблем проведения экспериментов]] 
-  - круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных 
  
 +==== 1 декабря -- 20:00 ====
  
-===== Приглашенные доклады =====+Секционные доклады 64-й конференции МФТИ \\ \\ 
  
-^Время^Докладчик^Название и аннотация^ +<fs large>Секция проблем повторяемости и достоверности результатов в науках о данных</fs> \\ \\
-|  | **Вадим Стрижов** \\ \\ МФТИ | **Риски и результаты научных исследований**  \\ \\ Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. | +
-|  | **Сергей Широбоков** \\ \\ Imperial College London | **Оптимизация "черного ящика" с использованием локальных генеративных суррогатных моделей** \\ \\ В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую. Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметров. Мы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента. В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь. | +
-|  | **Андрей Устюжанин** \\ \\ НИУ ВШЭ, МФТИ, CERN | **Co-research: методология академических и научных исследований, основанных на данных (data-driven research)** \\ \\ Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов. Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта. | +
-|  | **Антон Хританков** \\ \\ MLRep, МФТИ | **Воспроизводимые эксперименты в MLDev на Google Colab** \\ \\ Полезные решения в науках о данных редко возникают из ниоткуда. Чаще всего они будут основываться на применении ранее полученных научных результатов, их переосмыслении и применении к прикладным задачам. Несмотря на усилия сообщества исследователей, повторное использование или даже проверка полученных другими командами результатов вызывает большие сложности. В докладе будет разобран пример применения системы MLDev для восстановления работоспособности и запуска на Google Colab опубликованных ранее исследовательских экспериментов. | +
-|  | **Евгений Баулин** \\ \\ МФТИ | **Применение методов машинного обучения на примере анализу структур РНК** \\ \\ Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать. |+
  
 +<fs large>Секция алгоритмов и технологий программирования</fs> \\ \\
  
 +Перечень докладов будет уточнен позднее \\ \\
  
-===== Доверие к ИИ: открытый код, данные, стандарты. Круглый стол =====+==== 2 декабря -- 17:00 ====
  
-{{ :mlrep:announcement.jpg?nolink&400|}} +<fs large>Риски и результаты научных исследований</fs> \\ \\ 
-\\  +**Вадим Стрижов** \\ МФТИ \\ 
-Как создать интеллектуальные системы достойными доверия? \\ \\ Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю  банкахуправляют поставками товаров в магазины и топлива на электростанциипроводят собеседования при приеме на работу. \\ \\ Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания. + 
-\\ \\ +<html> 
- +<iframe width="560" height="315" src="https://www.youtube.com/embed/SuihavUq8Jk" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html> 
 + 
 +{{Слайды}} 
 + 
 +Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертацийна конференциях, на презентациях отчетов.  
 + 
 +Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. \\ \\ 
 + 
 +<fs large>Co-research: методология академических и научных исследований, основанных на данных (data-driven research)</fs> \\ \\ 
 +**Андрей Устюжанин** \\ НИУ ВШЭ, МФТИ, CERN \\ 
 + 
 +<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/n_OUppPj77k" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html> 
 + 
 +{{| Слайды}} 
 + 
 +Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов.  
 + 
 +Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта. \\ \\ 
 + 
 + 
 +==== 2 декабря -- 18:00 ==== 
 + 
 +<fs x-large>Доверие к ИИ: открытый код, данные, стандарты</fs> 
 + 
 +Темы круглого стола: \\  
 + 
 +-- доверие к исследованиям в области ИИ и ответственность исследователей 
 + 
 +-- постановка задач и воспроизводимость результатов в науках о данных 
 + 
 +-- открытые данные (FAIR), открытый код, открытые эксперименты 
 + 
 +-- инструменты автоматизации научных исследований
  
-<fs x-large> Темы круглого стола </fs> 
 ---- ----
  
-  * доверие к исследованиям в области ИИ и ответственность исследователей +<html> 
-  * постановка задачи и воспроизводимость результатов +<iframe width="560" height="315" src="https://www.youtube.com/embed/CSCr8nkaQ6E" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
-  * открытые данные (FAIR), открытый код, открытые эксперименты  +</html>
-  * инструменты автоматизации научных исследований+
  
  
-**Модератор** - Антон Хританков, к.ф.-м.н., руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]], МФТИ. 
-\\ \\  
-<fs x-large> Приглашенные эксперты </fs> 
 ---- ----
  
Line 122: Line 150:
 ---- ----
  
-{{:mlrep:fursin.jpg?nolink&120 |}} **Григорий Фурсин, Ph.D.** \\ \\ VP of MLOps at OctoML.ai, https://octoml.ai \\ \\ Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям+{{:mlrep:musin.jpg?nolink&120 |}} **Шамиль Мусин** \\ \\ Рукдепартамента проектов ИИ, Forecsys, https://forecsys.ru \\ \\ Руководит коммерческими проектами в области анализа данных и машинного обучения. Среди реализованных проектов система прогнозирования дефолтов корпоративных клиентов банка, индикатор наличия рабочего напряжения с использованием интеллектуального анализа данных, система прогнозирования балансов банков. 
 + \\ \\ 
 + 
 +---- 
 +\\ \\ 
 +Модератор дискуссии - **Антон Хританков, к.ф.-м.н.**, руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]]. 
 +\\ \\ 
  
-\\ \\ \\ 
    
 +==== О проблеме воспроизводимости ====
  
-===== Помощь в организации онлайн семинара ======+Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом. 
 + 
 +Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях. 
 + 
 +Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]]. 
 + 
 +Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.  
 + 
 +Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований. 
 + 
 +В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.  
 + 
 +Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний. 
 + 
 +[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]] 
 + 
 +[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]] 
 + 
 +[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]] 
 + 
 +[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]] 
 + 
 +==== Помощь в организации онлайн семинара ====
  
 <html> <html>
Line 137: Line 193:
 </p> </p>
 </html> </html>
 +\\ \\
  
 +**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org
 +
 +Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]]
 +
 +Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]]