Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
mlrep [2021/11/10 11:10]
user
mlrep [2023/07/21 20:37] (current)
Line 8: Line 8:
 Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения!  Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения! 
  
-В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. +В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. \\ \\
  
-**Содержание**+<fs medium>[[#декабря -- 18:30|1 декабря -- 18:30]]</fs> 
  
-  * [[https://mlrep-atp-mipt.timepad.ru/event/1817677/егистрация]] +<fs medium>[[#2 декабря -- 17:00|декабря -- 17:00]]</fs>
-  * [[#О проблеме воспроизводимости|О проблеме воспроизводимости]] +
-  * [[#Темы семинара|Программа семинара]] +
-  * [[#Доверие к ИИ: открытый код, данные, стандарты. Круглый стол|Круглый столДоверие к ИИ]] +
-  * [[#Помощь в организации онлайн семинара|Организаторы]]+
  
 +<fs medium>[[#2 декабря -- 18:00|2 декабря -- 18:00 -- Круглый стол: Доверие к ИИ]]</fs>
  
-----+<fs medium>[[#О проблеме воспроизводимости|О проблеме воспроизводимости]]</fs> 
  
-**Когда** - **1-2 декабря. Онлайн.**+<fs medium>[[#Помощь в организации онлайн семинара|Организаторы]]</fs> 
 + 
 +----
  
 <html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/ <html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/
Line 32: Line 31:
 **Сайт конференции** — https://conf.mipt.ru **Сайт конференции** — https://conf.mipt.ru
  
-**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org 
  
-Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]]+==== 1 декабря -- 18:30 ====
  
-Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]]+<fs large>Оптимизация "черного ящика" с использованием локальных генеративных суррогатных моделей</fs> \\ \\ 
 +**Сергей Широбоков** \\ Imperial College London \\
  
-===== О проблеме воспроизводимости =====+<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/rw1RKOilr2I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом.+{{Слайды}}
  
-Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источникцитирование и получение доступа к данным исследований для повторного использования в новых исследованиях.+В таких областях, как физика и инженериямногие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую
  
-Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]].+Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметровМы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента
  
-Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами+В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь\\ \\
  
-Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований.+<fs large>Применение методов машинного обучения на примере анализа структур РНК</fs> \\ \\  
 +**Евгений Баулин** \\ МФТИ \\ 
  
-В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами. +<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/3VG1pckshCA" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний.+{{| Слайды}}
  
-[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]]+Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов
  
-[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]]+В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниямРазберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать\\ \\ 
  
-[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]]+<fs large>Что такое доверенный ИИ?</fs> \\ \\ 
 +**Антон Хританков** \\ MLRep, МФТИ \\
  
-[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]]+<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/dx-R0puH24I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html>
  
-===== Темы семинара =====+{{| Слайды}}
  
-  * reproducible research, MLops и проблемы воспроизводимости экспериментов +Какие системы машинного обучения можно считать доверенными (trustworthy)? Сейчас много разговоров о том, какие требования должны предъявляться к системам, имеющим влияние на широкие группы пользователей. Что такое надежность, безопасность, непредвзятость и другие характеристики качествапредъявляемые к таким системам.
-  * анализ и автоматический выбор моделей как часть эксперимента +
-  * полезность публикации кодаданных и эксперимента в научной сферепроблемы доступности данных  +
-  * построение пайплайнов обучения моделей в компаниихранение и управление конфигурацией данных +
-  * автоматизация проведения экспериментов на учебных курса+
  
-**Программа семинара уточняется**+Расскажу о паре примеров, когда использование недосточно доверенных систем приводило к совершенно нежелательным и заранеее не понятным последствиям. Обсудим, что нужно делать для создания доверенных систем машинного обучения и при чем здесь воспроизводимость экспериментов? \\ \\
  
-  - приглашенные доклады по проведению экспериментов в ML 
-  - секционные доклады конференции МФТИ (conf.mipt.ru) секции [[https://conf.mipt.ru/view/conference/view_division/2702321|Проблем проведения экспериментов]] 
-  - круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных 
  
 +==== 1 декабря -- 20:00 ====
  
-===== Приглашенные доклады =====+Секционные доклады 64-й конференции МФТИ \\ \\ 
  
-^Время^Докладчик^Название и аннотация+<fs large>Секция проблем повторяемости и достоверности результатов в науках о данных</fs> \\ \\
-|  | **Вадим Стрижов** \\ \\ МФТИ | **Риски и результаты научных исследований**  \\ \\ Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. | +
-|  | **Андрей Устюжанин** \\ \\ НИУ ВШЭ, МФТИ, CERN | **Тема доклада уточняется** \\ \\ Аннотация будет добавлена позднее | +
-|  | **Антон Хританков** \\ \\ MLRep, МФТИ | **Воспроизводимые эксперименты в MLDev на Google Colab** \\ \\ Аннотация будет добавлена позднее | +
-|  | **Евгений Баулин** \\ \\ МФТИ | **Применение методов машинного обучения на примере анализу структур РНК** \\ \\ Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать. |+
  
 +<fs large>Секция алгоритмов и технологий программирования</fs> \\ \\
  
 +Перечень докладов будет уточнен позднее \\ \\
  
-===== Доверие к ИИ: открытый код, данные, стандарты. Круглый стол =====+==== 2 декабря -- 17:00 ====
  
-{{ :mlrep:announcement.jpg?nolink&400|}} +<fs large>Риски и результаты научных исследований</fs> \\ \\ 
-\\  +**Вадим Стрижов** \\ МФТИ \\ 
-Как создать интеллектуальные системы достойными доверия? \\ \\ Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю  банкахуправляют поставками товаров в магазины и топлива на электростанциипроводят собеседования при приеме на работу. \\ \\ Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания. + 
-\\ \\ +<html> 
- +<iframe width="560" height="315" src="https://www.youtube.com/embed/SuihavUq8Jk" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html> 
 + 
 +{{Слайды}} 
 + 
 +Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертацийна конференциях, на презентациях отчетов.  
 + 
 +Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. \\ \\ 
 + 
 +<fs large>Co-research: методология академических и научных исследований, основанных на данных (data-driven research)</fs> \\ \\ 
 +**Андрей Устюжанин** \\ НИУ ВШЭ, МФТИ, CERN \\ 
 + 
 +<html> 
 +<iframe width="560" height="315" src="https://www.youtube.com/embed/n_OUppPj77k" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
 +</html> 
 + 
 +{{| Слайды}} 
 + 
 +Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов.  
 + 
 +Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта. \\ \\ 
 + 
 + 
 +==== 2 декабря -- 18:00 ==== 
 + 
 +<fs x-large>Доверие к ИИ: открытый код, данные, стандарты</fs> 
 + 
 +Темы круглого стола: \\  
 + 
 +-- доверие к исследованиям в области ИИ и ответственность исследователей 
 + 
 +-- постановка задач и воспроизводимость результатов в науках о данных 
 + 
 +-- открытые данные (FAIR), открытый код, открытые эксперименты 
 + 
 +-- инструменты автоматизации научных исследований
  
-<fs x-large> Темы круглого стола </fs> 
 ---- ----
  
-  * доверие к исследованиям в области ИИ и ответственность исследователей +<html> 
-  * постановка задачи и воспроизводимость результатов +<iframe width="560" height="315" src="https://www.youtube.com/embed/CSCr8nkaQ6E" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 
-  * открытые данные (FAIR), открытый код, открытые эксперименты  +</html>
-  * инструменты автоматизации научных исследований+
  
  
-**Модератор** - Антон Хританков, к.ф.-м.н., руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]], МФТИ. 
-\\ \\  
-<fs x-large> Приглашенные эксперты </fs> 
 ---- ----
  
Line 121: Line 150:
 ---- ----
  
-{{:mlrep:fursin.jpg?nolink&120 |}} **Григорий Фурсин, Ph.D.** \\ \\ VP of MLOps at OctoML.ai, https://octoml.ai \\ \\ Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям+{{:mlrep:musin.jpg?nolink&120 |}} **Шамиль Мусин** \\ \\ Рукдепартамента проектов ИИ, Forecsys, https://forecsys.ru \\ \\ Руководит коммерческими проектами в области анализа данных и машинного обучения. Среди реализованных проектов система прогнозирования дефолтов корпоративных клиентов банка, индикатор наличия рабочего напряжения с использованием интеллектуального анализа данных, система прогнозирования балансов банков. 
 + \\ \\ 
 + 
 +---- 
 +\\ \\ 
 +Модератор дискуссии - **Антон Хританков, к.ф.-м.н.**, руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]]. 
 +\\ \\ 
  
-\\ \\ \\ 
    
 +==== О проблеме воспроизводимости ====
  
-===== Помощь в организации онлайн семинара ======+Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом. 
 + 
 +Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях. 
 + 
 +Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]]. 
 + 
 +Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами.  
 + 
 +Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований. 
 + 
 +В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами.  
 + 
 +Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний. 
 + 
 +[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]] 
 + 
 +[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]] 
 + 
 +[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]] 
 + 
 +[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]] 
 + 
 +==== Помощь в организации онлайн семинара ====
  
 <html> <html>
Line 136: Line 193:
 </p> </p>
 </html> </html>
 +\\ \\
  
 +**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org
 +
 +Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]]
 +
 +Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]]