|
|
mlrep [2021/11/23 21:29] user |
mlrep [2023/07/21 20:37] |
~~META: | |
title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? | |
~~ | |
| |
<fs xx-large>Как проводить эксперименты в науках о данных? </fs> \\ <fs x-large>2-ой онлайн-семинар по актуальным проблемам.\\ 1-2 декабря 2021 г. </fs> | |
---- | |
| |
Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения! | |
| |
В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. \\ \\ | |
| |
<fs medium>[[#1 декабря -- 18:30|1 декабря -- 18:30]]</fs> | |
| |
<fs medium>[[#2 декабря -- 17:00|2 декабря -- 17:00]]</fs> | |
| |
<fs medium>[[#2 декабря -- 18:00|2 декабря -- 18:00 -- Круглый стол: Доверие к ИИ]]</fs> | |
| |
<fs medium>[[#О проблеме воспроизводимости|О проблеме воспроизводимости]]</fs> | |
| |
<fs medium>[[#Помощь в организации онлайн семинара|Организаторы]]</fs> | |
| |
---- | |
| |
<html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/ | |
<html><script async="async" defer="defer" charset="UTF-8" data-timepad-customized="133728" data-timepad-widget-v2="event_register" src="https://timepad.ru/js/tpwf/loader/min/loader.js"> | |
(function(){ | |
return {"event" : {"id" : 1817677}, "hidePreloading" : true, "display" : "popup", "popup" : {"triggerSelector" : "#timepad_twf_register_1817677"} | |
}}) | |
();</script></html> | |
| |
**Сайт конференции** — https://conf.mipt.ru | |
| |
| |
==== 1 декабря -- 18:30 ==== | |
| |
<fs large>Оптимизация "черного ящика" с использованием локальных генеративных суррогатных моделей</fs> \\ \\ | |
**Сергей Широбоков** \\ Imperial College London \\ | |
| |
В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую. | |
| |
Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметров. Мы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента. | |
| |
В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь. \\ \\ | |
| |
<fs large>Применение методов машинного обучения на примере анализа структур РНК</fs> \\ \\ | |
**Евгений Баулин** \\ МФТИ \\ | |
| |
Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. | |
| |
В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать. \\ \\ | |
| |
<fs large>Воспроизводимые эксперименты в MLDev на Google Colab</fs> \\ \\ | |
**Антон Хританков** \\ MLRep, МФТИ \\ | |
| |
Полезные решения в науках о данных редко возникают из ниоткуда. Чаще всего они будут основываться на применении ранее полученных научных результатов, их переосмыслении и применении к прикладным задачам. Несмотря на усилия сообщества исследователей, повторное использование или даже проверка полученных другими командами результатов вызывает большие сложности. | |
| |
В докладе будет разобран пример применения системы MLDev для восстановления работоспособности и запуска на Google Colab опубликованных ранее исследовательских экспериментов. \\ \\ | |
| |
| |
==== 1 декабря -- 20:00 ==== | |
| |
Секционные доклады 64-й конференции МФТИ \\ \\ | |
| |
<fs large>Секция проблем повторяемости и достоверности результатов в науках о данных</fs> \\ \\ | |
| |
<fs large>Секция алгоритмов и технологий программирования</fs> \\ \\ | |
| |
Перечень докладов будет уточнен позднее \\ \\ | |
| |
==== 2 декабря -- 17:00 ==== | |
| |
<fs large>Риски и результаты научных исследований</fs> \\ \\ | |
**Вадим Стрижов** \\ МФТИ \\ | |
| |
Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. | |
| |
Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. \\ \\ | |
| |
<fs large>Co-research: методология академических и научных исследований, основанных на данных (data-driven research)</fs> \\ \\ | |
**Андрей Устюжанин** \\ НИУ ВШЭ, МФТИ, CERN \\ | |
| |
Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов. | |
| |
Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта. \\ \\ | |
| |
| |
==== 2 декабря -- 18:00 ==== | |
| |
<fs x-large>Доверие к ИИ: открытый код, данные, стандарты</fs> | |
| |
Темы круглого стола: \\ | |
| |
-- доверие к исследованиям в области ИИ и ответственность исследователей | |
| |
-- постановка задач и воспроизводимость результатов в науках о данных | |
| |
-- открытые данные (FAIR), открытый код, открытые эксперименты | |
| |
-- инструменты автоматизации научных исследований | |
| |
| |
---- | |
| |
{{:mlrep:burtsev.png?nolink&120 |}} **Михаил Бурцев, к.ф.-м.н.** \\ \\ зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai \\ \\ Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2). | |
| |
---- | |
| |
{{:mlrep:strijov.png?nolink&120 |}} **Вадим Стрижов, д.ф.-м.н. ** \\ \\ проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org \\ \\ Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”. \\ \\ | |
| |
---- | |
| |
{{:mlrep:ustuyzhanin.png?nolink&120 |}} **Андрей Устюжанин, к.ф.-м.н.** \\ \\ зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/ \\ \\ Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта. \\ | |
| |
---- | |
| |
{{:mlrep:fursin.jpg?nolink&120 |}} **Григорий Фурсин, Ph.D.** \\ \\ VP of MLOps at OctoML.ai, https://octoml.ai \\ \\ Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям. \\ \\ | |
| |
---- | |
\\ \\ | |
Модератор дискуссии - **Антон Хританков, к.ф.-м.н.**, руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]], МФТИ. | |
\\ \\ | |
| |
| |
==== О проблеме воспроизводимости ==== | |
| |
Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом. | |
| |
Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях. | |
| |
Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]]. | |
| |
Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами. | |
| |
Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований. | |
| |
В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами. | |
| |
Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний. | |
| |
[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]] | |
| |
[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]] | |
| |
[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]] | |
| |
[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]] | |
| |
==== Помощь в организации онлайн семинара ==== | |
| |
<html> | |
<p> | |
<a style="margin: 25px" href="http://fpmi.tilda.ws/algo-tech/"><img src="https://gitlab.com/mlrep/mldev/-/wikis/images/atp-mipt.jpg" alt="ATP MIPT" height="80px"></a> | |
<a style="margin: 25px" href="http://m1p.org"><img src="https://gitlab.com/mlrep/mldev/-/wikis/images/m1p_logo.png" alt="My First Scientific Paper" height="80px"></a> | |
<a style="margin: 25px" href="https://conf.mipt.ru"><img src="/_media/conf-mipt-logo.png" alt="64th MIPT Conference" height="80px"/></a> | |
<a style="margin: 25px" href="http://cs.hse.ru/lambda"><img src="https://cs.hse.ru/mirror/pubs/share/368652417" alt="Lambda HSE" height="80px"></a> | |
</p> | |
</html> | |
\\ \\ | |
| |
**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org | |
| |
Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]] | |
| |
Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]] | |
| |
| |
| |