Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
mlrep [2021/11/06 11:51] user |
mlrep [2023/07/21 20:37] (current) |
| ~~META: |
| title = Доверие к ИИ. Круглый стол. Как проводить эксперименты в науках о данных? |
| ~~ |
| |
<html><h1>Как проводить эксперименты в науках о данных?<br/>2-ой онлайн-семинар по актуальным проблемам. 2021 г.</h1></html> | <fs xx-large>Как проводить эксперименты в науках о данных? </fs> \\ <fs x-large>2-ой онлайн-семинар по актуальным проблемам.\\ 1-2 декабря 2021 г. </fs> |
| ---- |
| |
Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения! | Воспроизводимость результатов и открытость данных — одна из базовых проблем экспериментов в data science. Присоединяйтесь к нам в поиске способов ее решения! |
| |
В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. | В программе — приглашенные доклады ведущих отраслевых и академических экспертов, а также студенческая секция. Мероприятие проводится в рамках 64-ой конференции МФТИ. \\ \\ |
| |
Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]] | <fs medium>[[#1 декабря -- 18:30|1 декабря -- 18:30]]</fs> |
| |
Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]] | <fs medium>[[#2 декабря -- 17:00|2 декабря -- 17:00]]</fs> |
| |
---- | <fs medium>[[#2 декабря -- 18:00|2 декабря -- 18:00 -- Круглый стол: Доверие к ИИ]]</fs> |
| |
**Когда** - в конце ноября. Онлайн. | <fs medium>[[#О проблеме воспроизводимости|О проблеме воспроизводимости]]</fs> |
| |
| <fs medium>[[#Помощь в организации онлайн семинара|Организаторы]]</fs> |
| |
| ---- |
| |
<html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/ | <html><!-- Код кнопки, открывающей виджет регистрации на Timepad --><a href="#" id="timepad_twf_register_1817677" style="font-weight: bold; display: inline !important; text-decoration: !important;"><span style="!important;">Регистрация</span></a></html> - https://mlrep-atp-mipt.timepad.ru/event/1817677/ |
**Сайт конференции** — https://conf.mipt.ru | **Сайт конференции** — https://conf.mipt.ru |
| |
**Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org | |
| |
===== Темы онлайн семинара ===== | ==== 1 декабря -- 18:30 ==== |
| |
* reproducible research, MLops и проблемы воспроизводимости экспериментов | <fs large>Оптимизация "черного ящика" с использованием локальных генеративных суррогатных моделей</fs> \\ \\ |
* анализ и автоматический выбор моделей как часть эксперимента | **Сергей Широбоков** \\ Imperial College London \\ |
* полезность публикации кода, данных и эксперимента в научной сфере, проблемы доступности данных | |
* построение пайплайнов обучения моделей в компании, хранение и управление конфигурацией данных | |
* автоматизация проведения экспериментов на учебных курса | |
| |
| <html> |
| <iframe width="560" height="315" src="https://www.youtube.com/embed/rw1RKOilr2I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
| </html> |
| |
===== О проблеме воспроизводимости ===== | {{| Слайды}} |
| |
Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом. | В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, по которым оценка правдобоподных исходных параметров оказывается невозможной напрямую. |
| |
Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях. | Оптимизация таких прямых моделей оказывается сложной задачей, когда симулятор стохастический. Для решения таких задач мы предлагаем использовать глубокие генеративные модели для итеративной аппроксимации симулятора в локальных окрестностях пространства параметров. Мы покажем, что эти локальные суррогаты могут быть использованы для аппроксимации градиента. |
| |
Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]]. | В случаях, когда зависимость симулятора от параметров ограничена многообразием низкой размерности, наш метод достигает минимумов быстрее, чем базовые методы, включая байесовскую оптимизацию, численную оптимизацию и подходы, использующие оценки градиента функции потерь. \\ \\ |
| |
Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами. | <fs large>Применение методов машинного обучения на примере анализа структур РНК</fs> \\ \\ |
| **Евгений Баулин** \\ МФТИ \\ |
| |
Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований. | <html> |
| <iframe width="560" height="315" src="https://www.youtube.com/embed/3VG1pckshCA" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
| </html> |
| |
В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами. | {{| Слайды}} |
| |
Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний. | Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. |
| |
[Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]] | В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать. \\ \\ |
| |
[MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]] | <fs large>Что такое доверенный ИИ?</fs> \\ \\ |
| **Антон Хританков** \\ MLRep, МФТИ \\ |
| |
[FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]] | <html> |
| <iframe width="560" height="315" src="https://www.youtube.com/embed/dx-R0puH24I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
| </html> |
| |
[REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]] | {{| Слайды}} |
| |
| Какие системы машинного обучения можно считать доверенными (trustworthy)? Сейчас много разговоров о том, какие требования должны предъявляться к системам, имеющим влияние на широкие группы пользователей. Что такое надежность, безопасность, непредвзятость и другие характеристики качества, предъявляемые к таким системам. |
| |
| Расскажу о паре примеров, когда использование недосточно доверенных систем приводило к совершенно нежелательным и заранеее не понятным последствиям. Обсудим, что нужно делать для создания доверенных систем машинного обучения и при чем здесь воспроизводимость экспериментов? \\ \\ |
| |
===== Программа семинара ===== | |
| |
**Программа семинара уточняется** | ==== 1 декабря -- 20:00 ==== |
- приглашенные доклады по проведению экспериментов в ML | |
- секционные доклады конференции МФТИ (conf.mipt.ru) секции [[https://conf.mipt.ru/view/conference/view_division/2702321|Проблем проведения экспериментов]] | |
- круглый стол по открытым данным и воспроизводимым исследованиям в науках о данных | |
| |
| Секционные доклады 64-й конференции МФТИ \\ \\ |
| |
===== Приглашенные доклады ===== | <fs large>Секция проблем повторяемости и достоверности результатов в науках о данных</fs> \\ \\ |
| |
^Время^Докладчик^Название и аннотация^ | <fs large>Секция алгоритмов и технологий программирования</fs> \\ \\ |
| | **Вадим Стрижов** \\ \\ МФТИ | **Постановка задач и оценка результатов в научных исследованиях** \\ \\ Аннотация будет добавлена позднее | | |
| | **Андрей Устюжанин** \\ \\ НИУ ВШЭ, МФТИ, CERN | **Тема доклада уточняется** \\ \\ Аннотация будет добавлена позднее | | |
| | **Антон Хританков** \\ \\ MLRep, МФТИ | **Воспроизводимые эксперименты в MLDev на Google Colab** \\ \\ Аннотация будет добавлена позднее | | |
| | **Евгений Баулин** \\ \\ МФТИ | **Применение методов машинного обучения на примере анализу структур РНК** \\ \\ Экспериментально определение пространственных структур биополимеров остается дорогой и сложной техникой, поэтому весьма актуальна задача предсказания данных структур по данным высокопроизводительного секвенирования и косвенных химических экспериментов. В данном докладе я опишу, как мы пытались предсказывать структурные мотивы некодирующих РНК по данным о последовательности нуклеотидов и комлпементарным Уотсон-Криковским сппариваниям. Разберем, что же у нас получилось, на какие грабли можно наступить в процессе "разведывательных" экспериментов и при подготовке публикации, и как всего этого можно избежать. | | |
| |
| Перечень докладов будет уточнен позднее \\ \\ |
| |
| ==== 2 декабря -- 17:00 ==== |
| |
===== Круглый стол: Доверие к ИИ: открытый код, данные, стандарты ===== | <fs large>Риски и результаты научных исследований</fs> \\ \\ |
| **Вадим Стрижов** \\ МФТИ \\ |
| |
|Как создать интеллектуальные системы достойными доверия? \\ \\ Они уже ставят диагнозы в поликлиниках Москвы, оценивают кредитную историю банках, управляют поставками товаров в магазины и топлива на электростанции, проводят собеседования при приеме на работу. \\ \\ Узнайте, как последние технологии воспроизводимых и открытых исследований и пристальное внимание ведущих ученых помогут машинному интеллекту оправдать ожидания. | | | {{ :mlrep:announcement.jpg?nolink&900 |}} | | <html> |
| <iframe width="560" height="315" src="https://www.youtube.com/embed/SuihavUq8Jk" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
| </html> |
| |
==== Темы круглого стола ==== | {{| Слайды}} |
| |
* доверие к исследованиям в области ИИ и ответственность исследователей | Плодотворное завершение научного исследования зависит от того, насколько ясно видны его результаты в момент планирования. Завершение исследования привязано к точным срокам, потому что его результат ожидается научным сообществом на защитах бакалаврских, магистерских и кандидатских диссертаций, на конференциях, на презентациях отчетов. |
* постановка задачи и воспроизводимость результатов | |
* открытые данные (FAIR), открытый код, открытые эксперименты | |
* инструменты автоматизации научных исследований | |
| |
Модератор - Антон Хританков, к.ф.-м.н., руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]], МФТИ. | Научное сообщество оценивает его согласно общепринятым критериям. Эти критерии невозможно игнорировать при планировании. В докладе мы обсудим риски научных исследований и критерии качества результатов. \\ \\ |
| |
==== Приглашенные эксперты ==== | <fs large>Co-research: методология академических и научных исследований, основанных на данных (data-driven research)</fs> \\ \\ |
| **Андрей Устюжанин** \\ НИУ ВШЭ, МФТИ, CERN \\ |
| |
|{{ :mlrep:burtsev.png?nolink&400 |}}| | | **Михаил Бурцев, к.ф.-м.н.** \\ \\ зав. лаб. нейронных систем и глубокого обучения МФТИ \\ \\ Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2). | | <html> |
|{{ :mlrep:strijov.png?nolink&400 |}}| | | **Вадим Стрижов, д.ф.-м.н. ** \\ \\ проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org \\ \\ Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”. | | <iframe width="560" height="315" src="https://www.youtube.com/embed/n_OUppPj77k" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
|{{ :mlrep:ustuyzhanin.png?nolink&400 |}}| | | **Андрей Устюжанин, к.ф.-м.н.** \\ \\ зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/ \\ \\ Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта. | | </html> |
|{{ :mlrep:fursin.jpg?nolink&400 |}}| | | **Григорий Фурсин, Ph.D.** \\ \\ VP of MLOps at OctoML.ai, https://octoml.ai \\ \\ Основатель платформы cKnowledge.io для воспроизведения исследовательских работ по машинному обучению и упрощения развертывания эффективных систем искусственного интеллекта в производстве. Один из основателей MLCommons.org и рабочей группы ACM по воспроизводимым исследованиям. | | |
| |
===== Помощь в организации онлайн семинара ====== | {{| Слайды}} |
| |
| Науки о данных и технологии машинного обучения представляют ключевое направление развития современных образовательных программ. С одной стороны, навыки работы с данными помогают серьезно усилить эффективность прикладных проектов, и являются привлекательным направлением с точки зрения карьерного роста. С другой стороны, без серьезной практической составляющей изучение работы методов основанных на данных не дает возможность погрузиться в тонкости и понимание ограничений таких подходов. |
| |
| Лаборатория НИУ ВШЭ Lambda тесно сотрудничает с несколькими международными исследовательскими коллаборациями, такими как LHCb, SHiP, OPERA, MPD@NICA. В своем докладе я расскажу о принципах и методологии, которой руководствуются сотрудники лаборатории, объединяя учебные и исследовательские задачи в рамках практических проектов. Немаловажным фактором является использование современных инструментов поддержки совместной работы, которые позволяют в игровой форме провести студентов через цепочку ключевых шагов исследования, понять принципы оценки границ применимости методов машинного обучения и оценить вклад каждого участника проекта. \\ \\ |
| |
| |
| ==== 2 декабря -- 18:00 ==== |
| |
| <fs x-large>Доверие к ИИ: открытый код, данные, стандарты</fs> |
| |
| Темы круглого стола: \\ |
| |
| -- доверие к исследованиям в области ИИ и ответственность исследователей |
| |
| -- постановка задач и воспроизводимость результатов в науках о данных |
| |
| -- открытые данные (FAIR), открытый код, открытые эксперименты |
| |
| -- инструменты автоматизации научных исследований |
| |
| ---- |
| |
| <html> |
| <iframe width="560" height="315" src="https://www.youtube.com/embed/CSCr8nkaQ6E" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> |
| </html> |
| |
| |
| ---- |
| |
| {{:mlrep:burtsev.png?nolink&120 |}} **Михаил Бурцев, к.ф.-м.н.** \\ \\ зав. лаб. нейронных систем и глубокого обучения МФТИ, https://deeppavlov.ai \\ \\ Лидер проекта с открытым кодом в сфере разговорного искусственного интеллекта – «DeepPavlov». В период 2017-2020 гг. руководил проектом НТИ «НейроИнтеллект iPavlov». Научный руководитель команды DREAM, участвующей в конкурсе Alexa Prize Socialbot Grand Challenge 3 и 4 от Amazon. Главный организатор Международных соревнований по диалоговым системам на конференции NeurIPS (Conversational Intelligence Challenge 1 и 2). |
| |
| ---- |
| |
| {{:mlrep:strijov.png?nolink&120 |}} **Вадим Стрижов, д.ф.-м.н. ** \\ \\ проф. Кафедры интеллектуальных систем МФТИ, https://m1p.org \\ \\ Области научных интересов - порождение и байесовский выбор моделей машинного обучения, функциональный и алгебраический подход к анализу данных. Читает курсы “Моя первая научная статья”, “Математические методы прогнозирования”, администратор сайта о машинном обучении www.machinelearning.ru. Лауреат научной премии имени Ильи Сегаловича в 2019 году в номинации “Научные руководители”. \\ \\ |
| |
| ---- |
| |
| {{:mlrep:ustuyzhanin.png?nolink&120 |}} **Андрей Устюжанин, к.ф.-м.н.** \\ \\ зав. лаб. анализа больших данных НИУ ВШЭ, https://cs.hse.ru/lambda/ \\ \\ Андрей руководит сотрудничеством ШАД Яндекса с CERN. Его лаборатория специализируется на поиске и развитии новых подходов к научным задачам за счет использования потенциала машинного интеллекта. \\ |
| |
| ---- |
| |
| {{:mlrep:musin.jpg?nolink&120 |}} **Шамиль Мусин** \\ \\ Рук. департамента проектов ИИ, Forecsys, https://forecsys.ru \\ \\ Руководит коммерческими проектами в области анализа данных и машинного обучения. Среди реализованных проектов система прогнозирования дефолтов корпоративных клиентов банка, индикатор наличия рабочего напряжения с использованием интеллектуального анализа данных, система прогнозирования балансов банков. |
| \\ \\ |
| |
| ---- |
| \\ \\ |
| Модератор дискуссии - **Антон Хританков, к.ф.-м.н.**, руководитель проекта [[https://mlrep.gitlab.io/mldev | MLDev]]. |
| \\ \\ |
| |
| |
| ==== О проблеме воспроизводимости ==== |
| |
| Онлайн семинар посвящен актуальной проблеме открытости данных и [[https://www.science.org/doi/10.1126/science.359.6377.725|воспроизводимости результатов исследований]] в машинном обучении, анализе больших данных, биоинформатике и в науках о данных в целом. |
| |
| Принципы открытости данных [[https://www.go-fair.org/fair-principles/FAIR|FAIR]] предполагают указание на источник, цитирование и получение доступа к данным исследований для повторного использования в новых исследованиях. |
| |
| Корректность и повторяемость эксперимента и воспроизводимость представленных результатов — одна из ключевых характеристик хорошей статьи в науках о данных. Более того, растут ожидания от научных исследований и уже требуется [[https://habr.com/ru/post/562262/|обеспечивать воспроизводимость экспериментов при публикации]]. |
| |
| Ведущие публикации помимо самой статьи все чаще включают наборы данных, исходный код и подробные описания условий проведенного эксперимента. Это позволяет другим исследователям подтвердить полученные результаты и использовать их в своих работах, воспроизводить и сравнивать с другими подходами. |
| |
| Практика таких, расширенных, публикаций способствует цитируемости и полезности результатов исследований. |
| |
| В индустрии также остро стоит проблема воспроизведения и повторения результатов экспериментов, особенно, когда речь идет о алгоритмах и моделях, существенно влияющих на деятельность компаний. Для решения целого круга задач в сфере [[https://aibusiness.com/document.asp?doc_id=760484|MLOps]] создаются инструменты по автоматизации управления жизненным циклом моделей, отслеживания изменений в данных, наблюдению за интеллектуальными системами. |
| |
| Вопросы качества результатов, повторяемости экспериментов, достоверности исследований становятся ключевыми как для научных исследований, так и для компаний. |
| |
| [Hutson] [[https://www.science.org/doi/10.1126/science.359.6377.725|Hutson M. Artificial intelligence faces reproducibility crisis. Science. 2018. ]] |
| |
| [MLOps] [[https://aibusiness.com/document.asp?doc_id=760484|Why MLOps (and not just ML) is your Business’ New Competitive Frontier]] |
| |
| [FAIR] [[https://www.go-fair.org/fair-principles/|FAIR Principles]] |
| |
| [REPRO] [[https://habr.com/ru/post/562262/|Чего хотят конференции: воспроизводимость экспериментов в data science?]] |
| |
| ==== Помощь в организации онлайн семинара ==== |
| |
<html> | <html> |
</p> | </p> |
</html> | </html> |
| \\ \\ |
| |
| **Контакты по вопросам** — [[http://t.me/mldev_betatest|Telegram]] или mailto:info [at] mlrep.org |
| |
| Страница прошедшего [[mlrep-2020|онлайн семинара в 2020 г.]] |
| |
| Видео [[https://www.youtube.com/playlist?list=PLODTKWanrueo8GWKVLHJJZTko4yJxoiR_|докладов семинара 2020 г.]] |
| |
| |
| |