что означает воспроизводимость результатов опыта
Воспроизводимость результатов
61. Воспроизводимость результатов
Мера разброса результатов в параллельных опытах
Смотри также родственные термины:
3.9 воспроизводимость результатов анализа: Степень близости друг к другу независимых результатов анализов, полученных в условиях воспроизводимости одним и тем же методом, на идентичных объектах, в разных лабораториях, разными операторами, с использованием различного оборудования.
3.1.19. воспроизводимость результатов измерений: Степень близости результатов измерений одного и того же измеряемого параметра, выполненных при измененных условиях измерений (рисунок 6) [1].
1. В настоящем стандарте измененные условия включают в себя только изменение оператора.
2. При более общем анализе воспроизводимости результатов измерений измененные условия вместо оператора могут содержать:
— методику выполнения измерений;
— средство измерительной техники;
— место проведения измерений и т.д.
Достоверное установление воспроизводимости требует констатации изменившихся условий измерения.
3. Воспроизводимость может быть выражена количественно в виде дисперсионных характеристик результатов измерений.
2.19.1 воспроизводимость результатов испытаний: Степень близости друг к другу независимых результатов испытаний, полученных одним и тем же методом на идентичном материале в разных лабораториях, разными операторами, с использованием различного оборудования [3].
Разделы 2, 3 (Измененная редакция, title=»Изменение № 1, ИУС 1-2003″).
3.4 воспроизводимость результатов испытаний: Характеристика результатов испытаний, определяемая близостью результатов испытаний одного и того же объекта по единым методикам в соответствии с требованиями одного и того же нормативного документа с применением различных экземпляров оборудования разными операторами в разное время в разных лабораториях.
3.3, 3.4 ( title=»Поправка, ИУС 8-2002″, ИУС 8-2002).
3.3 воспроизводимость результатов испытаний: Характеристика результатов испытаний, определяемая близостью результатов повторных испытаний объекта.
3.19 воспроизводимость результатов испытаний :Характеристика результатов испытаний, определяемая близостью результатов испытаний одного и того же объекта по единым методикам в соответствии с требованиями одного и того же нормативного документа с применением различных экземпляров оборудования разными операторами в разное время в разных лабораториях (ГОСТ Р 51672, [51]).
3.19 воспроизводимость результатов испытаний :Характеристика результатов испытаний, определяемая близостью результатов испытаний одного и того же объекта по единым методикам в соответствии с требованиями одного и того же нормативного документа с применением различных экземпляров оборудования разными операторами в разное время в разных лабораториях (ГОСТ Р 51672, [51]).
Пункт 4.2 дополнить примечанием:
Пункт 4.5 Первый абзац после слов «государственных нужд» дополнить словами: «в том числе для нужд сферы обороны и безопасности»; после слов «утвержденных типов» исключить слова: «в соответствии с ПР 50.2.009 [1]».
Пункт 4.6 после слов «используемых в качестве» дополнить словами:
«средств испытаний или в составе»; после слов «испытательного оборудования» исключить слова: «или в его составе»;
«Типы средств измерений, встраиваемых в испытательное оборудование, применяемое для испытаний продукции, поставляемой для нужд сферы обороны и безопасности, должны быть утверждены в установленном для данной сферы порядке»;
«4.7 Транспортируемое в процессе использования испытательное оборудование подлежит первичной аттестации только при вводе его в эксплуатацию в соответствии с 4.2 настоящего стандарта».
Пункт 5.2 дополнить абзацем:
«Программы и методики аттестации испытательного оборудования, применяемого при испытаниях продукции, поставляемой для нужд сферы обороны и безопасности, должны пройти метрологическую экспертизу в установленном для данной сферы порядке».
Пункт 5.3 дополнить словами: «и при наличии информационное обеспечение (например, компьютерное, программное обеспечение и (или) обеспечение алгоритмами функционирования»).
Пункт 5.5. Первый абзац после слов «проводит комиссия» дополнить словами: «назначаемая руководителем предприятия (организации) по согласованию с государственным научным метрологическим центром и (или) органом государственной метрологической службы (32 ГНИИИ МО РФ), если их представители должны участвовать в работе комиссии»;
четверили абзац. Заменить слова: «для нужд Вооруженных Сил» на «для нужд сферы обороны и безопасности»;
дополнить абзацем (после четвертого):
два последних абзаца исключить;
«5.5.1 Первичную аттестацию испытательного оборудования (за исключением испытательного оборудования, применяемого для испытаний продукции, поставляемой для нужд сферы обороны и безопасности) могут проводить на договорной основе аккредитованные в соответствии с title=»ГСИ. Порядок аккредитации головных и базовых организаций метрологической службы государственных органов управления Российской Федерации и объединений юридических лиц» [1] головные и базовые организации метрологической службы (согласно области их аккредитации).
Первичную аттестацию испытательного оборудования, применяемого для испытаний продукции, поставляемой для нужд сферы обороны и безопасности, могут проводить на договорной основе организации, аккредитованные в соответствии с МИ 2647 [2].»
Пункт 5.6 дополнить примечанием:
Пункт 6.3 Заменить слова: «руководитель подразделения» на «руководитель предприятия (организации)»:
Пункт 7.1 изложить в новой редакции:
«7.1 Повторную аттестацию испытательного оборудования после ремонта или модернизации осуществляют в порядке, установленном для первичной аттестации испытательного оборудования в разделе 5 настоящего стандарта».
Пункт 7.2 изложить в новой редакции:
Приложение Г изложить в новой редакции:
[1] title=»ГСИ. Порядок аккредитации головных и базовых организаций метрологической службы государственных органов управления Российской Федерации и объединений юридических лиц» Государственная система обеспечения единства измерений. Порядок аккредитации головных и базовых организаций метрологической службы государственных органов управления Российской Федерации и объединений юридических лиц
[2] МИ 2647-2001 Государственная система обеспечения единства измерений. Порядок аккредитации организаций на право аттестации испытательного оборудования, применяемого в интересах обороны и безопасности».
Пункт 4.2 дополнить примечанием:
Пункт 4.5. Первый абзац после слов «государственных нужд» дополнить словами: «в том числе для нужд сферы обороны и безопасности»; после слов «утвержденных типов» исключить слова: «в соответствии с title=»ПР 50.2.009-94 ГСОЕИ. Порядок проведения испытаний и утверждения типа средств измерений» [1]»
Пункт 4.6 после слов «используемых в качестве» дополнить словами: «средств испытаний или в составе»; после слов «испытательного оборудования» исключить слова: «или в его составе»;
«Типы средств измерений, встраиваемых в испытательное оборудование, применяемое для испытаний продукции, поставляемой для нужд сферы обороны и безопасности, должны быть утверждены в установленном для данной сферы порядке»;
«4.7 Транспортируемое в процессе использования испытательное оборудование подлежит первичной аттестации только при вводе его в эксплуатацию в соответствии с 4.2 настоящего стандарта».
Пункт 5.2 дополнить абзацем:
«Программы и методики аттестации испытательного оборудования, применяемого при испытаниях продукции, поставляемой для нужд сферы обороны и безопасности, должны пройти метрологическую экспертизу в установленном для данной сферы порядке».
Пункт 5.3 дополнить словами: «и при наличии информационное обеспечение (например, компьютерное, программное обеспечение и (или) обеспечение алгоритмами функционирования)».
Пункт 5.5. Первый абзац после слов «проводит комиссия» дополнить словами: «назначаемая руководителем предприятия (организации) по согласованию с государственным научным метрологическим центром и (или) органом государственной метрологической службы (32 ГНИИИ МО РФ), если их представители должны участвовать в работе комиссии»;
четвертый абзац. Заменить слова: «для нужд Вооруженных Сил» на «для нужд сферы обороны и безопасности»;
дополнить абзацем (после четвертого):
«- заказчика на предприятии в случае использования испытательного оборудования для испытаний продукции, поставляемой по контрактам для нужд сферы обороны и безопасности»;
предпоследний и последний абзацы исключить;
«5.5.1 Первичную аттестацию испытательного оборудования (за исключением испытательного оборудования, применяемого для испытаний продукции, поставляемой для нужд сферы обороны и безопасности) могут проводить на договорной основе аккредитованные в соответствии с title=»ПР 50.2.008-94 ГСИ. Порядок аккредитации головных и базовых организаций метрологической службы государственных органов управления Российской Федерации и объединений юридических лиц» [1] головные и базовые организации метрологической службы (согласно области их аккредитации).
Первичную аттестацию испытательного оборудования, применяемого для испытаний продукции, поставляемой для нужд сферы обороны и безопасности, могут проводить на договорной основе организации, аккредитованные в соответствии с МИ 2647 [2]».
Пункт 5.6 дополнить примечанием:
Пункт 6.3. Заменить слова: «руководитель подразделения» на «руководитель предприятия (организации)».
Пункты 7.1, 7.2 изложить в новой редакции:
«7.1 Повторную аттестацию испытательного оборудования после ремонта или модернизации (см. 4.4 настоящего стандарта) осуществляют в порядке, установленном для первичной аттестации испытательного оборудования в разделе 5 настоящего стандарта.
Nature задаётся вопросом, воспроизводимы ли современные научные эксперименты?
Случайно в потоке новостей и информации наткнулся на статью в Nature Scientific Reports. В ней представлены данные опроса 1500 учёных, посвящённого воспроизводимости результатов научных исследований. Если ранее данная проблема поднималась для биологических и медицинских исследований, где она с одной стороны объяснима (ложные корреляции, общая сложность исследуемых систем, иногда даже научный софт обвиняют), с другой стороны имеет феноменологический характер (например, мыши склонны вести себя по разному с учёными разных полов (1 и 2)).
Однако не всё гладко и с более естественнонаучными дисциплинами, такими как физика и инженерные науки, химия, экология. Казалось бы, именно эти дисциплины зиждутся на «абсолютно» воспроизводимых экспериментах, проведённых в максимально контролируемых условиях, увы, потрясающий – во всех смыслах этого слова – результат опроса: до 70% исследователей сталкивались с НЕвоспроизводимыми экспериментами и результатми, полученными не только другими группами учёных, НО и самим авторами/соавторами опубликованных научных работ!
Каждый кулик хвалит своё болото?
Хотя 52% опрошенных указывают на кризис воспроизводимости в науке, менее 31% считают опубликованные данные в корне неверными и большинство указало, что по-прежнему доверяют опубликованным работам.
Вопрос: Существует ли кризис воспроизводимости результатов?
Конечно же, не стоит рубить с плеча и линчевать всю науку как таковую лишь на основании данного опроса: половину опрошенных всё же составили учёные, связанные, так или иначе, с биологическими дисциплинами. Как отмечают авторы, в физике и химии уровень воспроизводимости и доверия к полученным результатам намного выше (см. график ниже), но всё же не 100%. А вот в медицине дела обстоят совсем плохо на фоне остальных.
Один раз я пытался воспроизвести эксперимент из литературных источников, который мне показался простым, но я просто не смог этого сделать. У меня появился кризис доверия, но затем я понял, что мой опыт не был такой уж редостью.
Вопрос: Сколько уже опубликованных работ в Вашей отрасли воспроизводимы?
Широта и долгота глубина проблемы
Представьте, что Вы – учёный. Вам попадается интересная статья, но результаты/эксперименты не могут быть воспроизведены в лаборатории. Логично написать об этом авторам оригинальной статьи, спросить совета и задать уточняющие вопросы. Согласно опросу, менее 20% делали это когда-либо в своей научной карьере!
Авторы исследования отмечают, что, возможно, такие контакты и разговоры слишком сложны для самих учёных, потому что вскрывают их некомпетентность и несостоятельность в тех или иных вопросах или раскрывают слишком много деталей текущего проекта.
Более того, абсолютное меньшинство учёных попыталось опубликовать опровержение невоспроизводимых результатов, сталкиваясь при этом с противодействием со стороны редакторов и рецензентов, которые требовали преуменьшить сравнение с оригинальным исследованием. Стоит ли удивляться, что шанс сообщить о невоспроизводимости научных результатов составляет порядка 50%.
Первый вопрос: Пытались ли Вы воспроизвести результаты эксперимента?
Второй вопрос: Пытались ли Вы опубликовать свою попытку воспроизвести результаты?
Может быть стоит тогда внутри лаборатории хотя бы проводить проверку на воспроизводимость? Самое печальное, что треть респондентов даже НИКОГДА и не задумывалось о создании методик проверки данных на воспроизводимость. Только 40% указало, что они регулярно пользуются такими методиками.
Вопрос: Разрабатывали Вы когда-либо специальные методики/тех.процессы для улучшения воспроизводимости результатов?
Другой пример, биохимик из Соединённого Королевства, которая не пожелала раскрывать своё имя, говорит, что попытки повторить, воспроизвести работу для её лабораторного проекта просто удваивают временные и материальные затраты, ничего не давая и не привнося нового в работу. Дополнительные проверки проводятся лишь для инновационных проектов и необычных результатов.
И конечно же, извечные русские вопросы, которые стали пытать зарубежных коллег: кто виноват и что делать?
Кто виноват?
Вопрос: Какие факторы повинны в невоспроизводимых научных результатах?
Ответы (сверху вниз): –Выборочная отчётность –Давление начальства –Плохой анализ/статистика –Недостаточная повторяемость эксперимента в лаборатории –Недостаточный надзор –Отсутствие методика или кода –Плохое планирование эксперимента –Отсутствие сырых данных от первичной лаборатории –Мошенничество –Недостаточная проверка экспертами/рецензентами –Проблемы с попытками воспроизведения –Необходима техническая экспертиза для воспроизведения –Вариативность стандартных реагентов –«Ниудачка и пичалька»
Что делать?
Из опрошенных 1500, более 1000 специалистов высказались за улучшение статистики при сборе и обработке данных, улучшение качества надзора со стороны боссов, а также более строгое планирование экспериментов.
Вопрос: Какие факторы помогут повысить воспроизводимость?
Ответы (сверху вниз): –Лучшее понимание статистики –Более строгий надзор –Улучшенное планирование экспериментов –Обучение –Внутрилабораторная проверка –Совершенствование практических навыков –Стимулирование к формальной перепроверке данных –Межлабораторная проверка –Выделение большего количества времени для управления проектами –Повышение стандартов научных журналов –Выделение большего количества времени для работы с лабораторными записями
Заключение и немного личного опыта
Во-первых, даже для меня, как учёного, результаты ошеломляющие, хотя привык уже к некоторой степени невоспроизводимости результатов. Особенно ярко это проявляется в работах, выполненных китайцами и индусами без стороннего «аудита» в виде американских/европейских профессоров. Хорошо, что проблему осознали и задумались над её решением(ями). Про российскую науку тактично умолчу, в связи с недавним скандалом, хотя многие честно выполняют свою работу.
Во-вторых, в статье замалчивается (вернее, не рассматривается) роль научных метрик и рецензируемых научных журналов в возникновении и развитии проблемы невоспроизводимости результатов исследований. В погоне за скоростью и частотой публикаций (читай, повышение индексов цитирования) резко падает качество и не остаётся времени на дополнительную проверку результатов.
Как говорится, все персонажи вымышлены, но основано на реальных событиях. Довелось как-то одному студенту проводить рецензирование статьи, ибо не у каждого профессора есть время и силы на вдумчивое чтение статей, поэтому собирается мнение 2-3-4 студентов и докторов, из которого складывается отзыв. Была написана рецензия, в ней указывалось на невоспроизводимость результатов по методике, описананой в статье. Это было наглядно продемонстрированно профессору. Но дабы не портить отношения с «коллегами» – ведь у них-то всё получается – рецензия была «скорректирована». И таких статей опубликовано 2 или 3 штуки.
Получается замкнутый круг. Учёный отправляет статью редактору журнала, где указывает «желаемых» и, основное, «нежелаемых» рецензентов, то есть фактически оставляя лишь положительно настроенных к авторскому коллективу. Они рецензируют работу, но не могут по-чёрному «гадить в комментах» и стараются из двух зол выбрать меньшее – вот список вопросов, на которые необходимо ответить, и мы тогда опубликуем статью.
Другой пример, о котором рассказывал редактор Nature буквально месяц назад – солнечные панели Грацеля. Из-за огромного интереса к данной тематике в научном сообществе (ведь все же хотят статью в Nature!), редакторам пришлось создать специальный опросник, в котором требуется указать уйму параметров, предоставить калибровки оборудования, сертификаты и прочее, чтобы подтвердить, что методика измерения КПД панелей соответствует некоторым общим принципам и стандартам.
И, в-третьих, когда в очередной раз вы услышите про чудо-вакцину, побеждающую всё и вся, новую историю о Джобсе в юбке, новые АКБ или вреде/пользе ГМО или излучения смартфонов, особенно, если это было пропиарено желтописателями от журналистики, то отнеситесь с пониманием и не делайте скоропалительных выводов. Подожди подтверждения результатов другими группами учёных, накопления массива и выборок данных.
А что вы, уважаемые Хабра/GT пользователи, думаете о воспроизводимости научных данных? Поделитесь своим мнение в комментариях!
PS: Статья переводилась и писалась на скорую руку, обо всех замеченных ошибках и неточностях, просьба писать в ЛС.
Иногда кратко, а иногда не очень о новостях науки и технологий можно почитать на моём Телеграм-канале — милости просим;)
Чего хотят конференции: воспроизводимость экспериментов в data science
Ведущие научные конференции просят воспроизводимости экспериментов. И это нужно для повышения доверия к работам, для извлечения пользы (повторной используемости и цитируемости), ну и «тренд» (согласно опросу журнала Nature).
Ожидания растут, в 2021 уже 9 из 10 конференций предлагают авторам провериться на воспроизводимость. Сдать тест, заполнить опросник, привести свидетеля и т. д.
О чем речь, зачем нужна воспроизводимость, какие проблемы нужно решать, обсудим в этой статье.
Эксперименты в машинном обучении
Под экспериментом понимают процедуру для проверки и опровержения гипотез. Будь то гипотезы о наличии закономерностей в данных или выборе параметров модели.
Провести эксперимент не так просто, как может показаться. При желании, даже в типовом эксперименте со случайным перемешиванием и разделением данных на train, test и повторением несколько раз можно обнаружить применение рандомизации в постановке эксперимента.
Еще у эксперимента есть цель, план, критерии принятия или опровержения гипотез, использованные данные и ожидаемые результаты. Если порядок проведения эксперимента разбит на этапы и указана последовательность их исполнения, то говорят, что задан пайплайн (pipeline) эксперимента.
Проведенные измерения подвергаются анализу и делается вывод об успешности эксперимента, и можно ли принять или отвергнуть гипотезы.
Так вот, анализ представленных статей на конференции AAAI 2014, AAAI 2016, IJCAI 2013 и IJCAI 2016 показывает, что доля экспериментальных работ составляет более 80% — в разы выше чисто теоретических!
Ожидается, что результаты экспериментов будут повторяемы
Вот список конференций и требования по повторяемости результато на апрель 2021 года. Список получен по GuideToResearch (Top 100), поиском по категории Machine Learning, Data Mining & Artificial Intelligence. Уровни и ссылки собраны вручную.
Название
Требования к публикациям
Уровень
В таблице указаны вот такие уровни требований:
Not found — требования по воспроизводимости не найдены в CFP или инструкциях автору.
Reminder — организаторы просят авторов предоставлять воспроизводимые результаты.
Encouraged — авторам предоставлен чеклист и настоятельно рекомендуется предоставить оценку соответствия ему, будет влиять на оценку работ.
Required — выполнение требований по воспроизводимости обязательно для подачи работы.
Что это значит и что такое воспроизводимость?
Пока не заметно, чтобы от рецензентов требовали воспроизводить результаты авторов. На это, скорее всего, им не хватит времени, если только эксперимент изначально не автоматизирован. Могут попросить опубликовать код, заполнить чеклист, или уже отдельно проводят трек с повторением экспериментов. Наиболее распространены два чеклиста (пример раз от NeurIPS, пример два по мотивам исследований Gundersen et al.).
Таким образом, нужно быть готовым ответить на пару десятков вопросов и проверить, что ответы на них адекватно отражены в подаваемой статье.
При этом гипотеза, что соответствие чеклистам или устаналиваемым правилам повышает воспроизводимость все еще не подтверждена. Более того, по состоянию на 2020-2021 в области машинного обучения нет устоявшейся терминологии и, тем более, ее перевода на русский. Вот что используют в ACM при выдаче бейджей о воспроизводимости, в вольном переводе:
Повторяй за мной (repeatable experiment / повторяемый эксперимент)
Авторы могут получить те же результаты в пределах погрешности, используя заготовленные артефакты эксперимента.
Артефактами (artifact) здесь называются статья, экспериментальный стенд или его части, исходный код, инструкции к его запуску, данные или способ их получения и так далее, что можно идентифицировать и связать с экспериментом.
Делай вместо меня (reproducible / повторяемые результаты)
Другие исследователи могут получить те же результаты, используя артефакты от авторов.
Думай как я (replicable / воспроизводимые исследования)
По описанию эксперимента другие исследователи могут реализовать артефакты и сделать те же выводы из результатов.
Важно, что использование чеклистов для самопроверки поможет с «Повторяй за мной», но вряд ли с более высокими уровнями воспроизводимости.
Постпозитивист и автор теории потенциальной фальсифицируемости Карл Поппер пишет в середине XX века:
— Popper, K. R. 1959. The logic of scientific discovery. Hutchinson, London, United Kingdom.
То есть единичные невоспроизводимые события не имеют значения для науки. Так то.
Для чего еще — повторное использование
Воспроизводимость и повторная используемость эксперимента оказывается полезной не только при подготовке публикации.
Примеры: для своей новой работы нужна часть кода из прошлой статьи, откуда его брать? По-умолчанию, это копирование тетрадки, ячеек или блокнотик с заготовками и сниппетами (отпишитесь, кто так делает). В каких условиях использовался этот код ранее, какую задачу решал и с каким результатом?
Еще примеры: нужно сделать демо результатов после эксперимента, нужен код построения модели еще и в пайплайне, еще тот же код нужен для других специальных экспериментов. Можем ли использовать код эксперимента в разных условиях, с различными входными данными? Как его нужно структурировать для этого и не забыть про описание? А теперь представим, что нужна доработка или исправление дефекта в коде, скопированном для всех кейсов!
Если мы повторно используем часть эксперимента или эксперимент целиком, получим ли мы ожидаемые результаты?
С другой стороны. Например, нашли очень интересную статью на том же arxiv.org или paperswithcode.org. Будет ли полезно для проекта? Есть ли код? Есть ли данные? Могу ли повторить? Не могу. «Без кода вообще не смотрю», — цитата с круглого стола по воспроизводимости экспериментов.
И еще — provenance
То есть прослеживаемость. Вообще важная вещь! Есть даже Prov-ML модель предметной области проведения экспериментов в науках о данных. Корректность UML 2 подтверждена (кроме указания стереотипов в двойных угловых скобках, вместо
Вот что пишут, какой исследовательский код «достаточно хороший» на StackOverflow или StackExchange. «Исследовательский код должен корректно реализовывать алгоритм, который является результатом в статье. Код эксперимента — не код программного продукта, к нему не нужно предъявлять тех же требований. С другой стороны, вряд ли получат много доверия результаты, в представлении которых честно сказано, что код не проверен, скорее всего содержит ошибки, работает не понятно, каким образом.»
На упомянутом ранее круглом столе среди сложностей разработки исследовательского кода и причин невоспроизводимости экспериментов на его основе также указаны противоречия и конкуренция внутри организации, первенство в идеях, желание сохранить ноу-хау, ресурсные барьеры.
Повторяемость результатов на практике
Что позволено Юпитеру, не позволено быку
В статье про воспроизводимость Jupyter Notebooks, найденных на GitHub, указывается, что без ошибок и с повторением сохраненных результатов выполнились только 4% из полутора миллионов тетрадок.
Среди запусков тетрадок, завершившихся с ошибкой, топ ошибок такой:
Первое место — проблемы с зависимостями в библиотеках и зависимостями в зависимостях. Часть репозиториев использовали requirements.txt, часть setup.py. Не всегда помогает из-за транзитивных зависимостей.
Второе место — порядок исполнения. Тетрадка сохранена без прогона вчистую, порядок не сохранен и некоторые переменные объявлены или иницилизированы после использования.
Третье место — нет нужных данных, например, указаны абсолютные пути или данных вообще нет в репозитории.
В другом эксперименте, в тетрадках, которые проходят без ошибок, результаты все равно могут не совпадать по следующим причинам:
Неуправляемая случайность в данных или алгоритмах (40%)
Зависимость вывода и результатов от функций времени (13%)
Различия отображения на графиках (некорректное использование matplotlib в том числе) (52%)
Недоступны внешние данные (3%)
Различия в выводе чисел с плавающей запятой (3%)
Непостоянный порядок обхода словарей и др. контейнеров в python (4%)
Различия в среде исполнения (27%)
А что с неЮпитером? Например, исследование повторяемости на R показывает примерно 44% воспроизводимости результатов (это как сравнивать красное с квадратным, но тем не менее). Аналогично указывается список причин, почему не удалось повторить результаты.
Как быть?
Причем похоже, что для воспроизводимости уровня «Думай как я» нужно уметь писать хороший текст и еще его уметь читать (см. «навык чтения статей по DL» вакансия в сами знаете какой компании, google it).
Или учиться проведению экспериментов. Повышать качество своей работы.
Если в индустрии — см. построение пайплайнов и версионирование (a.k.a. MLOps), разобраться с исследовательским анализом данных (Exploratory Data Analysis, EDA) и делать его автоматическим, изучать тему, помогая опен-сорс проектам.
Если в академической среде — см. постановка эксперимента, оформление статьи, архивирование и публикация результатов.
Если в начале изучения ML — обсудить с научным руководителем или наставником и изучить курсы по статистической проверке гипотез, и познакомиться с правилами проведения экспериментов в доказательной медицине (hardcore).
P.S. FAIR принципы
Несмотря на то, что принципы находимых (Findable), доступных (Accessible), переносимых (Interoperable) и повторно используемых (Reusable) результатов исследований (FAIR) были представлены еще в 2016 году, большинство опрошенных исследователей все еще не понимают или не применяют их в своих работах.
Ссылки и полезности
[1] Круглый стол по вопроизводимости экспериментов в науках о данных с научной конференции МФТИ.
[6] Полезные слайды про проведение экспериментов и воспроизводимость.
[7] Статья по разработке исследовательского кода, Best Practices for Scientific Computing.