Фронтирные исследования что это такое

III Коммуникативная лаборатория: какие фронтиры будем развивать?

В ТюмГУ прошла III Коммуникативная лаборатория – открытая площадка для общения руководства университета с преподавателями и студентами. Тема диалога была обозначена как «Научные фронтиры университета: критерии определения, весомые заделы, приоритеты развития». В разговоре участвовали 30 человек – представители всех учебных институтов и структурных подразделений ТюмГУ.

Участники обсудили множество вопросов, связанных с научной деятельностью: критерии научных фронтиров, использование потенциала Программы 5-100, консолидацию различных научных направлений, встраивание современных специализированных технологий в реальные бизнес-процессы и другие значимые темы.

«Фронтир – это граница, фронт. В области науки – это граница между знанием и незнанием. Но, когда мы определяем фронтир, мы пытаемся найти более точное определение. И когда мы говорим о фронтире как о прорывном направлении исследования в университете мы используем определенные критерии», – отметил проректор по научной работе Андрей Толстиков.

«Фронтир» – это что-либо передовое, своеобразный приоритет, точка роста. «Кому не нравится слово «фронтиры», может использовать «приоритеты». Суть от этого не меняется», – пояснил Валерий Фальков.

Сегодня перед университетом стоит несколько важных вопросов, первый из которых звучит так: а нужны ли ТюмГУ вообще такие приоритеты? Определение фронтиров влечет за собой очень многое. Это означает, что ресурсы концентрируются на выбранных приоритетных направлениях.

Второй вопрос: почему одни направления стали приоритетами, а другие нет? Означает ли это, что некоторые фронтирные направления не являются для университета важными и никакого внимания им уделено не будет?

«Сразу хочу отметить, я бы разделил условно науку на ординарную и фронтирную. Это говорит о том, что мы с уважением относимся к уже наработанным научным проблематикам, достижениям, связям. Но, для того чтобы университет двигался вперед, мы провели большую работу и ставку все-таки будем делать на фронтир», – отметил Валерий Фальков.

Как стать фронтиром?

И, наконец, остается третий вопрос: а можно ли какому-нибудь направлению стать фронтирным? По мнению руководства университета, это достижимо. Какие показатели и критерии соответствуют фронтирам? Актуальность, релевантность, высокие наукометрические показатели и альтернативность.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

«Политика научных фронтиров говорит о том, что мы действительно становимся университетом, который развивает науку по мировым стандартам. Мы хотим быть лучшими не везде и сразу, но в ближайшее время занять лидирующие позиции в четко выбранных отраслях науки», – заключил Валерий Фальков.

Вхождение в Проект 5-100 обязывает равняться на мировые стандарты, как это делают исследователи в Сеуле, Пекине, Париже, Вашингтоне и других городах. Сегодня ученые ТюмГУ ориентируются на публикации в серьезных научных журналах. Ведется работа по приглашению иностранных исследователей, разрабатываются совместные образовательные программы с зарубежными университетами.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

О развитии научного направления, связанного с анализом процессов, предметно-ориентированных информационных систем с применением технологий Process Mining, рассказала доцент кафедры информационных систем, руководитель Центра сертифицированного IT-обучения Инна Григорьева.

«Process Mining – это технология следующего поколения, которая расширяет возможности анализа процессов, происходящих в различных информационных системах», – пояснила Инна Григорьева.

Идея заключается в том, чтобы из информационных систем извлекать данные о зафиксированных событиях, о фактах деятельности. Далее производится оценка происходящей реальности, на основе полученных данных выявляются узкие места в бизнес-процессах и даются соответствующие рекомендации по повышению эффективности автоматизированных процессов.

Для развития этого учебного направления, уже существующего в нашем университете, требуется не единовременное взаимодействие с индустриальными партнерами, а кропотливая и долгосрочная работа с большими объемами данных.

«На сегодняшний день нам хотелось бы, чтобы эту работу можно было встраивать в проекты с предприятиями, с которыми университет уже сотрудничает или планирует в будущем. Это благоприятно скажется на формировании имиджа нашего региона, поскольку такие работы в Тюмени не ведутся вообще. Все они сосредоточены в крупных городах», – предложила Инна Григорьева.

Наука закладывает будущее университета

«Почему мы сегодня так много говорим о науке? Потому что наука будет определять все остальное в университете. Ценность преподавателя будет зависеть от его вклада в научную деятельность. Задача университета – подвести студента к той передовой границе, где знания и незнания сходятся, помочь ему перешагнуть эту черту», – отметил Валерий Фальков.

По мнению участников диалога, университет не может быть представлен одинаково во всех направлениях. Существуют направления, которые, в силу разных причин, формируют лицо университета и его узнаваемость вовне. Поэтому научная деятельность становится приоритетной.

Исходя из пожеланий участников, темой IV Коммуникативной лаборатории станет «Инфраструктурная политика: как правильно организовать пространство для обучения студентов в соответствии с новыми требованиями времени». Участникам нужно зарегистрироваться.

Источник

Как сегодня изучать фронтиры? Дискуссия по статье Д. В. Сеня

Категория: Disputatio / Дискуссия.

Ссылка для цитирования: Как сегодня изучать фронтиры? Дискуссия по статье Д. В. Сеня // Studia Slavica et Balcanica Petropolitana. 2020. № 1. С. 81-105. DOI https://doi.org/10.21638/spbu19.2020.105

For citation: How to study frontiers today? Discussion on the article by D. V. Sen’, in Studia Slavica et Balcanica Petropolitana. 2020. № 1. Pp. 81-105. DOI https://doi.org/10.21638/spbu19.2020.105

Дискуссия подготовлена при поддержке программы развития научных журналов в рамках государственного контракта № 14.597.11.0035, заключенного между Минобрнауки РФ и НП «НЭИКОН».

Поводом к дискуссии послужила статья Д. В. Сеня о современном состоянии фронтирных исследований в России, публикуемая в текущем номере журнала. Участниками дискуссии выступили ученые из России, США и Украины, занимающиеся историей пограничных территорий и пограничных сообществ. Они сосредоточились на нескольких ключевых вопросах: перспективы компаративных исследований фронтирных территорий, сравнение концепта фронтира с исследовательскими возможностями других концептов и теорий; классификация фронтиров, включая фронтирные территории России. Кроме того, авторы обсудили практики ненаучного «приписывания» концепту фронтира признаков, препятствующих развитию диалога именно среди российских ученых. Некоторые ученые считают фронтирную модель «политически небезопасной». Нет оснований считать концепт фронтира малопродуктивным на том основании, что прямые аналогии, скажем, между американским фронтиром и иными фронтирами, скорее всего, несостоятельны. На широком эмпирическом материале рассмотрены различные точки зрения о валидности фронтирной теории по отношению к разным случаям, в том числе об «эластичности» и «всеобъяснимости» при помощи концепта фронтира соответствующих кейсов из истории разных государств, территорий, культур. Уделено внимание и ответу на вопрос о том, может ли теория фронтира оказать в начале XXI в. принципиальное влияние на изучение истории российских регионов и на тематику исследований, реализуемых региональными научными сообществами. Представлены новые аргументы, объясняющие, почему в различных национальных историографиях не прекращаются споры о поиске аналогий или даже о ревизии теории фронтира. Участники дискуссии в целом согласились с мнением о том, что концепция фронтира может быть признана неисключительной, но убедительной объяснительной моделью при обращении именно к российскому историческому опыту освоения соответствующих явлений и территорий, главным образом, XVI–XIX вв. Определены проблемы и перспективы дальнейшего использования концепта. Высказано мнение о необходимости выявления основных признаков (маркеров) превращения фронтирной территории в так называемую традиционную территорию страны и конкретно-исторического исследования подобных процессов.

Ключевые словаисториография, колонизация, метанарратив, пограничье, теория фронтира, фронтиры, границы, порубежье,фронтирные исследованияФронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое Полный текст статьиЯзык статьирусскийСписок цитируемой литературы

Агеев, Александр Дмитриевич. Сибирь и американский Запад: Движение фронтиров. Москва: Аспект-Пресс, 2005. 334 с.

Анчабадзе, Юрий Дмитриевич. Рецензия на: Границы и пограничье в южнороссийской истории: Материалы Всероссийской научной конференции (г. Ростов-на-Дону, 26–27 сентября 2014 г.). Ростов-на-Дону: Изд-во Южного федерального университета, 2014. 628 с. // Этнографическое обозрение. 2016. № 3. С. 180–183.

Баррет, Томас М. Линии неопределенности: северокавказский «фронтир» России // Американская русистика: вехи историографии последних лет. Императорский период. Антология / Сост. Дэвид-Фокс, Майкл. Самара: Изд-во «Самарский университет», 2000. С. 163–193.

Басалаева, Ирина Петровна. Критерии фронтира: К постановке проблемы // Теория и практика общественного развития. 2012. № 2. С. 46–49.

Воропанов, Виталий Александрович. Суд и правосудие в провинции Российского государства в XVI – первой половине XVIII в. (на примере областей Поволжья, Урала и Западной Сибири). Москва: Проспект, 2017. 192 с.

Голованова, Светлана Александровна; Шнайдер, Владимир Геннадьевич. Концепция «фронтира» в современной кавказоведческой литературе // Вестник Адыгейского государственного университета. Сер. 1: Регионоведение: Философия, история, социология, юриспруденция, политология, культурология. 2012. Вып. 3. С. 66–74.

Грибовський, Владислав Володимирович. Межа межі. Нотатки на полях книги Ігоря Чорновола «Компаративні фронтири: світовий і вітчизняний вимір» (Киев: Критика, 2015. 376 с.) // Фронтири міста: Iсторико-культурологічний альманах / Ред. Грибовський, Владислав Володимирович. Дніпро: Герда, 2016. Вип. 5. С. 189–212.

Дюби, Жорж. Время соборов. Москва: Ладомир, 2002. 378 с.

Есаулова, Ольга Михайловна. Южноафриканский фронтир // Вестник Санкт-Петербургского университета. Сер. 9. 2008. Вып. 2. Ч. II. С. 29–32.

Заседателева, Лидия Борисовна. Терские казаки: (Середина XVI – начало XX в.): Историко-этнографические очерки. Москва: МГУ, 1974. 423 с.

Каппелер, Андреас. Россия — многонациональная империя. Возникновение. История. Распад. Москва: «Традиция» – «Прогресс-Традиция», 2000. 342 с.

Каппелер, Андреас. Южный и восточный фронтир России в XVІ–XVІІІ веках // Ab Іmperіo. 2003. № 1. С. 47–64.

Королюк, Владимир Дорофеевич. Славяне и восточные романцы в эпоху раннего средневековья: Политическая и этническая история. Москва: Наука, 1985. 240 с.

Матвеев, Олег Владимирович. От фронта к фронтиру: Историко-антропологические очерки. Краснодар: Эдви, 2015. 272 с.

Мельникова, Елена Александровна. К типологии контактных зон и зон контактов: Cкандинавы в Западной и Восточной Европе // Восточная Европа в древности и Средневековье: Контакты, зоны контактов и контактные зоны: Материалы конференции XI Чтения памяти чл.-кор. АН СССР Владимира Терентьевича Пашуто, Москва, 14–16 апреля 1999 / Отв. ред. Е. А. Мельникова. Москва: Институт всеобщей истории РАН, 1999. C. 19–27.

Нольде, Борис Эммануилович. История формирования Российской империи. Санкт-Петербург: «Дмитрий Буланин», 2013. 848 с.

Нольте, Ханс-Генрих. Русские «крестьянские войны» как восстания окраин // Вопросы истории. 1994. № 11. С. 31–38.

Побережников, Игорь Васильевич. Фронтирная модернизация на востоке Российской империи: Региональные вариации // Уральский исторический вестник. 2018. № 4. С. 72–89.

Почекаев, Роман Юлианович. Эволюция налогообложения в Казахстане в XIX веке в контексте фронтирной модернизации // Право: Журнал Высшей школы экономики. 2013. № 4. С. 174–190.

Северный Кавказ в составе Российской империи. Москва: Новое литературное обозрение, 2007. 460 с.

Скотт, Джеймс С. Искусство быть неподвластным: Анархическая история высокогорий Юго-Восточной Азии. Москва: Новое издательство, 2017. 565 p.

Тернер, Фредерик Джексон. Фронтир в американской истории. Москва: «Весь Мир», 2009. 304 с.

Тимошенко, Альбина Ивановна. Индустриальное строительство в Сибири во второй половине ХХ столетия как вариант фронтирной модернизации // Модернизация в условиях освоения восточных регионов России в XVIII–XX вв. Екатеринбург: Банк культурной информации, 2012. С. 141–148.

Фронтири міста: Iсторико-культурологічний альманах / Ред. Грибовський, Владислав Володимирович. Вип. 1–5. Дніпропетровськ-Дніпро: Герда, 2012–2016.

Чорновол, Ігор. Компаративні фронтири: світовий і вітчизняний вимір. Київ: Критика, 2015. 376 с.

Чорновол, Ігор. Межі порубіжжя: Пограниччя проблем. (Відповідь Владиславові Грибовському) // Фронтири міста: Iсторико-культурологічний альманах. Дніпро: Герда, 2016. Вип. 5. С. 213–218.

Чорновол, Iгор. Фронтири Росії // Критика. 2007. № 10. С. 17–21.

Шеуджен, Эмилия Аюбовна. Путь в историю: В поисках методологии исследования. Майкоп: ООО «Качество», 2007. 268 c.

Эйдельман, Натан Яковлевич. 17 сентября 1773 г. // Эйдельман, Натан Яковлевич. Из потаенной истории России XVIII–XIX веков. Москва: Высшая школа, 1993. С. 188.

Constructing Border Societies on the Triplex Confinium / Ed. by Roksandić, Drago; Štefanec, Nataša. Budapest: CEU, 2000. 288 p.

Kaser, Karl. Slobodan seljak i vojnik (1545–1881). Vol. I–II. Zagreb: Naprijed, 1997. 524 s.

Lattimore, Owen. Studies in Frontier History: Collected Papers, 1928–1958. London: Oxford University Press, 1962. 565 p.

Rieber Alfred J. Triplex Confinium in comparative context // Constructing Border Societies on the Triplex Confinium / Ed. by Roksandić, Drago; Štefanec, Nataša. Budapest: CEU, 2000. P. 13–28.

Roksandić, Drago. Triplex Confinium ili o granicama i regijama hrvatske povijesti. 1500–1800. Zagreb: Barbat, 2003. 259 p.

Tolerance and Intolerance on the Triplex Confinium. Approaching the «Other» on the Borderlands Eastern Adriatic and beyond. 1500–1800 / Ed. by Ivetić, Egidio; Roksandić, Drago. Padova: Cleup, 2007. 364 p.

Источник

Как мы фронтиры науки с помощью тематического моделирования искали

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Некоторое время назад перед нашей NLP-командой была поставлена необычная задача: построения системы определения фронтиров науки. Некоторые из нас до постановки задачи ни разу даже не слышали слово «фронтир», и мы начали с того, что стали разбираться, что оно значит. Буквальное историческое определение слова frontier – это граница между освоенными и неосвоенными поселенцами свободными землями на Диком Западе. Естественно, от этого буквального определения нам была интересна только часть про границу между освоенным и неосвоенным, она же «передний край науки». Получается, перед нами была поставлена задача автоматически определить, где проходит этот передний край.

Для планирования научно-технического развития страны или компании необходимо знать, какие направлений растут и перспективны (фронтиры), а какие технологии уже достигли пика развития и вкладываться в них поздно. Правильное определение перспективных направлений (фронтиров) позволит финансировать темы, которые принесут наибольшую пользу науке, бизнесу и обществу в целом. Как правило, такие перспективные направления определяют эксперты. Но как мы с вами понимаем, там, где есть человек, есть и человеческий фактор, и все связанные с ним недостатки.

Задача обнаружения трендов, конечно же, не является новой, она была представлена еще в 2004 году. Конечно, с тех пор был выработан ряд подходов к ее решению, с большей или меньшей степенью участия в них человека. Мы пошли по пути, предполагающем наибольшую автоматизацию и основанном на автоматическом выделении тем из корпуса текстов с последующим их анализом. Уже существуют работы, (например, эта или эта) в которых используется такой подход. Однако в них используется LDA, устаревший метод построения тематических моделей. Мы пошли похожим путем, но используем более современный подход ARTM, который позволяет гораздо более гибко и качественно обучать тематические модели. Данный подход уже успешно использовался в при обработке научных и научно-популярных статей, но в нашем исследовании фокус был сделан на высокой интерпретируемости тем и извлечении декоррелированных (подробнее см. ниже) трендов.

После небольшого исследования мы выяснили, что быстро и легко можно получить большой датасет научных статей с arXiv (1.7M +) по разделам STEM (Science, Technology, Engineering and Mathematics). Большой файл с метаданными (название, аннотация, год, авторы, и т.д.) этих статей выложен на kaggle, тут. Полные тексты этих статей можно скачать через различные api-сервисы arXiv, что мы и проделали для тех статей, которые касаются ML и AI (а именно статьи, относящиеся к категориям cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.NE, cs.RO, stat.ML).

Кроме arXiv-STEM датасета мы, бегая краулером по сайтам и мучительно расковыривая pdf-ки, спарсили архив статей с мировых топ-конференций по ML и AI: NIPS, CVPR и ACL. В результате у нас получился увесистый csv-файл с 143653 статьями, опубликованными с 1987 по 2020 гг., да ещё и с метаинформацией в виде авторов и года публикации. Конечно, при таких объемах данных о ручном анализе не может быть и речи, нужен какой-то автоматический или, на худой конец, полуавтоматический способ провести то, что называется exploratory data analysis или разведочный анализ данных.

Тематическая модель с аддитивной регуляризацией

В первую очередь нам захотелось узнать, каких тем вообще касаются авторы в нашей коллекции. Для таких задач в машинном обучении есть разработанный аппарат тематического моделирования, который не требует разметки и позволяет получить не только набор тем, которые затрагиваются в текстовой коллекции, но и для каждого документа коллекции узнать, какие темы затрагиваются в нём и в какой степени.

Звучит здорово, но давайте формализуем понятия, — что такое тема и что мы будем искать. В тематическом моделировании тема полностью определяется своей лексикой, или, более точно, тема определяется тем, с какой вероятностью в ней могут встретиться те или иные слова. Идея в том, что если вы говорите, например, о машинном обучении, вы с высокой вероятностью можете сказать «нейрон» или «модель», и с близкой к нулю вероятностью скажете, например, «фотосинтез» или «аркебуза». Математически это звучит так: тема – это дискретное вероятностное распределение на множестве токенов словаря текстовой коллекции. То есть если мы, например, собрали словарь коллекции (совокупность слов, которые хоть раз встретились в документах коллекции) и приписали каждому слову из этого словаря некоторую вероятность появления (число от 0 до 1), то мы определили тему. Конечно, сумма вероятностей всех слов должна быть равна 1, иначе не получится вероятностного распределения.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Легко видеть, как говорят математики, что речь идёт об одной из задач Computer Vision, а именно о задаче Action Recognition. Давайте рассмотрим ещё пару тем.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Видим, что вторая из этих двух тем также касается Computer Vision, но в данном случае речь идет о задаче Object Detection. Первая же явно представляет собой тему Graph Neural Networks (GNN). Аналогично подавляющее большинство выделенных моделью тем интерпретируется и именуется так же легко, как представленные.

За символом троеточия в представленных темах скрывается еще более 30000 токенов словаря нашей коллекции, каждый из которых с некоторой вероятностью может появиться в теме. Впрочем, большая часть этих вероятностей равна или очень близка к нулю, что соответствует логичному предположению, что у каждой темы должно быть небольшое (много меньше размера словаря) количество вероятных токенов. Это предположение называется гипотезой разреженности тем. Для учёта таких предположений мы использовали подход, который называется аддитивная регуляризация тематических моделей (АРТМ), который реализован в библиотеке BigARTM.

Именование тем

После того как тема в виде распределения на множестве токенов словаря выделена, имеет смысл дать ей краткое название, чтобы затем было проще ею оперировать в аналитике. Выше мы уже проделали это для тем Action Recognition, Object Detection и Graph Neural Networks (GNN). Если модель построена хорошо, то обычно не возникает проблем с именованием тем по их наиболее вероятным токенам (конечно, если экспертизы того, кто именует, достаточно). Однако иногда, если коллекция охватывает несколько далёких друг от друга областей, найти специалиста, который был бы экспертом во всех этих областях одновременно, бывает довольно трудно или даже невозможно.

Для того чтобы помочь эксперту сориентироваться и уточнить данные по теме, дополнительно мы реализовали выгрузку статей, в которых максимально велика вероятность встретить тему, которой в данный момент нужно дать название. Это легко реализовать, поскольку в результате обучения тематической модели мы получаем для каждого документа коллекции и для каждой темы вероятность встретить данную тему в данном документе. Эти вероятности хранятся в матрице Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое, тем-документов. Имея такую матрицу, легко найти статьи с наибольшим содержанием именуемой темы: нужно просто отсортировать Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоепо соответствующему ей столбцу.

Например, для темы Graph Neural Networks (GNN) получим следующий результат при поиске среди публикаций за 2010–2020 гг.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Представление документов в тематической модели

Как уже упоминалось выше, тематическая модель не только позволяет выделить темы из коллекции текстов, но и определить, какие документы какие темы затрагивают, и в какой степени. Математически это представляется, аналогично теме, через дискретное вероятностное распределение, но теперь не на множестве слов словаря, а на множестве тем. То есть после обучения тематической модели для каждого документа коллекции известно, с какой вероятностью в нём появится какая тема. Ну и сумма вероятностей всех тем равна, как водится, 1. Вот, например, три наиболее вероятные темы одной из статей коллекции (здесь и далее приведены рабочие названия тем).

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Такой топ-3 тем говорит о том, что в статье рассматривается задача сегментации изображений с использованием технологии повышения разрешения с помощью глубокого обучения. Также, по-видимому, при решении задачи использовался отбор признаков.

Как и в случае с топ-токенами тем, за троеточием скрываются все остальные, только теперь не токены, а темы, выделенные моделью. В данном случае их 30, и каждая с некоторой вероятностью возникнет в рассматриваемом документе. И опять же, как и в случае с топ-токенами тем, большая часть вероятностей либо равна нулю, либо близка к нему, поскольку выполняется гипотеза разреженности матрицы тем-документов. Эта гипотеза предполагает, что в каждом документе затрагивается небольшое количество тем. Она также может быть учтена в модели с помощью добавления регуляризатора, в данном случае регуляризатора разреживания матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое.

Сама по себе процедура выделения тем и определения, к каким темам в какой степени относятся документы, сводится к следующему: мы выбираем значения гиперпараметров тематической модели (количество тем, регуляризаторы, коэффициенты регуляризации и т. д.), затем мы обучаем тематическую модель, и результатом её обучения являются две матрицы – Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое. Столбцы матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоекак раз и представляют собой темы как распределения на множестве слов, а столбцы матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое– документы как распределения на множестве тем.

Регуляризация тематической модели

Данный раздел касается профильных вопросов, которые требуют от читателя определенной подготовки. Они будут вам полезны и интересны, если вы сами занимаетесь или планируете заняться обучением тематических моделей. Если же вас интересует сугубо задача поиска фронтиров или вы не специалист в машинном обучении, этот раздел можно смело пропустить.

Подход аддитивной регуляризации тематических моделей позволяет не только решить проблему некорректности по Адамару задачи тематического моделирования, но и учесть в модели лингвистические требования и экстралингвистические данные о документах коллекции. Подробнее об этом можно почитать в материалах по ссылкам, данным выше, например, тут.

Математическая постановка задачи тематического моделирования представляет собой задачу стохастического матричного разложения матрицы F терминов-документов на произведение матриц Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоетерминов-тем и матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоетем-документов.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Эта задача решается путём максимизации логарифма правдоподобия, с условием нормировки столбцов матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи строк матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи неотрицательности всех элементов этих матриц. В теории аддитивной регуляризации (АРТМ) в качестве слагаемых к логарифму правдоподобия добавляются регуляризаторы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое, и в результате функционал принимает следующий вид.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

где Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое– коэффициент регуляризации.

Как уже было сказано выше, мы использовали ряд регуляризаторов: регуляризатор разреживания матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи регуляризатор декоррелирования тем. Мы использовали проверенную стратегию регуляризации при обучении нашей тематической модели, и для нашей коллекции она сработала отлично, практически без дополнительных доработок.

Регуляризатор разреживания матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Регуляризатор разреживания матрицы тем-документов формализует так называемую гипотезу разреженности, состоящую в том, что каждый документ относится к малому количеству тем. В практических задачах разумно использовать сильно разреженные матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое, в которых около 90 % значений являются нулями.

Разреженность распределения обратно пропорциональна его энтропии, а равномерное распределение имеет максимальную энтропию. Поэтому требование разреженности эквивалентно максимизации KL-дивергенции между распределениями Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи равномерным распределением Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое. Регуляризатор, таким образом, представляет из себя суммарную KL-дивергенцию по всем темам и документам.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

где Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое– коэффициент регуляризации.

Регуляризатор декоррелирования

Регуляризатор декоррелирования формализует предположение о различности тем, как распределений на множестве токенов, максимизируя ковариации между темами – столбцами матрицы Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое. Он помогает избежать дублирования тем и повысить их разнообразие.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

где Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое– коэффициент регуляризации.

Стратегия регуляризации

Подбор коэффициентов регуляризации осуществлялся по алгоритму, аналогичному использованному тут. На первом этапе производился подбор коэффициента для регуляризатора декоррелирования. Для каждого из тестируемого набора значений коэффициента проводилось по 8 итераций EM-алгоритма, после чего выбиралось наилучшее значение по критериям перплексии и разреженности матриц Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое. Затем в выбранную таким образом наилучшую модель добавлялся регуляризатор разреживания и проводилось ещё 8 итераций EM-алгоритма для каждого из тестируемого набора значений коэффициента разреживания. Для модели с полученной таким образом комбинацией коэффициентов проводилось ещё 3 итерации EM-алгоритма.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Одна итерация EM-алгоритма занимала около 3 минут при распараллеливании на CPU нашей 18-ядерной машины, то есть каждый эксперимент занимал около получаса. За несколько дней нам удалось добиться отличного уровня разреженности матриц Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоеи Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такоенашей модели без потерь в перплексии.

Иерархическая тематическая модель

Итак, у нас получилась классная интерпретируемая тематическая модель с 30 разреженными темами, и, кроме того, мы знали, какие темы и в какой степени затрагивает каждая статья в нашей коллекции. Однако этого нам показалось мало, и мы решили ещё усложнить нашу модель, добавив в неё иерархию тем. Иерархические тематические модели, как следует из названия, позволяют строить многоуровневые графы тем, причём для тем более высокого, то есть более детального, уровня известно, из каких тем более низкого уровня они состоят. Уже полученные нами 30 тем мы использовали как базовый, 0 уровень тематической иерархии, и на его основе построили более детальный 1 уровень иерархии, состоящий из 100 тем.

Давайте рассмотрим, как темы 1 уровня иерархии связаны с темами 0 уровня. Возьмём, например, такую тему 1 уровня.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Тема хорошо интерпретируется: видим, что это тема Language Models. Поскольку это тема 1 уровня иерархии, она является смесью тем 0, базового уровня. Давайте посмотрим, в какой степени какими темами она порождается. Вот топ-3 тем 0 уровня, смесью которых является тема Language Models.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Выглядит вполне логично. Может возникнуть вопрос, почему я говорю о смеси тем родительского уровня, а колонка в таблице всё равно называется вероятность. Дело в том, что это две равноправные интерпретации: дискретное вероятностное распределение и пропорциональная смесь. То есть мы можем сказать, что в каждой теме более высокого уровня с некоторой вероятностью возникают темы базового уровня, а можем сказать, что каждая тема более высокого уровня является смесью тем более низкого уровня. В любом случае мы каждой теме более низкого уровня приписываем некоторое число от 0 до 1, и сумма этих чисел по всем темам должна быть равна 1. Кстати, за троеточием скрываются все остальные темы 0 уровня со своими вероятностями, но снова большая часть этих вероятностей равна нулю. Это логично, мы предполагаем, что каждая тема более высокого уровня состоит из малого количества тем более низкого уровня. Это предположение также выражается при обучении с помощью специального регуляризатора иерархических связей.

Тренды и циклы жизни

Теперь, с мощной иерархической тематической моделью нашей коллекции научных статей, мы могли сделать следующий шаг по направлению к задаче поиска фронтиров. Мы решили исходить из следующего предположения: в областях наибыстрейшего развития и продвижения науки должно быть сосредоточено наибольшее внимание научного сообщества, а значит, в этих областях должна наблюдаться наибольшая публикационная активность или резкое её увеличение. Предположение довольно сильное, и с ним можно и нужно спорить, но нам оно показалось похожим на правду. Но пока оно сформулировано просто на словах, с ним особо ничего не сделаешь, так что давайте его формализуем.

Начнём с конца, то есть с публикационной активности по определённой теме. Темы у нас выделены с помощью тематической модели, и про каждый документ нашей коллекции мы знаем содержание (или вероятность упоминания) этой темы в нём. А значит, мы можем, например, найти средний тематический вектор всей коллекции (или её подмножества), и каждая его координата будет отражать вероятность встретить соответствующую этой координате тему в коллекции вообще. То есть мы рассматриваем всю нашу коллекцию как огромный документ, затрагивающий в некоторой степени все темы, некоторые в большей степени, некоторые – в меньшей. И чем больше координата темы в тематическом векторе коллекции, тем большей мы считаем публикационную активность по этой теме. Это вполне логично, поскольку значение этой координаты представляет собой не что иное, как вероятность встретить тему в коллекции.

Давайте посмотрим на доли в публикационной активности по темам за всю доступную нам в датасете историю (с 1987 по 2020).

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Каждый цвет соответствует одной из тем 0 уровня иерархической тематической модели. Видим, что публикационная активность по всем темам примерно одного порядка, результаты отличаются не более чем в 3–5 раз. Такое соотношение является следствием того, как устроена тематическая модель и процесс ее обучения с математической точки зрения. Не углубляясь сейчас в эту проблему, заметим, что в принципе нас такая ситуация вполне устраивает, поскольку сбалансированность наблюдается на выборке за всю историю, и каждая из больших тем заслужила там своё место.

Давайте, вместо того чтобы смотреть на публикационную активность за всю историю, взглянем на то, как меняется публикационная активность по темам с годами. Это позволит нам наблюдать за тем, как ведёт себя интерес научного сообщества к теме во времени. Математически это сводится к тому же усреднению тематических векторов, но не всей коллекции, а некоторой ее подвыборки, отобранной в зависимости от года публикации.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

где Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое— номера статей, опубликованных в соответствующем году.

Кстати, такие же интересные сравнения публикационной активности можно проводить по произвольным подвыборкам, получая разнообразную аналитику, связанную, например, с университетом, лабораторией, технологической компанией или страной публикации.

Но вернёмся к аналитике изменения публикационной активности по темам в зависимости от года. Давайте, например, посмотрим, для сравнения, график жизненного цикла классической модели машинного обучения Support Vector Machine и нейросетевой архитектуры Convolutional Neural Network.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Графики вполне соответствуют тому, как исторически развивался интерес сообщества к данным моделям, поскольку в 2000-х SVM был стандартом для решения всевозможных задач классификации, а в 2010-х CNN начала активно применяться, сначала для анализа изображений, а затем и текстов.

Похожую и соответствующую интуиции картину мы можем наблюдать для другой пары классического и нейросетевого методов, а именно Principal Component Analysis и Recurrent Neural Network.

Фронтирные исследования что это такое. Смотреть фото Фронтирные исследования что это такое. Смотреть картинку Фронтирные исследования что это такое. Картинка про Фронтирные исследования что это такое. Фото Фронтирные исследования что это такое

Действительно, PCA является классическим хорошо изученным методом понижения размерности, в то время как RNN начали активно развиваться в 2010-х в связи с их использованием в языковых моделях.

На самом деле — такой жизненный цикл (малая доля публикаций, рост, плато, спад, и снова малая доля публикаций) характерны для большинства тем. Более того, за период 1987-2020 удалось пронаблюдать несколько тем, прошедших все стадии такого цикла по нескольку раз.

Заключение

Итак, с помощью анализа публикационной активности по годам нам удаётся определять тренды и циклы жизни тем. Мы видим, что некоторые темы сейчас на подъёме, некоторые вышли на плато, а некоторые почти полностью выработаны. Тематическая модель позволяет пронаблюдать этот жизненный цикл, и, пусть и на качественном уровне, отслеживать этап, на котором сейчас находится тема. Это первый шаг в сторону автоматического определения фронтиров: определяя наиболее мощные и быстрорастущие темы, мы можем обратить внимание аналитика на те области, которые с высокой вероятностью являются передним краем науки. Кроме того, предлагаемый подход не требует никакой разметки, а участие экспертов сводится только к именованию тем.

Дополнительно, на основе тех же подходов, может быть проведена сравнительная аналитика, например, для публикаций российских и мировых авторов, для выяснения, насколько отечественная наука соответствует общемировым течениям. Путем автоматической проверки близости к фронтиру могут формироваться рекомендации при оценке исследовательских и практических работ.

Конечно, у такого подхода есть и слабые места. Например, количество публикаций значительно увеличивается от года к году, и за любой месяц 2020 публикуется больше, чем было опубликовано за весь 1987. Из-за этого важные темы, работа над которыми велась в прошлом, имеют мало шансов быть представленными в модели, даже на более детальном 1 уровне иерархии. То же можно сказать и об абсолютно новых, прорывных темах, которые еще не успели обрасти большим количеством публикаций, хотя семантически уже вполне отделились от других тем. Открытым остается и вопрос детекции новых тем и обновления модели.

Однако эти особенности не отменяют того, что машинное обучение с частичным привлечением учителя или вообще без учителя, например, тематическое моделирование – это единственный путь анализа научного контента в обозримом будущем. Другого способа “переварить” огромный и быстро растущий объем статей, публикаций, патентов и другой подобной информации нет и не предвидится.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *