Ретрагированные статьи
Актуальные проблемы филологии и педагогической лингвистики
Научный журнал
ISSN 2079-6021(Print)
ISBN 2619-029X(Online)
Выпуски

Готовятся к выходу тематические номера журнала:

Выпуск 4, 2024 г.:
«Aллегория. Метафора. Символ»

Прием статей – до 10 ноября.
Выход номера – 25 декабряя.

Выпуск 1, 2025 г.:
«Развитие лексической системы языка в XXI веке: слово в пространстве изменяющегося мира»

Прием статей – до 10 февраля.
Выход номера – 25 марта.

Выпуск 2, 2025 г.:
«Феномен лингвокреативности в дискурсивных практиках»

Прием статей – до 10 мая.
Выход номера – 25 июня.

Индексирование

Ретрагированные статьи

УДК 81’42+ прикладная лингвистика+ англ. язык
DOI: https://doi.org/10.29025/2079-6021-2024-2-18-29

Алгоритмы поиска вербальных маркеров идентичности в современном научном дискурсе

Авторы: Гончарова О.В., Заврумов З.А., Халеева С.А. 


Получена: 01.04.2024 Принята: 25.04.2024 Опубликована онлайн: 25.06.2024

Резюме: Статья посвящена изучению специфики вербализации компонентов идентичности с помощью инструментов интеллектуального анализа данных. В качестве материала исследования использованы англоязычные тексты из открытых интернет-репозиториев научных статей и научных электронных библиотек, посвященные различным концепциям идентичности молодого человека. В рамках исследования была разработана и апробирована методика комплексного анализа текстовых данных, основанная на применении современных инструментов обработки естественного языка и машинного обучения. Частотный и семантический анализ текстов проводился с использованием библиотеки Natural Language Toolkit для токенизации текстов и процедуры POS-теггинга для подсчета частотности употребления лексем из окружения «identity». Для последующего анализа и кластеризации слов на основе их семантической близости были использованы Word Embeddings, предобученная модель Word2Vec и алгоритм K-means. Для работы с моделью Word2Vec были использованы библиотека Gensim и библиотека Scikit-learn. В результате было установлено, что в англоязычном научном дискурсе основные компоненты идентичности молодого человека вербализуются в рамках 9 семантических категорий: behaviour, communities, communication, education, identity, language, practice, complexity, science, наиболее распространенными из которых являются education (1475 / 33%), language (1032 / 21%) и communities (885 /18%). Анализ N-грамм позволил выявить определенные семантические поля, установить их атрибуты, оценить меру сходства текстов, что обеспечило наиболее точный поиск в векторном пространстве семантически близких n-грамм. Оптимизация позволила установить меру сходства, используемую для ранжирования фраз в соответствии с запросом, а также присвоить каждой n-грамме определенный вес для ранжирования. Улучшения могут быть достигнуты путем включения определенного типа статистического взвешивания слов, такого как TF-IDF. Предложенная система способна осуществлять поиск в большом текстовом массиве связанных фраз со схожим значением.

Ключевые слова: интеллектуальный анализ данных, язык программирования Python, семантическая категория, вербализация идентичности, идентичность молодого человека, научный дискурс, научные интернет-репозитории.

Для цитирования: Гончарова О.В., Заврумов З.А., Халеева С.А. Алгоритмы поиска вербальных маркеров идентичности в современном научном дискурсе. Актуальные проблемы филологии и педагогической лингвистики. 2024. №2. С. 18–29. https://doi.org/10.29025/2079-6021-2024-2-18-29

For citation: Goncharova O.V., Zavrumov Z.A., Khaleeva S.A. Search algorithms of verbal identity markers in modern scientific discourse. Current Issues in Philology and Pedagogical Linguistics. 2024, no 2, pp. 18–29. https://doi.org/10.29025/2079-6021-2024-2-18-29 (In Russ.).

PDF (RUS)

Язык: русский


Об авторе:

Гончарова О.В.1*, Заврумов З.А.2, Халеева С.А.3
1, 2, 3Пятигорский государственный университет;
357532, Российская Федерация, Пятигорск, пр. Калинина, 9; 
1ORCID ID: 0000-0003-1044-6244; 2ORCID ID: 0000-0001-6351-826X;
3ORCID ID: 0000-0003-1723-3348
1Web of Science Researcher ID: C-4671-2017; 
2Web of Science Researcher ID: S-4539-2018; 
1Scopus Author ID: 56037850600; 2Scopus Author ID: 57189696996;
3Scopus Author ID: 56028156500;
*e-mail: oxanavgoncharova@gmail.com


Список литературы:
1. Теркулов В.И. Языковые основы субэтнической, этнической и этнополитической идентичности. Актуальные проблемы филологии и педагогической лингвистики. 2024; (1): 36–46. https://doi.org/10.29025/2079-6021-2024-1-36-46. Доступно по: http://philjournal.ru/upload/2024-1/36-46.pdf Ссылка активна на 20.04.2024.
2. Schwarz K.C., Williams J.P. Studies on the social construction of identity and authenticity. Routledge Advances in Sociology. Publisher: Routledge, 2020:182. http//doi.org/10.4324/9780429027987-1. Доступно по: https://www.researchgate.net/publication/342884707_Introduction_to_the_social_construction_of_identi.... Ссылка активна на 20.04.2024.
3. Емелин В.А. От неолуддизма к трансгуманизму: сингулярность и вертикальный прогресс или утрата идентичности? Философия науки и техники. 2018; 23 (1): 103-115. Доступно по: https://cyberleninka.ru/article/n/ot-neoluddizma-k-transgumanizmu-singulyarnost-i-vertikalnyy-progre.... Ссылка активна на 20.04.2024.
4. Сапрыкин О.Н. Интеллектуальный анализ данных: учебное пособие. Самара: Издательство Самарского университета, 2020. Доступно по: http://repo.ssau.ru/bitstream/Uchebnye-izdaniya/Intellektualnyi-analiz-dannyh-ucheb-posobie-Tekst-el... Интеллектуальный%20анализ%202020.pdf?ysclid=lv89f0a21o174766551. Ссылка активна на 20.04.2024.
5. Liu M. Towards a ‘synergy’ of text mining and critical discourse analysis: A corpus-assisted discourse study of imagining Hong Kong’s relations to China in Hong Kong political discourse. Digital Scholarship in the Humanities. 2024:19. http//doi.org/10.1093/llc/fqae010. Доступно по: https://www.researchgate.net/publication/378799889_Towards_a_’synergy’_of_text_mining_and_critical_d.... Ссылка активна на 20.04.2024.
6. Ahmed A.F., Sherif M.A., Moussallem D., et al. Multilingual Verbalization and Summarization for Explainable Link Discovery. Data & Knowledge Engineering, 2021: 101874. https://doi.org/10.1016/j.datak.2021.101874. Доступно по: https://papers.dice-research.org/2021/DATAK_LSVS_journal/public.pdf. Ссылка активна на 20.04.2024.
7. Accuosto P., Saggion H. Mining arguments in scientific abstracts with discourse-level embeddings. Data & Knowledge Engineering, 2020; (129):101840. http//doi.org/10.1016/j.datak.2020.101840. Доступно по: https://www.researchgate.net/publication/343379811_Mining_arguments_in_scientific_abstracts_with_dis.... Ссылка активна на 20.04.2024.
8. Миронова М.Ю. Научный дискурс: эволюция теоретико-методологических подходов и концепций. Дискурс, 2023; 9(2): 137-155. https://doi.org/10.32603/2412-8562-2023-9-2-137-155. Доступно по: https://discourse.elpub.ru/jour/article/view/581/570. Ссылка активна на 20.04.2024.
9. Козлова Н.Ю. Образность в научном дискурсе. Вестник РУДН. Серия: Философия, 20234 (1): 138-152. Доступно по: https://cyberleninka.ru/article/n/obraznost-v-nauchnom-diskurse. Ссылка активна на 20.04.2024.
10. Оболкина С.В. Становление научного дискурса. Дискурс-Пи, 2022; (2): 35-52. Доступно по: https://cyberleninka.ru/article/n/stanovlenie-nauchnogo-diskursa. Ссылка активна на 20.04.2024.
11. Аксенова Т.В. Субъективная модальность в научном и научно-публицистическом дискурсе. Вестник Марийского государственного университета, 2021; 3 (43): 335-341. Доступно по: https://cyberleninka.ru/article/n/subektivnaya-modalnost-v-nauchnom-i-nauchno-publitsisticheskom-dis.... Ссылка активна на 20.04.2024.
12. Нужнова Е.Е, Бабаева Т.Б, Жуковская Н.В. Стратегия аргументации в научном дискурсе. Вестник ПНИПУ. Проблемы языкознания и педагогики, 2019; (2): 57-64. Доступно по: https://cyberleninka.ru/article/n/strategiya-argumentatsii-v-nauchnom-diskurse. Ссылка активна на 20.04.2024.
13. Нерсесян Г.Р. Ценности англоязычного научно-популярного педагогического дискурса: лингвистические механизмы и лингвопрагматические закономерности. Научный диалог, 2020; (9): 111-127. https://doi.org/10.24224/2227-1295-2020-9-111-127. Доступно по: https://www.nauka-dialog.ru/jour/article/view/1927. Ссылка активна на 20.04.2024.
14. Breiman L. Random forests. Machine Learning, 2001; 45(1): 5–32. Доступно по: https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf. Ссылка активна на 20.04.2024.
15. Mimno D., Wallach H., Talley E., et al. Optimizing semantic coherence in topic models. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. Edinburgh, Scotland, UK, 2011: 262–272. Доступно по: https://www.researchgate.net/publication/221012637_Optimizing_Semantic_Coherence_in_Topic_Models. Ссылка активна на 20.04.2024.


Количество показов: 267

Возврат к списку



Мы публикуем исследования в области русской и зарубежной филологии и сферы преподавания филологических дисциплин. Мы рекомендуем авторам внимательно прочитать содержание нашего журнала, правила подачи заявок и заявления о злоупотреблениях. Оригинальным статьям и исследованиям, разрабатывающим новые теоретические вопросы, отдается предпочтение. Такие работы всегда цитируются, а цитирование ваших работ отражает ваш статус как исследователя.
ISSN 2079-6021 (Print)
ISBN 2619-029X (Online)
^ Наверх