Инструменты обработки естественного языка (НЛП) обычно используются во многих повседневных приложениях, таких как Siri и Google, но эффективность этих технологий не совсем понятна. Исследователи из Университета Врие в Амстердаме и гуманитарного кластера Королевской академии Нидерландов провели тщательную оценку четырех самых современных инструментов распознавания имен в популярной художественной литературе, включая «Игру престолов».
Результаты их исследования опубликованы в PeerJ Computer Science. Ученые выделяют типы имен и текстов, которые особенно трудны для роботов, а также предлагают решения для устранения этой проблемы.
Найденные ими решения позволяют повысить способность робота распознавать имена в одном романе с точностью от 7% до 90%.
Это делается по многим причинам, одна из которых – позволить журналистам анализировать большое количество информации, не уделяя этому много лишнего времени.
Многие инструменты НЛП основаны на машинном обучении; то есть компьютерная программа обучается распознавать шаблоны в тексте на основе ранее предоставленных примеров. Для распознавания имен в тексте, например, подается много газетных статей, в которых люди тщательно помечают имена. Затем перед программой ставится задача «узнать», как выглядит имя на основе контекста.
Проблемы возникают, когда машине дается не газетный текст, а роман. Ведь авторы романов имеют гораздо больше свободы в своем творчестве, чем журналисты, которым необходимо придерживаться фактов. Авторы художественной литературы могут придумывать свои собственные имена, такие как Tywin или R’hllor, или использовать описательные имена персонажей прямо из словаря, такие как Grey Worm. Эти имена системы НЛП с трудом распознают в тексте.
Эксперименты, выполненные Нильсом Деккером (Trifork B.V.), Тобиасом Куном (Vrije Universiteit Amsterdam) и Марике ван Эрп (KNAW Humanities Cluster), также подчеркивают гибкость языка и то, как имена контекстуализируются в рассказах. Например, можно назвать Дейенерис Таргариен как Дейенерис, но она также известна как Дани, Дейенерис Стормборн, Мать Драконов, Халиси, Несгоревший и Миса. Социальная сеть, созданная для «Игры престолов», показывает, например, что имя Дани чаще всего используется ее друзьями, а ее полное имя Дейенерис – только ее врагами (в ее отсутствии).
Исследователи приходят к выводу, что следует уделять больше внимания производительности инструментов НЛП и что еще предстоит проделать большую работу, прежде чем текст может быть полностью понят компьютерами.
По мнению редакции портала новостей «Центропресс», ученым еще предстоит большая работа над тем, чтобы сделать искусственный интеллект полноценным аналитическим инструментом. Однако методы обучения ИИ неизбежно будут развиваться и приведут к желаемому результату.