Распознавание именованных объектов (NER) — также называемое идентификацией объектов или извлечением объектов — представляет собой метод обработки естественного языка (NLP), который автоматически идентифицирует именованные объекты в тексте и классифицирует их по заранее определенным категориям. Сущностями могут быть имена людей, организаций, местоположений, время, количество, денежные значения, проценты и многое другое.
Благодаря распознаванию именованных сущностей вы можете извлечь ключевую информацию, чтобы понять, о чем текст, или просто использовать ее для сбора важной информации для сохранения в базе данных.
====================
Рассмотрим, как работает распознавание именованных сущностей, его применение в бизнесе и как выполнять извлечение сущностей с помощью инструментов без кода, таких как MonkeyLearn.
====================
Как работает распознавание именованных объектов?
Для чего используется распознавание именованных объектов (NER)?
Как выполнить распознавание именованных объектов
Как работает распознавание именованных объектов?
Когда мы читаем текст, мы естественным образом распознаем именованные сущности, такие как люди, ценности, места и т. д.
Например, в предложении <<Роберт Витингер — один из основателей "Линукс Новости", онлайн издания в США>> мы можем выделить три типа сущностей:
«Человек»: Роберт Витингер
«Компания»: Линукс Новости
«Местоположение»: США
Однако для компьютеров нам нужно сначала помочь им распознавать объекты, чтобы они могли классифицировать их.
====================
Это делается с помощью машинного обучения и обработки естественного языка (NLP). НЛП изучает структуру и правила языка и создает интеллектуальные системы, способные извлекать смысл из текста и речи, а машинное обучение помогает машинам учиться и совершенствоваться с течением времени.Чтобы узнать, что такое объект, модель NER должна быть в состоянии обнаружить слово или строку слов, образующих объект (например, Нью-Йорк), и знать, к какой категории объектов он принадлежит.
Итак, во-первых, нам нужно создать категории сущностей, такие как имя, местоположение, событие, организация и т. д., и передать соответствующие обучающие данные модели NER. Затем, пометив некоторые образцы слов и фраз соответствующими объектами, вы в конечном итоге научите свою модель NER обнаруживать объекты самостоятельно.
======================
Для чего используется распознавание именованных объектов (NER)?
======================
Классифицировать тикеты в службе поддержки
Если вы имеете дело с растущим числом запросов в службу поддержки клиентов, вы можете использовать методы распознавания именованных сущностей, чтобы быстрее обрабатывать запросы клиентов. Автоматизируйте повторяющиеся задачи обслуживания клиентов, такие как классификация проблем и запросов клиентов, и сэкономьте свое драгоценное время, которое поможет улучшить скорость решения и повысить удовлетворенность клиентов.
========================
Вы также можете использовать извлечение сущностей для извлечения соответствующих фрагментов данных, таких как названия продуктов или серийные номера, что упрощает направление заявок наиболее подходящему агенту или команде для решения этой проблемы.
Получите информацию из отзывов клиентов
=========================
Онлайн-обзоры — отличный источник обратной связи с клиентами: они могут дать исчерпывающую информацию о том, что клиентам нравится и не нравится в ваших продуктах, а также о тех аспектах вашего бизнеса, которые нуждаются в улучшении.
Системы NER можно использовать для организации всей этой обратной связи с клиентами и выявления повторяющихся проблем. Например, вы можете использовать NER для обнаружения мест, которые чаще всего упоминаются в отрицательных отзывах клиентов, что может привести к тому, что вы сосредоточитесь на конкретном отделении офиса.
==================
Обработка резюме
Рекрутеры проводят много часов в день, просматривая резюме в поисках подходящего кандидата. Каждое резюме содержит один и тот же тип информации, но они часто организованы и отформатированы по-разному: классический пример неструктурированных данных.
Используя экстрактор сущностей, группы по подбору персонала могут мгновенно извлекать наиболее важную информацию о кандидатах, от личной информации (например, имени, адреса, номера телефона, даты рождения и электронной почты) до данных, связанных с их обучением и опытом (например, сертификаты, степень, названия компаний, навыки и т. д.).
========================
Как создать распознавание именованных объектов
=========================
Самый простой способ начать работу с распознаванием именованных объектов — использовать API. По сути, вы можете выбрать один из двух типов:
API распознавания именованных объектов с открытым исходным кодом
SaaS-интерфейсы распознавания именованных сущностей
===========================================
API распознавания именованных объектов с открытым исходным кодом
API с открытым исходным кодом предназначены для разработчиков: они бесплатны, гибки и не требуют сложного обучения. Вот несколько вариантов:
===========================================
1.Stanford Named Entity Recognizer (SNER): этот инструмент JAVA, разработанный Стэнфордским университетом, считается стандартной библиотекой для извлечения объектов. Он основан на условных случайных полях (CRF) и предоставляет предварительно обученные модели для извлечения человека, организации, местоположения и других объектов.
- SpaCy: фреймворк Python, известный своей скоростью и простотой в использовании. Он имеет отличную статистическую систему, которую вы можете использовать для создания настраиваемых экстракторов NER. Natural Language Toolkit (NLTK): этот набор библиотек для Python широко используется для задач НЛП. NLKT имеет собственный классификатор для распознавания именованных сущностей, называемый ne_chunk, но также предоставляет оболочку для использования тега Stanford NER в Python.
SaaS-интерфейсы распознавания именованных сущностей
Инструменты SaaS — это готовые к использованию экономичные решения с минимальным объемом кода. Кроме того, их легко интегрировать с другими популярными платформами.
=========================
Например, MonkeyLearn — это платформа SaaS для анализа текста, которую вы можете ( или уже не можете ) использовать для различных задач НЛП, одна из которых — распознавание названных сущностей. Вы можете использовать готовый API MonkeyLearn для интеграции предварительно обученных моделей извлечения сущностей, или вы можете легко создать свой собственный экстрактор именованных сущностей всего за несколько простых шагов.
( если система доступна из Вашей локации )