Задачи анализа текста и ABBYY Compreno

Компания ABBYY сейчас занимается автоматизацией ввода документов и данных: создание электронных архивов с возможностью быстрого поиска нужных документов; ввод данных в информационную систему предприятия с любых видов бумажных бланков, анкет и финансовых документов; перевод отсканированных документов, изображений и файлов в редактируемые форматы.

ABBYY Language Services – отдельный отдел, который представляет лингвистическую поддержку и решения для корпоративных клиентов.

Издательство ABBYY Press – выпуск словарей, энциклопедий, а также работа над путеводителями.

ABBYY Compreno – система понимания анализа и перевода текстов на естественных языках.

Примеры задач анализа текстов:

  • Тематическая рубрикация текстов
  • Поиск похожих текстов
  • Определение автора
  • Кластеризация текстов
  • Аннотирование

Мы можем описывать текст какими-либо числовыми параметрами, например, частотами слов и работать с текстом так, как с набором этих параметров.

Одна из простых моделей – “модель мешка слов” – то есть Bag of Words заключается в том, что мы просто получаем частотный словарь и дальше работаем с частотами слов. Называется “мешок”, потому что мы теряем информацию о порядке слов и сразу понятно, что есть сильное ограничение в этой модели.

Допустим, мы анализируем отзыв на какой-либо товар и есть отзыв: “это не замечательный телефон, а ужасный” и противоположный отзыв “это не ужасный телефон, а замечательный” – в данной модели оба эти отзыва являются идентичными. Здесь становится понятно, что любая модель основанная на статистике будет до какой-то степени не совершенной, ее можно дальше усложнять и дорабатывать так, чтобы моделировать более сложные явления.

Классификация по теме текста: общая картинка

Аннотирование текста: baseline

Рассматривается корпус, состоящий из отдельных предложений документа и самого документа.

Аннотирование текста: TextRank

Если человек ввел в поисковике запрос Microsoft Office, то желательно чтобы первым результатом ему показали официальный сайт Microsoft. Для этого компанией Google был придуман алгоритм TextRank – в нем просто проставлялись ссылки сайтов друг на друга и высчитывался ранг каждого сайта, при этом каждая ссылка на него – голосует за этот сайт, с учетом авторитетности того, кто голосует.

Если задачу аннотирования решать на промышленных стандартных качествах, то всего не хватает, нужны более сложные системы

Пример на анализ тональности:

“Я купил телефон Моторола две недели назад. Все было хорошо сначала. Голос был чистым, батарея жила долго, но она была немного больше, чем я думал, а затем он перестал работать вчера.”

Отзыв является негативным, так как телефон все же перестал работать, однако в отзыве фигурирует очень много положительных качеств телефона. Последний фактор перечеркивает все положительные качества.

Применение SA

  • Для потребителя: анализ отзыва на товары, рекомендательные системы.
  • Для организаций: замена опросов и фокус-групп.
  • Политика: результаты выборов и мнение избирателей.
  • Фильмы: предсказание будущих доходов.
  • Биржевые торги: анализ оценки экспертов и предсказание курсов.
  • Здравоохранение: совместимость и побочные эффекты лекарств.
  • Оценка сильных и слабых сторон разработчиков приложений.

Уровни SA

  • Документ

Положительное или отрицательное мнение или отношение выражает данный документ?

  • Предложение:

Предположение: “маленький документ”, содержащий только одно мнение.

Фактически – промежуточный этап.

  • Аспект

Некто в некий момент времени высказал положительное или отрицательное мнение о некотором аспекте или характеристике некоторого объекта.

Машинный перевод

Основная задача статистического перевода – передача смысла предложения переводимого языка.

Простейшая модель – пословный перевод:

Исходные данные

  • Параллельный корпус текстов: два корпуса текстов – исходного и целевого языков; выровненные по предложениям (предложению исходного языка соответствует в точности одно предложение целевого).
  • Лингвистические данные: может использоваться дополнительная информация (словари, синтаксис и т. д.)

Общая схема перевода:

Технология ABBYY Compreno

  • 20 лет назад, в 1995 году, ABBYY начала исследования в области синтаксиса и семантики.
  • В проекте участвует более 200 человек.
  • Инвестиции в проект со стороны ABBYY – более 80 миллионов долларов.
  • Общие трудозатраты на проект – около 2 000 человеко-лет.
  • Основывается на результатах лингвистических исследований многих ведущих мировых ученых за последние 50 лет.
  • Активно привлекаются молодые кадры и выпускники ведущих вузов страны.

Иерархия семантических классов пример:

  • Человек
  • Человек, названный по профессии
  • Мужчина, названный по профессии
  • Министр
  • Премьер-министр

ABBYY Compreno также занимается извлечением фактов из текста и представляет их в графическом виде или в виде смысловых карт. Для того, чтобы анализ был качественным ABBYY Compreno справляется также с нетривиальными задачами из анализа текстов на естественном языке, а именно: проблема разрешение анафор, омонимии, элипсиса.

Демонстрация разбора документа, как он осуществляется

У нас есть определенное выделенное предложение, например: “Барак Обама встретился с президентов России Владимиром Путиным на два часа этим утром в Москве”.

Далее происходит синтаксический разбор для каждой сущности и становится понятно, что она из себя представляет, выделяются какие-то семантические классы. Есть одна персона – Владимир Путин и есть другая персона – Барак Обама. Таким же образом разбирается принадлежность к стране, должность персоны и событие – то есть их встреча.