Компания ABBYY сейчас занимается автоматизацией ввода документов и данных: создание электронных архивов с возможностью быстрого поиска нужных документов; ввод данных в информационную систему предприятия с любых видов бумажных бланков, анкет и финансовых документов; перевод отсканированных документов, изображений и файлов в редактируемые форматы.
ABBYY Language Services – отдельный отдел, который представляет лингвистическую поддержку и решения для корпоративных клиентов.
Издательство ABBYY Press – выпуск словарей, энциклопедий, а также работа над путеводителями.
ABBYY Compreno – система понимания анализа и перевода текстов на естественных языках.
Примеры задач анализа текстов:
- Тематическая рубрикация текстов
- Поиск похожих текстов
- Определение автора
- Кластеризация текстов
- Аннотирование
Мы можем описывать текст какими-либо числовыми параметрами, например, частотами слов и работать с текстом так, как с набором этих параметров.
Одна из простых моделей – “модель мешка слов” – то есть Bag of Words заключается в том, что мы просто получаем частотный словарь и дальше работаем с частотами слов. Называется “мешок”, потому что мы теряем информацию о порядке слов и сразу понятно, что есть сильное ограничение в этой модели.
Допустим, мы анализируем отзыв на какой-либо товар и есть отзыв: “это не замечательный телефон, а ужасный” и противоположный отзыв “это не ужасный телефон, а замечательный” – в данной модели оба эти отзыва являются идентичными. Здесь становится понятно, что любая модель основанная на статистике будет до какой-то степени не совершенной, ее можно дальше усложнять и дорабатывать так, чтобы моделировать более сложные явления.
Классификация по теме текста: общая картинка
Аннотирование текста: baseline
Рассматривается корпус, состоящий из отдельных предложений документа и самого документа.
Аннотирование текста: TextRank
Если человек ввел в поисковике запрос Microsoft Office, то желательно чтобы первым результатом ему показали официальный сайт Microsoft. Для этого компанией Google был придуман алгоритм TextRank – в нем просто проставлялись ссылки сайтов друг на друга и высчитывался ранг каждого сайта, при этом каждая ссылка на него – голосует за этот сайт, с учетом авторитетности того, кто голосует.
Если задачу аннотирования решать на промышленных стандартных качествах, то всего не хватает, нужны более сложные системы
Пример на анализ тональности:
“Я купил телефон Моторола две недели назад. Все было хорошо сначала. Голос был чистым, батарея жила долго, но она была немного больше, чем я думал, а затем он перестал работать вчера.”
Отзыв является негативным, так как телефон все же перестал работать, однако в отзыве фигурирует очень много положительных качеств телефона. Последний фактор перечеркивает все положительные качества.
Применение SA
- Для потребителя: анализ отзыва на товары, рекомендательные системы.
- Для организаций: замена опросов и фокус-групп.
- Политика: результаты выборов и мнение избирателей.
- Фильмы: предсказание будущих доходов.
- Биржевые торги: анализ оценки экспертов и предсказание курсов.
- Здравоохранение: совместимость и побочные эффекты лекарств.
- Оценка сильных и слабых сторон разработчиков приложений.
Уровни SA
- Документ
Положительное или отрицательное мнение или отношение выражает данный документ?
- Предложение:
Предположение: “маленький документ”, содержащий только одно мнение.
Фактически – промежуточный этап.
- Аспект
Некто в некий момент времени высказал положительное или отрицательное мнение о некотором аспекте или характеристике некоторого объекта.
Машинный перевод
Основная задача статистического перевода – передача смысла предложения переводимого языка.
Простейшая модель – пословный перевод:
Исходные данные
- Параллельный корпус текстов: два корпуса текстов – исходного и целевого языков; выровненные по предложениям (предложению исходного языка соответствует в точности одно предложение целевого).
- Лингвистические данные: может использоваться дополнительная информация (словари, синтаксис и т. д.)
Общая схема перевода:
Технология ABBYY Compreno
- 20 лет назад, в 1995 году, ABBYY начала исследования в области синтаксиса и семантики.
- В проекте участвует более 200 человек.
- Инвестиции в проект со стороны ABBYY – более 80 миллионов долларов.
- Общие трудозатраты на проект – около 2 000 человеко-лет.
- Основывается на результатах лингвистических исследований многих ведущих мировых ученых за последние 50 лет.
- Активно привлекаются молодые кадры и выпускники ведущих вузов страны.
Иерархия семантических классов пример:
- Человек
- Человек, названный по профессии
- Мужчина, названный по профессии
- Министр
- Премьер-министр
ABBYY Compreno также занимается извлечением фактов из текста и представляет их в графическом виде или в виде смысловых карт. Для того, чтобы анализ был качественным ABBYY Compreno справляется также с нетривиальными задачами из анализа текстов на естественном языке, а именно: проблема разрешение анафор, омонимии, элипсиса.
Демонстрация разбора документа, как он осуществляется
У нас есть определенное выделенное предложение, например: “Барак Обама встретился с президентов России Владимиром Путиным на два часа этим утром в Москве”.
Далее происходит синтаксический разбор для каждой сущности и становится понятно, что она из себя представляет, выделяются какие-то семантические классы. Есть одна персона – Владимир Путин и есть другая персона – Барак Обама. Таким же образом разбирается принадлежность к стране, должность персоны и событие – то есть их встреча.