Интеллектуальный анализ текста (ИАТ, англ. Text mining) — направление интеллектуального анализа данных (англ. Data Mining) и искусственного интеллекта, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных, в практическом плане, методов машинного обучения и обработки естественного языка. Интеллектуальный анализ текста использует все те же подходы к переработке информации, и Data Mining, однако между этими направлениями проявляется только конечных методах, а также в том, что Data Mining имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.

Задача интеллектуального анализа текста

Ключевыми задачами ИАТ являются: категоризация текстов, поиск информации, обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.

Категоризация документов заключается в сопоставлении документов из коллекции с одной или несколькими группах (классами, кластерами) похожих между собой текстов (к примеру, по теме или стилю). Категоризация может происходить как с участием человека, так и без нее.

В первом случае (классификация документов), система ИАТ должна отнести тексты к уже определенных (удобных для нее) классов. Для этого необходимо провести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.

Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты — в машинном обучении соответствующее задание называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (предполагается, что в алгоритм программы уже заложена процедура выбора признаков).