Обширную
группу задач анализа данных, основывающихся на применении статистических
методов, составляют так называемые задачи классификации. В близких смыслах (в
зависимости от предметной области) используются также термины: «группировка»,
«систематизация», «таксономия», «диагностика», «прогноз», «принятие решений»,
«распознавание образов». Обсудим некоторые различия между этими терминами. В [183] предложено выделить три подобласти теории
классификации: дискриминация (дискриминантный анализ), кластеризация
(кластерный анализ) и группировка. Здесь мы кратко остановимся на сути этих
методов. Тех же читателей, которые заинтересуются, как ими пользоваться, мы
адресуем к соответствующей литературе [183, 241].
В дискриминантном анализеклассы
предполагаются заданными (например, обучающими выборками, для элементов которых
известно, каким классам они принадлежат: например, больной-здоровый,
правильно-неправильно, легкая степень заболевания – средняя – тяжелая и т.д.).
Задача заключается в том, чтобы каждый вновь появляющийся объект отнести к
одному из этих классов. У термина «дискриминация» имеется множество синонимов: диагностика(например,
в медицине требуется поставить диагноз из конечного списка возможных диагнозов,
если известны определенные характеристики пациента и известно, какие диагнозы
ставились пациентам, вошедшим в обучающую выборку), распознавание образовс
учителем, автоматическая (или статистическая) классификация с учителем и т.д.
Если в дискриминантном
анализе классы заданы, то кластеризация и группировка предназначены для
выявления и выделения классов. Синонимами являются: построение классификации,
таксономия, распознавание образов без учителя, автоматическая классификация без
учителя и т.д.
Задача
кластерного анализазаключается
в выделении по эмпирическим данным резко различающихся групп (кластеров)
объектов, которые схожи между собой внутри каждой из групп.
При группировке, когда резких границ между кластерами не существует,
исследователю приходится самому вводить границы между группами объектов.