Развитие технологии автоматического распознавания образов. Системы распознавания образов (идентификации). Классификация по расстоянию до ближайшего соседа

В последнее десятилетие возник значительный интерес к исследованию и построению систем автоматического распознавания образов и машинного обучения. Мы стали свидетелями быстрого прогресса в этой области. Примеры автоматических систем распознавания образов имеются в изобилии. Были предприняты успешные попытки создавать устройства и программы чтения наборных и напечатанных на машинке символов, обработки электрокардиограмм и электроэнцефалограмм, распознавания произнесенных слов, идентификации отпечатков пальцев и интерпретации фотоснимков. В качестве других приложений можно указать распознавание символов и слов, написанных от руки, постановку медицинского диагноза, классификацию сейсмических волн, обнаружение объектов противника, прогноз погоды, идентификацию отказов и неисправностей отдельных механизмов и целых производственных процессов. В данном параграфе рассмотрим несколько иллюстратйвных примеров, относящихся к тем областям, в которых принципы распознавания образов нашли удачное применение.

Распознавание символов

Примером практического использования автоматической классификации образов являются оптические устройства распознавания символов, в частности машины для считывания кодовых символов с обычных банковских чеков.

Рис. 1.7. (см. скан) Комплект шрифта Е-13В Американской банковской ассоциации (American Bankers Association) и формы сигнала, соответствующие отдельным символам набора.

На большинстве чеков, имеющих хождение в настоящее время в Соединенных Штатах, в качестве стилизованных символов используется стандартный комплект шрифта Е-13В Американской банковской ассоциации (American Bankers Association). Как следует из рис. 1.7, этот комплект включает 14 символов, специально адаптированных к сетчатке, содержащей участков, с тем чтобы упростить процесс считывания. Эти символы обычно наносятся особой типографской краской, которая содержит очень

тонко измельченный магнитный материал. Если символы считываются с помощью магнитного устройства, краску предварительно намагничивают, для того чтобы выделить символы из фона и способствовать, таким образом, реализации процесса считывания.

Обычно символы просматриваются по горизонтали с помощью считывающей головки, снабженной одной прорезью, которая уже и выше, чем один символ. При пересечении символа головка вырабатывает электрический сигнал, величина которого пропорциональна скорости увеличения занимаемого символом пространства под сканирующей головкой. Рассмотрим в качестве примера сигнал, соответствующий цифре «0» (рис. 1.7). По мере перемещения считывающей головки слева направо площадь символа, которую видит головка, начинает увеличиваться, что приводит к положительной производной. Когда головка начинает покидать левую «стойку» нуля, площадь цифры, находящаяся в зоне видимости головки, начинает уменьшаться, что дает отрицательную производную. Когда головка находится в средней зоне символа, площадь остается постоянной и производная соответственно равна нулю. Эта закономерность повторяется, когда головка достигает правой стойки цифры, как это показано на рисунке. Мы видим, что форма символов выбрана таким образом, чтобы сигналы, соответствующие разным символам, явно отличались друг от друга. Следует отметить, что экстремальные точки и нули каждого сигнала появляются почти точно на вертикальных образующих сетки, используемой в качестве фона для изображения сигналов. Форма символов шрифта Е-13В была подобрана таким образом, чтобы выборки значений сигналов только в этих точках было достаточно для их правильной классификации. В память считывающего устройства для каждого из 14 символов шрифта введены значения, соответствующие только этим точкам. Когда символ поступает на классификацию, система сопоставляет соответствующий ему сигнал с эталонами-сигналами, заранее введенными в память, и причисляет его к классу наиболее сходного с ним эталона. При такой схеме классификации должен использоваться либо принцип перечисления членов класса, либо принцип общности свойств. Подобным образом действует большинство современных устройств, предназначенных для считывания стилизованных шрифтов.

Существуют также коммерческие варианты устройств для считывания шрифтов разных типов. Так, например, система «Input 80» (рис. 1.8), разработанная компанией Recognition Equipment Incorporated, может считывать информацию, представленную в машинописном, типографском и рукописном виде, непосредственно с оригиналов документов со скоростью до

3600 символов в секунду. Словарь системы построен по модульному принципу, и его можно перестраивать, исходя из требований конкретной прикладной задачи. Одношрифтовая система способна считывать символы одного из множества известных комплектов шрифта, а многошрифтовая система позволяет работать «одновременно» с рядом типов шрифта, выбранных пользователем из множества допустимых. Одно устройство может распознавать вплоть до 360 различных символов. Система можег быть настроена и таким образом, чтобы она считывала машинописные числа, отбирала машинописные буквы и символы и считывала данные, напечатанные типографским способом.

Рис. 1.8. (см. скан) Система распознавания символов «REI Input 80 Model А» компании Recognition Equipment Incorporated, Даллас, штат Техас. На рисунке представлены следующие компоненты системы (по часовой стрелке): блок распознавания, контроллер с программным управлением, печатающее устройство для ввода/вывода данных, построчно-печатающее устройство, блок распознавания, блок магнитной ленты и страничный процессор. Фотография любезно предоставлена Recognition Equipment Incorporated.

Основные особенности работы системы «Input 80» REI заключаются в следующем. Страницы с помощью системы разреженных участков и воздушных эжекторов попадают на ленточный конвейер, который подает их в считывающее устройство. Здесь зеркальце, совершающее высокочастотные колебания, фокусирует луч света высокой интенсивности на символах, подлежащих считыванию; луч пересекает строку печатных символов со скоростью около 7,62 м/с. Второе, синхронизирующее, зеркальце воспринимает световые изображения, представляющие

различные части символа, и проектирует их на «интегральную ретину» - считывающее устройство, выполненное на интегральной схеме; оно состоит из 96 фотодиодов, размещенных в одной кремниевой пластине длиной около 38,1 мм. Это устройство является «глазом» системы. Интегральная ретина кодирует каждый символ, представляя его с помощью матрицы 16X12 ячеек, стандартизует символы, производит коррекцию в соответствии с вариациями их размера, действуя со скоростью до 3600 символов в секунду. Интегральная ретина, кроме того, классифицирует каждую ячейку представления каждого символа в соответствии с принадлежностью к одному из 16 уровней зачерненности.

Данные с выхода считывающего устройства передаются в блок распознавания, в котором уровни зачерненности всех ячеек изображения символа сравниваются с уровнями зачерненности 24 соседних ячеек; для этого используется соответствующая схема усиления видеосигнала. Полученные в результате этой операции данные подвергаются квантованию, что приводит к получению однобитового черно-белого изображения. Этот процесс позволяет сгладить изображение символа, насытить малозаметные штрихи, устранить пятна и повысить контрастность при зашумленном фоне. Система распознает символы, набранные типографским способом, отыскивая наименьшее рассогласование между прочитанным символом и символами, включенными в словарь блока распознавания. Система также удостоверяется в том, что найденное минимальное рассогласование отличается на достаточную величину от наиболее близкого к нему рассогласования с другим символом словаря. Соответствующий метод осуществления классификации будет рассмотрен в гл. 3.

Распознавание машинописных символов производится с помощью логической процедуры иного типа. Машинописные символы не сопоставляются с образами, заранее введенными в память, а анализируются с точки зрения наличия определенных общих признаков, таких, как искривленные, горизонтальные и вертикальные линии, углы и пересечения. В этом случае классификация символа проводится на основе обнаружения у него определенных признаков, а также их взаимосвязей. Блоки системы распознавания символов представлены на рис. 1.8, их названия даны в подписи под рисунком.

Автоматическая классификация данных, полученных дистанционно

Сравнительно недавно возникший в Соединенных Штатах интерес к качеству окружающей среды и состоянию природные ресурсов вызвал к жизни множество приложений методов

распознавания образов. Наибольшее внимание среди них привлекает автоматическая классификация данных, полученных дистанционно. Поскольку объем данных, получаемых от многодиапазонных спектральных развертывающих устройств, установленных на самолетах, спутниках и космических станциях, чрезвычайно велик, возникла необходимость обратиться к автоматическим средствам обработки и анализа этой информации. Дистанционный сбор данных используется при решении различных задач. Среди областей, вызывающих интерес в настоящее время, можно отметить землепользование, оценку урожая, выявление заболеваний сельскохозяйственных культур, лесоводство, контроль качества воздуха и воды, геологические и географические исследования, прогноз погоды и массу других задач, связанных с охраной окружающей среды.

В качестве примера автоматической классификации результатов спектрального исследования рассмотрим рис. 1.9, а, на котором приведена цветная фотография земной поверхности, сделанная с самолета. Изображение представляет небольшой участок по маршруту полета (несколько миль), расположенный в центральном районе штата Индиана. Цель заключается в сборе данных, достаточных для обучения машины автоматическому опознаванию различных типов напочвенного покрова (классов), например светлый или темный почвенный слой, речная или прудовая вода, и стадии созревания зеленой растительности.

Многодиапазонное развертывающее устройство реагирует на свет с определенными полосами длин волн. Развертывающее устройство, использованное в упоминавшемся полете, работает в полосах длин волн микрон. Эти диапазоны относятся к фиолетовой, зеленой, красной и инфракрасной областям соответственно. Использование такого метода приводит к получению для одного участка земной поверхности четырех изображений - по одному на каждую цветовую область. Следовательно, каждая точка участка характеризуется четырьмя компонентами, представляющими цвет. Информацию по каждой точке можно представить четырехмерным вектором образа , где - оттенок фиолетового цвета, - оттенок зеленого и т. д. Набор образов, относящихся к определенному классу почвенного слоя, составляет обучающее множество для этого класса. Эти обучающие образы можно затем использовать при построении классифицирующего устройства.

На основе спектральных данных, полученных во время рассматриваемого полета, построен байесовский классификатор для образов, подчиняющихся нормальному распределению (см. § 4.3). На рис. 1.9,б приведена машинная выдача результатов

применения такого классификатора для автоматической классификации миогодиапазонных спектральных данных, соответствующих небольшому участку земной поверхности, представленному на рис. 1.9, а. Стрелками отмечены некоторые признаки, представляющие специальный интерес. Стрелка 1 помещена в углу поля зеленой растительности, стрелка 2 обозначает реку. Стрелкой 3 отмечена небольшая живая изгородь, разделяющая два участка обнаженной почвы; эти объекты точно идентифицированы на распечатке. Приток, который также правильно идентифицирован, отмечен стрелкой 4. Стрелка 5 указывает на очень маленький пруд, который на цветной фотографии почти неразличим. При сопоставлении исходного изображения с результатами машинной классификации становится очевидно, что последние весьма точно соответствуют тем выводам, к которым пришел бы человек, интерпретируя исходную фотографию визуально.

Биомедицинские приложения

Как отмечалось в § 1.1, медицина в настоящее время сталкивается с серьезными проблемами, связанными с обработкой информации. Методы распознавания образов с переменным успехом применялись для автоматической обработки данных, полученных с помощью различных технических средств, применяемых в медицинской диагностике, например, таких, как рентгенограммы, электрокардиограммы, электроэнцефалограммы, и анализа и интерпретации вопросников, заполняемых пациентами. Одной из задач, которым уделялось много внимания, является автоматизация анализа и классификации хромосом.

Интерес к автоматизации анализа хромосом вызван тем обстоятельством, что автоматизация цитогенетического анализа расширит возможности использования хромосомных исследований в клинической диагностике. Кроме того, это сделает возможным проведение крупномасштабных профилактических популяционных исследований с тем, чтобы оценить патологическое влияние ряда небольших вариаций хромосомного портрета, воздействие которых в настоящее время неизвестно. К тому же возможность обследовать большие группы населения позволит провести и ряд других ценных медицинских исследований, например поголовное цитогенетическое обследование плода до рождения и новорожденных с целыо определения необходимости профилактического или лечебного воздействия, скрининг отдельных групп людей, выделенных по факторам профессиональной принадлежности или проживания в определенном районе и отличающихся повышенной хромосомной аберрацией, вызванной каким-либо вредным воздействием, или проверка новых

Рис. 1.10. (см. скан) Кровяные тельца человека, окрашенные но Гимзе,- препарат, демонстрирующий структуру хромосом. Иллюстрация любезно предоставлена д-ром Нилом Вальдом из Высшей школы здравоохранения Питгсбургского университета, Питтсбург, штат Пенсильвания (Dr. Niel Wald, Graduate Schoo of Public Health, University of Pittsburgh).

химических веществ и лекарственных средств с точки зрения их потенциальной опасности для хромосом.

На рис. 1.10 приведен типичный препарат, приготовленный из кровяных телец человека, находящихся в метафазе митоза и окрашенных по Гимзе. Наиболее утомительная и продолжительная часть анализа подобного изображения связана с процессом кодирования - врач или квалифицированный лаборант

должен классифицировать каждую хромосому отдельно. На рисунке представлены объекты, относящиеся к некоторым типичным классификационным группам,

Для машинной классификации хромосом предложено множество методов. Один из подходов, который оказался эффективным при классификации хромосом типов, представленных на рис. 1.10, основан на принципе синтаксического распознавания образов, обсуждаемом в гл. 8. Суть этого подхода заключается в следующем. Выделяются непроизводные элементы образа типа длинных дуг, коротких дуг и полупрямых отрезков, обозначающих границы хромосомы. Объединение таких иепроизводных элементов приводит к цепочкам или предложениям, составленным из некоторых символов; последние могут быть поставлены в соответствие так называемой грамматике образов. Каждому типу (классу) хромосом соответствует своя грамматика. Для того чтобы опознать конкретную хромосому, вычислительная машина прослеживает ее границы и порождает цепочку, составлепную из непроизводпых элементов. Основой алгоритма слежения обычно является эвристическая процедура, позволяющая разрешить трудности, связанные с смежностью и перекрытием хромосом. Полученная таким образом цепочка вводится в распознающую систему, которая определяет, представляет ли она собой правильное предложение, составленное из символов согласно правилам некоторой грамматики. Если этот процесс приводит к указанию одной определенной грамматики, хромосома зачисляется в класс, соответствующий этой грамматике. Если подобный процесс не позволяет получить однозначное толкование либо вообще заканчивается неудачей, работа системы с данной хромосомой прекращается и дальнейший анализ выполняется оператором.

Хотя решение задачи автоматического распознавания хромосом в общем виде найдено не было, современные распознающие системы, использующие синтаксический подход, представляют собой важный шаг в нужном направлении. В § 8.5 мы вернемся к этой схеме распознавания и подробно рассмотрим соответствующую хромосомную грамматику.

Распознавание отпечатков пальцев

Как мы отмечали в § 1.1, правительственные агентства располагают архивами, в которых хранятся свыше 200 миллионов отпечатков пальцев. Отдел идентификации (The Identification Division) Федерального Бюро Расследований располагает, в частности, самым большим в мире архивом отпечатков пальцев - свыше 160 миллионов. Ежедневно в отдел поступает до 30 тысяч запросов. Для того чтобы справиться с таким объемом работы,

около 1400 технических специалистов и чиновников должны тщательно классифицировать новые отпечатки и затем педантично искать совпадения.

В течение ряда лет ФБР проявляло интерес к разработке автоматической системы идентификации отпечатков пальцев. Примером усилий, предпринятых в этом направлении, служит система-прототип FINDER, разработанная компанией Calspan Corporation по заданию ФБР. Эта система автоматически обнаруживает и локализует признаки, характерные для отпечатка. Признаки, которые обнаруживает система, - это не крупные структурные элементы типа дуг, контуров или завитков, используемых в процессе первичной классификации отпечатков, - это скорее мелкие детали - концы и разветвления бороздок, аналогичные изображенным на рис. 1.11.

Рис. 1.11. Фрагменты - концы бороздок (квадраты) и разветвления (окружности) - используемые системой FINDER при идентификации отпечатков пальцев. Фотография любезно предоставлена мистером К. У. Суонгером из Calspan Corporation, Буффало, штат Нью-Йорк.

На рис. 1.12 приведена блок-схема системы. Вкратце действие системы FINDER можно описать следующим образом. Оператор вводит стандартный бланк отпечатка в автоматическое входное устройство, которое доставляет отпечаток к «глазу» системы - развертывающему устройству и точно размещает под ним отпечаток. Каждый отпечаток подвергается квантованию и представляется матрицей, содержащей 750X750 точек, причем каждая точка кодируется одним из 16 возможных уровней зачерненности. Процесс сканирования осуществляется под управлением универсальной вычислительной машины. На рис. 1.13 приведен пример, показывающий, какой вид принимает отпечаток, пройдя развертывающее устройство.

Данные, полученные на выходе развертывающего устройства, вводятся в фильтр бороздок-желобков, который реализуется С помощью быстродействующего алгоритма параллельной обработки двумерных объектов; этот алгоритм последовательно осматривает все точки матрицы 750X750. На выходе фильтра воспроизводится усиленное бинарное изображение типа приведенного на рис. 1.14. Этот же алгоритм фиксирует направление бороздок в каждой точке отпечатка; данная информация используется в процессе дальнейшей обработки.

(кликните для просмотра скана)

При обработке большинства отпечатков в некоторых зонах не удается выделить достаточно четкую структуру бороздок, обеспечивающую возможность надежного выявления фрагментов. Устройство предварительного редактирования исключает такие участки из дальнейшего анализа в качестве источников достоверной информации. Чтобы обеспечить надежное обнаружение фрагментов, используются тесты на белизну, черноту, недостаточность структуры бороздок или контрастности.

Рис. 1.13. Распечатка участка, полученного на выходе сканирующего устройства. На этом цифровом изображении черные элементы представлены цифрой «0», а белые - «15». Иллюстрация любезно предоставлена мистером

К. У. Суонгером из Calspan Corporation, Буффало, штат Нью-Йорк.

Следующий этап обработки отпечатков посвящен практическому выделению фрагментов. Этот процесс реализуется с помощью алгоритма, синхронизированного с выходом фильтра бороздок-желобков. Он выделяет фрагменты, предположительно являющиеся характерными признаками, и регистрирует их положение и величины соответствующих углов.

Результаты работы блока выделения фрагментов вводятся в блок окончательного редактирования. В первую очередь площадь и периметр выбранного фрагмента сопоставляются с пороговыми значениями, соответствующими истинным признакам, Что позволяет исключить заведомо неверные данные. Далее Исключаются признаки-дубликаты. Если какой-либо частный фрагмент обнаружен несколько раз, то сохраняется только обнаруженне

наибольшей длины. Использование цепной процедуры, при которой объектом поиска являются только фрагменты, соседние с выделенными, существенно сокращает время обработки. Далее производится удаление взаимоисключающих фрагментов и фрагментов, появление которых связано с разрывами в структуре бороздок. После этого список признаков свободен от фрагментов, форма и качество которых лежат ниже определенного порога.

Рис. 1.14. Результаты пропуска данных, представленных на рис. 1.13, через фильтр бороздок-желобков. В данном случае черные точки представлены символами «г». Иллюстрация любезно предоставлена мистером К. У. Суонгером из Calspan Corporation, Буффало, штат Нью-Йорк.

На последнем этапе процесса окончательного редактирования определяется, относится ли признак к кластеру признаков либо соответствующий угол существенно отличается от локальной ориентации структуры бороздок. Кластерный тест исключает из рассмотрения группы признаков такого типа, как, например, появившиеся из-за шрама на пальце. Если рядом с анализируемым признаком обнаруживаются признаки, число которых превышает определенную величину, данный признак как ложный из дальнейшего анализа исключается. Если признак проходит последний тест, то логическая часть системы переходит к реализации теста на аномальность угла, используя набор данных (матрицу) о направлении бороздок, собранных

в процессе предварительной обработки. В зависимости от величины отклонения от среднего угла бороздки признак оставляется, отвергается или, если отклонение невелико, угол корректируется в соответствии со средним значением углов соседних бороздок.

Окончательно около 2500 битов данных, представляющих признаки, которые выдержали все тесты, предусмотренные блоком окончательного редактирования, записываются на магнитную ленту с тем, чтобы можно было приступить к их сопоставлению с признаками отпечатков, находящихся в архиве.

Применение методов распознавания образов в техническом надзоре за состоянием узлов ядерного реактора

Этот последний пример относится к сравнительно новой области применения принципов распознавания образов. В схемы энергетических ядерных установок включаются многочисленные датчики, обеспечивающие контроль за целостностью работы установки. В частности, в сфере контрольно-измерительной техники широкое распространение получил нейтронный регистратор. Прибор этот, предназначенный для измерения плотности нейтронов, генерирует сигнал, зависящий также и от механических колебаний, которые происходят в реакторе. Одна из основных целей применения этого регистратора в ядерном реакторе заключается в обнаружении на возможно более ранней стадии любых режимов внутренних колебаний, не характерных для нормальных эксплуатационных условий реактора.

В настоящее время в области анализа шумов (нейтронных, акустических, тепловых и т. п.) наибольший интерес вызывает создание таких систем технического контроля, которые обеспечивают слежение за режимом работы установки в целом, по меньшей мере частично автоматизированы и обладают возможностями адаптироваться к изменениям режима, не связанным с отклонением от нормы. Системы управления воспроизводят информацию в огромных объемах, которая, для того чтобы ею можно было воспользоваться, должна обрабатываться с помощью каких-либо систематических процедур. Хотя в данное время это обстоятельство не приводит к возникновению каких-либо реальных сложностей, поскольку к моменту написания книги в Соединенных Штатах действовало не более 50 энергетических ядерных установок, по оценкам Комиссии по атомной энергии к 2000 году количество таких установок только в Соединенных Штатах превысит 1000. Естественно, придется создать методы автоматической обработки информации, воспроизводимой многочисленными системами управления, которые будут входить в состав подобных ядерных энергетических

установок. Хотя распознавание в этой области только начинает делать первые шаги, его потенциальные возможности уже полностью определились. Ниже мы кратко опишем основные результаты, полученные в этом направлении.

Рис. 1.15 Основные компоненты автоматической системы анализа шума.

На рис. 1.15 приведены основные компоненты автоматической системы управления. Представляющие шум сигналы, поступающие от датчиков, которые установлены в энергетической ядерной установке, нормируются, подвергаются предварительной обработке и вводятся в систему распознавания образов. На выходе этой системы воспроизводится решение, характеризующее текущее состояние установки. В нашем случае речь идет о ядерном реакторе с большой плотностью нейтронного потока, предназначенном для производства изотопов: реактор установлен в Окриджской национальной лаборатории (Oak Ridge National Laboratory). В качестве исходных данных для контроля за режимом этого реактора используются результаты измерений нейтронного шума, которые проводятся в среднем трижды в день. Топливный цикл (промежуток времени между перезарядкой топливных элементов) составляет обычно при работе с полной мощностью 22 дня. Блок предварительной обработки на основании этих данных определяет спектральную плотность мощности в диапазоне частот от 0 до 31 Гц с интервалом в 1 Гц. Следовательно, результаты каждого измерения можно представить 32-мерным вектором образа , где - амплитуда спектральной плотности мощности излучения на частоте 0 Гц, - амплитуда на частоте 1 Гц и т. д. Задача в таком случае сводится к построению системы распознавания образов, способной автоматически анализировать подобные образы.

Данные для двух топливных циклов изотопного реактора с большой плотностью нейтронного потока приведены в трехмерной системе координат на рис. 1.16, а и б. Ось характеризует время топливного цикла, ось у представляет 32 компоненты

каждого образа, а ось z - нормированную амплитуду спектральной плотности мощности. Приведенные данные соответствуют нормальному режиму работы. Отметим, что обе группы данных в общем весьма сходны.

Рис. 1.16. Типичные спектральные плотности мощности нейтронного излучения, соответствующие нормальному режиму ядерного реактора с большой плотностью нейтронного потока, предназначенного для производства изотопов. Наибольшим пикам на каждом из графиков соответствует значение 1. Истинные значения спектральной плотности можно получить, умножив значения, полученные из графика, на соответствующие масштабные коэффициенты. Они равны: . Графики заимствованы из статьи Гонсалеса, Фрая и Крайтера, IEEE Trans. Nucl. Sci., 21, No. 1, February 1974 (R. C. Gonzales, D. N. Fry, R. C. Kryter, Results in the Application of Pattern Recognition Methods to Nuclear Reactor Core Component Surveillance).

Система распознавания, предназначенная для контроля режима изотопного реактора с высокой плотностью нейтронного потока, выделяет признаки, характерные для нормального режима работы, из записей нейтронного шума, подвергнутых соответствующей обработке. Эта процедура в основном сводится к отысканию кластеров векторов образов при помощи последовательного применения алгоритма кластеризации (соответствующие методы обсуждаются в гл. 3). Данные, характеризующие положение центров кластеров, а также соответствующие описательные статистики типа рассеяния для отдельных кластеров можно затем использовать в качестве эталонов для сравнения в любой заданный момент времени с результатами измерений для того, чтобы идентифицировать текущее состояние установки. Существенные отклонения от заданных характеристик

нормального режима работы служат индикаторами возникновения аномального процесса. На рис. 1.17, а и б, например, приведен образ поведения реактора, который можно легко классифицировать как резко отличающийся от нормального рабочего режима. Приведенные данные соответствуют случаю поломки направляющего подшипника одного из механических узлов, расположенных вблизи активной зоны реактора. Хотя выявленные отклонения и не создают ситуации, представляющей непосредственную опасность, подобные результаты демонстрируют потенциальную важность использования методов распознавания образов в качестве составной части системы мероприятий, обеспечивающих технический надзор за состоянием энергетической ядерной установки. Дополнительные детали, относящиеся к этой проблеме, можно почерпнуть из статьи Гонсалеса, Фрая и Крайтера .

Рис. 1.17. Спектральные плотности, соответствующие аномальному поведению ядерного реактора с большой плотностью нейтронного потока, предназначенного для производства изотопов. Масштабные коэффициенты в данном случае равны: . Графики заимствованы из статьи Гонсалеса, Фрая и Крайтера, IEEE Trans. Nucl. Sci., 21, No. 1, February 1974 (R. C. Gonzalez, D. N. Fry, R. C. Kryter, Results in the Application of Pattern Recognition Methods to Nuclear Reactor Core Component Surveillance).


Метод перебора. В данном методе производится сравнение с некоторой базой данных, где для каждого из объектов представлены разные варианты модификации отображения. Например, для оптического распознавания образов можно применить метод перебора под разными углами или масштабами, смещениями, деформациями и т. д. Для букв можно перебирать шрифт или его свойства. В случае распознавания звуковых образов происходит сравнение с некоторыми известными шаблонами (слово, произнесенное многими людьми). Далее, производится более глубокий анализ характеристик образа. В случае оптического распознавания - это может быть определение геометрических характеристик. Звуковой образец в этом случае подвергается частотному и амплитудному анализу.

Следующий метод - использование искусственных нейронных сетей (ИНС). Он требует либо огромного количества примеров задачи распознавания, либо специальной структуры нейронной сети, учитывающей специфику данной задачи. Но, тем не менее, этот метод отличается высокой эффективностью и производительностью.

Методы, основанные на оценках плотностей распределения значений признаков . Заимствованы из классической теории статистических решений, в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону. Они базируются на байесовской схеме принятия решений, апеллирующей к начальным вероятностям принадлежности объектов к тому или иному классу и условным плотностям распределения признаков.

Группа методов, основанных на оценке плотностей распределения значений признаков, имеет непосредственное отношение к методам дискриминантного анализа. Байесовский подход к принятию решений относится к наиболее разработанным в современной статистике параметрическим методам, для которых считается известным аналитическое выражение закона распределения (нормальный закон) и требуется только оценить лишь небольшое количество параметров (векторы средних значений и ковариационные матрицы). Основными трудностями применения данного метода считается необходимость запоминания всей обучающей выборки для вычисления оценок плотностей и высокая чувствительность к обучающей выборки.

Методы, основанные на предположениях о классе решающих функций. В данной группе считается известным вид решающей функции и задан функционал ее качества. На основании этого функционала по обучающей последовательности находят оптимальное приближение к решающей функции. Функционал качества решающего правила обычно связывают с ошибкой. Основным достоинством метода является ясность математической постановки задачи распознавания. Возможность извлечения новых знаний о природе объекта, в частности знаний о механизмах взаимодействия атрибутов, здесь принципиально ограничена заданной структурой взаимодействия, зафиксированной в выбранной форме решающих функций.

Метод сравнения с прототипом. Это наиболее легкий на практике экстенсиональный метод распознавания. Он применяется, в том случае, когда распознаваемые классы показываются компактными геометрическими классами. Тогда в качестве точки - прототипа выбирается центр геометрической группировки (или ближайший к центру объект).

Для классификации неопределенного объекта находится ближайший к нему прототип, и объект относится к тому же классу, что и он. Очевидно, никаких обобщенных образов в данном методе не формируется. В качестве меры могут применяться различные типы расстояний.

Метод k ближайших соседей. Метод заключается в том, что при классификации неизвестного объекта находится заданное число (k) геометрически ближайших пространстве признаков других ближайших соседей с уже известной принадлежностью к какому-либо классу. Решение об отнесении неизвестного объекта принимается путем анализа информации о его ближайших соседей. Необходимость сокращения числа объектов в обучающей выборке (диагностических прецедентов) является недостатком данного метода, так как это уменьшает представительность обучающей выборки.

Исходя из того, что различные алгоритмы распознавания проявляют себя по-разному на одной и той же выборке, то встает вопрос о синтетическом решающем правиле, которое бы использовало сильные стороны всех алгоритмов. Для этого существует синтетический метод или коллективы решающих правил, которые объединяют в себе максимально положительные стороны каждого из методов.

В заключение обзора методов распознавания представим суть вышеизложенного в сводной таблице, добавив туда также некоторые другие используемые на практике методы.

Таблица 1. Таблица классификации методов распознавания, сравнения их областей применения и ограничений

Классификация методов распознавания

Область применения

Ограничения (недостатки)

Интенсиальные методы распознавания

Методы, основанные на оценках плотностей

Задачи с известным распределением (нормальным), необходимость набора большой статистики

Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к не представительности обучающей выборки и артефактам

Методы, основанные на предположениях

Классы должны быть хорошо разделяемыми

Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками

Логические методы

Задачи небольшой размерности

При отборе логических решающих правил необходим полный перебор. Высокая трудоемкость

Лингвистические методы

Задача определения грамматики по некоторому множеству высказываний (описаний объектов), является трудно формализуемой. Нерешенность теоретических проблем

Экстенсиальные методы распознавания

Метод сравнения с прототипом

Задачи небольшой размерности пространства признаков

Высокая зависимость результатов классификации от метрики. Неизвестность оптимальной метрики

Метод k ближайших соседей

Высокая зависимость результатов классификации от метрики. Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость

Алгоритмы вычисления оценок (АВО)

Задачи небольшой размерности по количеству классов и признаков

Зависимость результатов классификации от метрики. Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода

Коллективы решающих правил (КРП) - синтетический метод.

Задачи небольшой размерности по количеству классов и признаков

Очень высокая техническая сложность метода, нерешенность ряда теоретических проблем, как при определении областей компетенции частных методов, так и в самих частных методах

Глава 3: Системы распознавания образов (идентификации)

  • Понятие образа. Проблема обучения распознаванию образов. Геометрический и структурный подходы. Гипотеза компактности. Обучение и самообучение. Адаптация и обучение.
  • Методы обучения распознаванию образов - перцептроны, нейронные сети, метод потенциальных функций, метод группового учета аргументов, метод предельных упрощений, коллективы решающих правил.
  • Методы и алгоритмы анализа структуры многомерных данных - кластерный анализ, иерархическое группирование.

Понятие образа

Образ, класс - классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку.

Образное восприятие мира - одно из загадочных свойств живого мозга, позволяющее разобраться в бесконечном потоке воспринимаемой информации и сохранять ориентацию в океане разрозненных данных о внешнем мире. Воспринимая внешний мир, мы всегда производим классификацию воспринимаемых ощущений, т. е. разбиваем их на группы похожих, но не тождественных явлений. Например, несмотря на существенное различие, к одной группе относятся все буквы А, написанные различными почерками, или все звуки, соответствующие одной и той же ноте, взятой в любой октаве и на любом инструменте, а оператор, управляющий техническим объектом, на целое множество состояний объекта реагирует одной и той же реакцией. Характерно, что для составления понятия о группе восприятий определенного класса достаточно ознакомиться с незначительным количеством ее представителей. Ребенку можно показать всего один раз какую-либо букву, чтобы он смог найти эту букву в тексте, написанном различными шрифтами, или узнать ее, даже если она написана в умышленно искаженном виде. Это свойство мозга позволяет сформулировать такое понятие, как образ.

Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Примерами образов могут быть: река, море, жидкость, музыка Чайковского, стихи Маяковского и т. д. В качестве образа можно рассматривать и некоторую совокупность состояний объекта управления, причем вся эта совокупность состояний характеризуется тем, что для достижения заданной цели требуется одинаковое воздействие на объект. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. Именно эта объективность образов позволяет людям всего мира понимать друг друга.

Способность восприятия внешнего мира в форме образов позволяет с определенной достоверностью узнавать бесконечное число объектов на основании ознакомления с конечным их числом, а объективный характер основного свойства образов позволяет моделировать процесс их распознавания. Будучи отражением объективной реальности, понятие образа столь же объективно, как и сама реальность, а поэтому это понятие может быть само по себе объектом специального исследования.

В литературе, посвященной проблеме обучения распознавания образов (ОРО), часто вместо понятия образа вводится понятие класса.

Проблема обучения распознаванию образов (ОРО)

Одним из самых интересных свойств человеческого мозга является способность отвечать на бесконечное множество состояний внешней среды конечным числом реакций. Может быть, именно это свойство позволило человеку достигнуть высшей формы существования живой материи, выражающейся в способности к мышлению, т. е. активному отражению объективного мира в виде образов, понятий, суждений и т. д. Поэтому проблема ОРО возникла при изучении физиологических свойств мозга.

Рассмотрим пример задач из области ОРО.


Рис. 1

Здесь представлены 12 задач, в которых следует отобрать признаки, при помощи которых можно отличить левую триаду картинок от правой. Решение данных задач требует моделирования логического мышления в полном объеме.

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными - на все объекты различных образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы), либо различные явления внешнего мира, например звуки, состояния организма при медицинском диагнозе, состояние технического объекта в системах управления и др. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.

Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы тесно связано с вопросом, который все чаще возникает в связи с развитием идей кибернетики: что может и что принципиально не может делать машина? В какой мере возможности машины могут быть приближены к возможностям живого мозга? В частности, может ли машина развить в себе способность перенять у человека умение производить определенные действия в зависимости от ситуаций, возникающих в окружающей среде? Пока стало ясно только то, что если человек может сначала сам осознать свое умение, а потом его описать, т. е. указать, почему он производит действия в ответ на каждое состояние внешней среды или как (по какому правилу) он объединяет отдельные объекты в образы, то такое умение без принципиальных трудностей может быть передано машине. Если же человек обладает умением, но не может объяснить его, то остается только один путь передачи умения машине - обучение примерами.

Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.

Но каждый объект наблюдения может воздействовать по-разному, в зависимости от условий восприятия. Например, какая-либо буква, даже одинаково написанная, может в принципе как угодно смещаться относительно воспринимающих органов. Кроме того, объекты одного и того же образа могут достаточно сильно отличаться друг от друга и, естественно, по-разному воздействовать на воспринимающие органы.

Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.

При решении задач управления методами распознавания образов вместо термина "изображение" применяют термин "состояние". Состояние - это определенной формы отображение измеряемых текущих (или мгновенных) характеристик наблюдаемого объекта. Совокупность состояний определяет ситуацию. Понятие "ситуация" является аналогом понятия "образ". Но эта аналогия не полная, так как не всякий образ можно назвать ситуацией, хотя всякую ситуацию можно назвать образом.

Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является военная игра, то ситуация объединяет все состояния игры, которые требуют, например, мощного танкового удара при поддержке авиации.

Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.

Геометрический и структурный подходы.

Каждый раз, когда сталкиваются с незнакомыми задачами, появляется естественное желание представить их в виде некоторой легко понимаемой модели, которая позволяла бы осмыслить задачу в таких терминах, которые легко воспроизводятся нашим воображением. А так как мы существуем в пространстве и во времени, наиболее понятной для нас является пространственно-временная интерпретация задач.

Любое изображение, которое возникает в результате наблюдения какого-либо объекта в процессе обучения или экзамена, можно представить в виде вектора, а значит и в виде точки некоторого пространства признаков. Если утверждается, что при показе изображений возможно однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утверждается, что в некотором пространстве существует две (или несколько) области, не имеющие общих точек, и что изображения - точки из этих областей. Каждой такой области можно приписать наименование, т. е. дать название, соответствующее образу.

Проинтерпретируем теперь в терминах геометрической картины процесс обучения распознаванию образов, ограничившись пока случаем распознавания только двух образов. Заранее считается известным лишь только то, что требуется разделить две области в некотором пространстве и что показываются точки только из этих областей. Сами эти области заранее не определены, т. е. нет каких-либо сведений о расположении их границ или правил определения принадлежности точки к той или иной области.

В ходе обучения предъявляются точки, случайно выбранные из этих областей, и сообщается информация о том, к какой области принадлежат предъявляемые точки. Никакой дополнительной информации об этих областях, т. е. о расположении их границ, в ходе обучения не сообщается. Цель обучения состоит либо в построении поверхности, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям, либо в построении поверхностей, ограничивающих эти области так, чтобы в каждой из них находились только точки одного образа. Иначе говоря, цель обучения состоит в построении таких функций от векторов-изображений, которые были бы, например, положительны на всех точках одного и отрицательны на всех точках другого образа. В связи с тем, что области не имеют общих точек, всегда существует целое множество таких разделяющих функций, а в результате обучения должна быть построена одна из них.

Если предъявляемые изображения принадлежат не двум, а большему числу образов, то задача состоит в построении по показанным в ходе обучения точкам поверхности, разделяющей все области, соответствующие этим образам, друг от друга. Задача эта может быть решена, например, путем построения функции, принимающей над точками каждой из областей одинаковое значение, а над точками из разных областей значение этой функции должно быть различно.



Рис. 2 - Два образа.

На первый взгляд кажется, что знание всего лишь некоторого количества точек из области недостаточно, чтобы отделить всю область. Действительно, можно указать бесчисленное количество различных областей, которые содержат эти точки, и как бы ни была построена по ним поверхность, выделяющая область, всегда можно указать другую область, которая пересекает поверхность и вместе с тем содержит показанные точки. Однако известно, что задача о приближении функции по информации о ней в ограниченном множестве точек, существенно более узкой, чем все множество, на котором функция задана, является обычной математической задачей об аппроксимации функций. Разумеется, решение таких задач требует введения определенных ограничений на классе рассматриваемых функций, а выбор этих ограничений зависит от характера информации, которую может добавить учитель в процессе обучения. Одной из таких подсказок является гипотеза о компактности образов. Интуитивно ясно, что аппроксимация разделяющей функции будет задачей тем более легкой, чем более компактны и чем более разнесены в пространстве области, подлежащие разделению. Так, например, в случае, показанном на Рис. 2а, разделение заведомо более просто, чем в случае, показанном на Рис. 2б. Действительно, в случае, изображенном на Рис. 2а, области могут быть разделены плоскостью, и даже при больших погрешностях в определении разделяющей функции она все же будет продолжать разделять области. В случае же на Рис. 2б, разделение осуществляется замысловатой поверхностью и даже незначительные отклонения в ее форме приводят к ошибкам разделения. Именно это интуитивное представление о сравнительно легко разделимых областях привело к гипотезе компактности.

Наряду с геометрической интерпретацией проблемы обучения распознаванию образов существует и иной подход, который назван структурным, или лингвистическим. Поясним лингвистический подход на примере распознавания зрительных изображений. Сначала выделяется набор исходных понятий - типичных фрагментов, встречающихся на изображениях, и характеристик взаимного расположения фрагментов - "слева", "снизу", "внутри" и т. д. Эти исходные понятия образуют словарь, позволяющий строить различные логические высказывания, иногда называемые предположениями. Задача состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих понятий, отобрать наиболее существенные для данного конкретного случая.

Далее, просматривая конечное и по возможности небольшое число объектов из каждого образа, нужно построить описание этих образов. Построенные описания должны быть столь полными, чтобы решить вопрос о том, к какому образу принадлежит данный объект. При реализации лингвистического подхода возникают две задачи: задача построения исходного словаря, т. е. набор типичных фрагментов, и задача построения правил описания из элементов заданного словаря.

В рамках лингвистической интерпретации проводится аналогия между структурой изображений и синтаксисом языка. Стремление к этой аналогии было вызвано возможностью использовать аппарат математической лингвистики, т. е. методы по своей природе являются синтаксическими. Использование аппарата математической лингвистики для описания структуры изображений можно применять только после того, как произведена сегментация изображений на составные части, т. е. выработаны слова для описания типичных фрагментов и методы их поиска. После предварительной работы, обеспечивающей выделение слов, возникают собственно лингвистические задачи, состоящие из задач автоматического грамматического разбора описаний для распознавания изображений. При этом проявляется самостоятельная область исследований, которая требует не только знания основ математической лингвистики, но и овладения приемами, которые разработаны специально для лингвистической обработки изображений.

Гипотеза компактности

Если предположить, что в процессе обучения пространство признаков формируется исходя из задуманной классификации, то тогда можно надеяться, что задание пространства признаков само по себе задает свойство, под действием которого образы в этом пространстве легко разделяются. Именно эти надежды по мере развития работ в области распознавания образов стимулировали появление гипотезы компактности, которая гласит: образам соответствуют компактные множества в пространстве признаков. Под компактным множеством пока будем понимать некие "сгустки" точек в пространстве изображений, предполагая, что между этими сгустками существуют разделяющие их разряжения.

Однако эту гипотезу не всегда удавалось подтвердить экспериментально, но, что самое главное, те задачи, в рамках которых гипотеза компактности хорошо выполнялась (Рис. 2а), все без исключения находили простое решение. И наоборот, те задачи, для которых гипотеза не подтверждалась (Рис. 2б), либо совсем не решались, либо решались с большим трудом с привлечением дополнительных ухищрений. Этот факт заставил по меньшей мере усомниться в справедливости гипотезы компактности, так как для опровержения любой гипотезы достаточно одного отрицающего ее примера. Вместе с этим, выполнение гипотезы всюду там, где удавалось хорошо решить задачу обучения распознаванию образов, сохраняло к этой гипотезе интерес. Сама гипотеза компактности превратилась в признак возможности удовлетворительного решения задач распознавания.

Формулировка гипотезы компактности подводит вплотную к понятию абстрактного образа. Если координаты пространства выбирать случайно, то и изображения в нем будут распределены случайно. Они будут в некоторых частях пространства располагаться более плотно, чем в других. Назовем некоторое случайно выбранное пространство абстрактным изображением. В этом абстрактном пространстве почти наверняка будут существовать компактные множества точек. Поэтому в соответствии с гипотезой компактности множества объектов, которым в абстрактном пространстве соответствуют компактные множества точек, разумно назвать абстрактными образами данного пространства.

Обучение и самообучение. Адаптация и обучение

Все картинки, представленные на Рис. 1, характеризуют задачу обучения. В каждой из этих задач задается несколько примеров (обучающая последовательность) правильно решенных задач. Если бы удалось подметить некое всеобщее свойство, не зависящее ни от природы образов, ни от их изображений, а определяющее лишь их способность к разделимости, то наряду с обычной задачей обучения распознаванию, с использованием информации о принадлежности каждого объекта из обучающей последовательности тому или иному образу можно было бы поставить иную классификационную задачу - так называемую задачу обучения без учителя. Задачу такого рода на описательном уровне можно сформулировать следующим образом: системе одновременно или последовательно предъявляются объекты без каких-либо указаний об их принадлежности к образам. Входное устройство системы отображает множество объектов на множество изображений и, используя некоторое заложенное в нее заранее свойство разделимости образов, производит самостоятельную классификацию этих объектов. После такого процесса самообучения система должна приобрести способность к распознаванию не только уже знакомых объектов (объектов из обучающей последовательности), но и тех, которые ранее не предъявлялись. Процессом самообучения некоторой системы называется такой процесс, в результате которого эта система без подсказки учителя приобретает способность к выработке одинаковых реакций на изображения объектов одного и того же образа и различных реакций на изображения различных образов. Роль учителя при этом состоит лишь в подсказке системе некоторого объективного свойства, одинакового для всех образов и определяющего способность к разделению множества объектов на образы.

Оказывается, таким объективным свойством является свойство компактности образов. Взаимное расположение точек в выбранном пространстве уже содержит информацию о том, как следует разделить множество точек. Эта информация и определяет то свойство разделимости образов, которое оказывается достаточным для самообучения системы распознаванию образов.

Большинство известных алгоритмов самообучения способны выделять только абстрактные образы, т. е. компактные множества в заданных пространствах. Различие между ними состоит, по-видимому, в формализации понятия компактности. Однако это не снижает, а иногда и повышает ценность алгоритмов самообучения, так как часто сами образы заранее никем не определены, а задача состоит в том, чтобы определить, какие подмножества изображений в заданном пространстве представляют собой образы. Хорошим примером такой постановки задачи являются социологические исследования, когда по набору вопросов выделяются группы людей. В таком понимании задачи алгоритмы самообучения генерируют заранее не известную информацию о существовании в заданном пространстве образов, о которых ранее никто не имел никакого представления.

Кроме того, результат самообучения характеризует пригодность выбранного пространства для конкретной задачи обучения распознаванию. Если абстрактные образы, выделяемые в процессе самообучения, совпадают с реальными, то пространство выбрано удачно. Чем сильнее абстрактные образы отличаются от реальных, тем "неудобнее" выбранное пространство для конкретной задачи.

Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть "поощрениями" и "наказаниями". Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

Адаптация - это процесс изменения параметров и структуры системы, а возможно, и управляющих воздействий на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

Обучение - это процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация - это подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.

Под образом понимается структурированное описание изучаемого объекта или явления, представленное вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих соответствующий объект.

Общая структура системы распознавания имеет следующий вид:

Смысл задачи распознавания – установить, обладают ли изучаемые объекты фиксированным конечным набором признаков, позволяющих отнести их к определенному классу. Задачи распознавания имеют следующие характерные черты:

1. Это информационные задачи, состоящие из двух этапов:

a. Приведение исходных данных к виду, удобному для распознавания.

b. Собственно распознавание – указание принадлежности объекта определенному классу.

2. В этих задачах можно вводить понятие аналогии или подобия объектов и формулировать понятие близости объектов в качестве основания для зачисления объектов в один и тот же класс или разные классы.

3. В этих задачах можно оперировать набором прецедентов – примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.

4. Для этих задач трудно строить формальные теории и применять классические математические методы: часто информация для точной математической модели или выигрыш от использования модели и математических методов несоизмерим с затратами.

5. В этих задачах возможна «плохая информация» - информация с пропусками, разнородная, косвенная, нечеткая, неоднозначная, вероятностная.

Целесообразно выделять следующие типы задач распознавания:

1. Задача распознавания, то есть отнесение предъявленного объекта по его описанию к одному из заданных классов (обучение с учителем).

2. Задача автоматической классификации – разбиение множества объектов (ситуаций) по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, обучение без учителя).

3. Задача выбора информативного набора признаков при распознавании.

4. Задача приведения исходных данных к виду, удобному для распознавания.

5. Динамическое распознавание и динамическая классификация – задачи 1 и 2 для динамических объектов.

6. Задача прогнозирования – задачи 5, в которых решение должно относиться к некоторому моменту в будущем.

Понятие образа.

Образ, класс – классификационная группировка в системе, объединяющая (выделяющая) определенную группу объектов по некоторому признаку. Образы обладают рядом характерных свойств, проявляющихся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей.


В качестве образа можно рассматривать и некоторую совокупность состояний объекта управления, причем вся эта совокупность состояний характеризуется тем, что для достижения заданной цели требуется одинаковое воздействие на объект. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты.

В целом, проблема распознавания образов состоит из двух частей: обучение и распознавание.

Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными – на все объекты различных образов.

Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо визуальные изображения, либо различные явления внешнего мира и другие.

За обучением следует процесс распознавания новых объектов, который характеризует действие уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает ЭВМ правила классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.

Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения, решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы связано с вопросом, что может и что принципиально не может делать ЭВМ.

При решении задач управления методами распознавания образов вместо термина «образ» применяется термин «состояние». Состояние – определенные формы отображения измеряемых текущих (мгновенных) характеристик наблюдаемого объекта, совокупность состояний определяет ситуацию.

Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждое из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является игра, то ситуация объединяет все состояния игры.

Выбор исходного описания объектов является одной из центральных задач проблемы обучения распознаванию образов. При удачном выборе исходного описания (пространство признаков) задача распознавания может оказаться тривиальной. И наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработке информации, либо вообще к отсутствию решения.

Геометрический и структурный подходы.

Любое изображение, которое возникает в результате наблюдения какого-либо объекта в процессе обучения или экзамена, можно представить в виде вектора, а значит, и в виде точки некоторого пространства признаков.

Если утверждается, что при показе изображений возможно однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утверждается, что в некотором пространстве существуют две или несколько областей, не имеющих общих точек, и что изображение точки из этих областей. Каждой точки такой области можно приписать наименование, то есть дать название, соответствующее образу.

Проинтерпретируем в терминах геометрической картины процесс обучения распознаванию образов, ограничившись пока случаем распознавания только двух образов. Заранее считается известным лишь то, что требуется разделить две области в некотором пространстве и что показываются точки только их этих областей. Сами эти области заранее не определены, то есть нет каких-либо сведений о расположении их границ или правил определения принадлежности точки к той или иной области.

В ходе обучения предъявляются точки, случайно выбранные из этих областей, и сообщается информация о том, к какой области принадлежат предъявляемые точки. Никакой дополнительной информации об этих областях, то есть о расположении их границ в ходе обучения не сообщается.

Цель обучения состоит либо в построении поверхности, которая разделяла бы не только показанные в процессе обучения точки, но и все остальные точки, принадлежащие этим областям, либо в построении поверхностей, ограничивающих эти области так, чтобы в каждой из них находились только точки одного образа. Иначе говоря, цель обучения состоит в построении таких функций от векторов-изображений, которые были бы, например, положительны на всех точках одного и отрицательны на всех точках другого образа.

В связи с тем, что области не имеют общих точек, всегда существует целое множество таких разделяющих функций, а в результате обучения должна быть построена одна из них. Если предъявляемые изображения принадлежат не двум, а большему числу образов, то задача состоит в построении по показанным в ходе обучения точкам поверхности, разделяющей все области, соответствующие этим образам, друг от друга.

Эта задача может быть решена, например, путем построения функции, принимающей над точками каждой из областей одинаковое значение, а над точками из разных областей значение этой функции должно быть различно.

Может показаться, что знания всего лишь некоторого количества точек из области недостаточно, чтобы отделить всю область. Действительно можно указать бесчисленное количество различных областей, которые содержат эти точки, и как бы ни была построена по ним поверхность, выделяющая область, всегда можно указать другую область, которая пересекает поверхность и вместе с тем содержит показанные точки.

Однако известно, что задача о приближении функции по информации о ней в ограниченном множестве точек является существенно более узкой, чем все множество, на котором функция задана, и является обычной математической задачей об аппроксимации функций. Разумеется, решение таких задач требует введения определенных ограничений на классе рассматриваемых функций, а выбор этих ограничений зависит от характера информации, которую может добавить учитель в процесс обучения.

Одной из таких подсказок является гипотеза о компактности образов.

Наряду с геометрической интерпретацией проблемы обучения распознаванию образов, существует и иной подход, который назван структурным, или лингвистическим. Рассмотрим лингвистический подход на примере распознавания зрительных изображений.

Сначала выделяется набор исходных понятий – типичных фрагментов, встречающихся на изображении, и характеристик взаимного расположения фрагментов (слева, снизу, внутри и т.д.). Эти исходные понятия образуют словарь, позволяющий строить различные логические высказывания, иногда называемые предложениями.

Задача состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих понятий, отобрать наиболее существенные для данного конкретного случая. Далее, просматривая конечное и по возможности небольшое число объектов из каждого образа, нужно построить описание этих образов.

Построенные описания должны быть столь полными, чтобы решить вопрос о том, к какому образу принадлежит данный объект. При реализации лингвистического подхода возникают две задачи: задача построения исходного словаря, то есть набора типичных фрагментов, и задача построения правил описания из элементов заданного словаря.

В рамках лингвистической интерпретации проводится аналогия между структурой изображений и синтаксисом языка. Стремление к этой аналогии было вызвано возможностью использовать аппарат математической лингвистики, то есть методы по своей природе являются синтаксическими. Использование аппарата математической лингвистики для описания структуры изображений можно применять только после того, как произведена сегментация изображений на составные части, то есть выработаны слова для описания типичных фрагментов и методы их поиска.

После предварительной работы, обеспечивающей выделение слов, возникают собственно лингвистические задачи, состоящие из задач автоматического грамматического разбора описаний для распознавания изображений.

Гипотеза компактности.

Если предположить, что в процессе обучения пространство признаков формируется исходя из задуманной классификации, то тогда можно надеяться, что задание пространства признаков само по себе задает свойство, под действием которого образы в этом пространстве легко разделяются. Именно эти надежды по мере развития работ в области распознавания образов стимулировали появление гипотезы компактности, которая гласит: образам соответствуют компактные множества в пространстве признаков.

Под компактным множеством будем понимать некие сгустки точек в пространстве изображений, предполагая, что между этими сгустками существуют разделяющие их разряжения. Однако эту гипотезу не всегда удавалось подтвердить экспериментально. Но те задачи, в рамках которых гипотеза компактности хорошо выполнялась, всегда находили простое решение и наоборот, те задачи, для которых гипотеза не подтверждалась, либо совсем не решались, либо решались с большим трудом и привлечением дополнительной информации.

Сама гипотеза компактности превратилась в признак возможности удовлетворительно решения задач распознавания.

Формулировка гипотеза компактности подводит вплотную к понятию абстрактного образа. Если координаты пространства выбирать случайно, то и изображения в нем будут распределены случайно. Они будут в некоторых частях пространства располагаться более плотно, чем в других.

Назовем некоторое случайно выбранное пространство абстрактным изображением. В этом абстрактном пространстве почти наверняка будут существовать компактные множества точек. Поэтому, в соответствии с гипотезой компактности, множество объектов, которым в абстрактном пространстве соответствуют компактные множества точек, принято называть абстрактными образами заданного пространства.

Обучение и самообучение, адаптация и обучение.

Если бы удалось подметить некое всеобщее свойство, не зависящее ни от природы образов, ни от их изображений, а определяющее лишь способность к разделимости, то наряду с обычной задачей обучения распознаванию с использованием информации о принадлежности каждого объекта из обучающей последовательности тому или иному образу, можно было бы поставить иную классификационную задачу – так называемую задачу обучения без учителя.

Задачу такого рода на описательном уровне можно сформулировать следующим образом: системе одновременно или последовательно предъявляются объекты без каких-либо указаний об их принадлежности к образам. Входное устройство системы отображает множество объектов на множество изображений и, используя некоторое заложенное в нем заранее свойство разделимости образов, производит самостоятельную классификацию этих объектов.

После такого процесса самообучения система должна приобрести способность к распознаванию не только уже знакомых объектов (объектов из обучающей последовательности), но и тех, которые ранее не предъявлялись. Процессом самообучения некоторой системы называется такой процесс, в результате которого эта система без подсказки учителя приобретает способность к выработке одинаковых реакций на изображения объектов одного и того же образа и различных реакций на изображения различных образов.

Роль учителя при этом состоит лишь в подсказке системе некоторого объективного свойства, одинакового для всех образов и определяющего способность к разделению множества объектов на образы.

Оказывается, таким объективным свойством является свойство компактности образов. Взаимное расположение точек в выбранном пространстве уже содержит информацию о том, как следует разделить множество точек. Эта информация и определяет то свойство разделимости образов, которое оказывается достаточным для самообучения системы распознаванию образов.

Большинство известных алгоритмов самообучения способны выделять только абстрактные образы, то есть компактные множества в заданных пространствах. Различие между ними состоит в формализации понятия компактности. Однако это не снижает, а иногда и повышает ценность алгоритмов самообучения, так как часто сами образы заранее никем не определены, а задача состоит в том, чтобы определить, какие подмножества изображений в заданном пространстве представляют собой образы.

Примером такой постановки задачи являются социологические исследования, когда по набору вопросов выделяются группы людей. В таком понимании задачи алгоритмы самообучения генерируют заранее неизвестную информацию о существовании в заданном пространстве образов, о которых ранее никто не имел никакого представления.

Кроме того, результат самообучения характеризует пригодность выбранного пространства для конкретной задачи обучения распознаванию. Если абстрактные образы, выделяемые в пространстве самообучения, совпадают с реальными, то пространство выбрано удачно. Чем сильнее абстрактные образы отличаются от реальных, тем неудобнее выбранное пространство для конкретной задачи.

Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Механизм генерации этой корректировки практически полностью определяет алгоритм обучения.

Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

Адаптация – процесс изменения параметров и структуры системы, а возможно, и управляющих воздействий, на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

Обучение – процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация – подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.


Системы распознавания речи.

Речь выступает в роли основного средства коммуникации между людьми и поэтому речевое общение считается одним из важнейших компонентов системы искусственного интеллекта. Распознавание речи представляет собой процесс преобразования акустического сигнала, формируемого на выходе микрофона или телефона, в последовательность слов.

Более сложной задачей является задача понимания речи, которая сопряжена с выявлением смысла акустического сигнала. В этом случае выход подсистемы распознавания речи служит входом подсистемы понимания высказываний. Автоматическое распознавание речи (системы АРР) является одним из направлений технологий обработки естественного языка.

Автоматическое распознавание речи применяется при автоматизации ввода текстов в ЭВМ, при формировании устных запросов к базам данных или информационно-поисковым системам при формировании устных команд различным интеллектуальным устройствам.

Основные понятия систем распознавания речи.

Системы распознавания речи характеризуются многими параметрами.

Одним из основных параметров является ошибка распознавания слов (ОРС). Этот параметр представляет собой отношение количества нераспознанных слов к общему количеству произнесенных слов.

Другими параметрами, характеризующими системы автоматического распознавания речи, являются:

1) размер словаря,

2) режим речи,

3) стиль речи,

4) предметная область,

5) дикторозависимость,

6) уровень акустических шумов,

7) качество входного канала.

В зависимости от размера словаря системы АРР подразделяются на три группы:

С малым размером словаря (до 100 слов),

Со средним размером словаря (от 100 слов до нескольких тысяч слов),

С большим размером словаря (более 10 000 слов).

Режим речи характеризует способ произнесения слов и фраз. Выделяют системы распознавания слитной речи и системы, позволяющие распознавать только изолированные слова речи. В режиме распознавания изолированных слов требуется, чтобы диктор делал краткие паузы между словами.

По стилю речи системы АРР подразделяются на две группы: системы детерминированной речи и системы спонтанной речи.

В системах распознавания детерминированной речи диктор воспроизводит речь, следуя грамматическим правилам языка. Спонтанная речь характеризуется нарушениями грамматических правил и ее сложнее распознавать.

В зависимости от предметной области выделяют системы АРР, ориентированные на применение в узкоспециальных областях (например, доступ к базам данных) и системы АРР с неограниченной областью применения. Последние требуют наличия большого объема словаря и должны обеспечивать распознавание спонтанной речи.

Многие системы автоматического распознавания речи являются дикторозависимыми. Это предполагает предварительную настройку системы на особенности произношения конкретного диктора.

Сложность решения задачи распознавания речи объясняется большой изменчивостью акустических сигналов. Эта изменчивость объясняется несколькими причинами:

Во-первых, различной реализацией фонем – основных единиц звукового строя языка. Изменчивость реализации фонем вызвана влиянием соседних звуков в потоке речи. Оттенки реализации фонем, обусловленные звуковым окружением, называют аллофонами.

Во-вторых, положением и характеристиками акустических приемников.

В-третьих, изменениями параметрами речи одного и того же диктора, которые обусловлены различным эмоциональным состоянием диктора, темпом его речи.

На рисунке представлены основные компоненты системы распознавания речи:

Оцифрованный речевой сигнал поступает на блок предварительной обработки, где осуществляется выделение признаков, необходимых для распознавания звуков. Распознавание звуков часто осуществляется с помощью моделей искусственных нейронных сетей. Выделенные звуковые единицы используют в дальнейшем для поиска последовательности слов, в наибольшей степени соответствующей входному речевому сигналу.

Поиск последовательности слов выполняется с помощью акустической, лексической и языковой моделей. Параметры моделей определяют по обучающим данным на основе соответствующих алгоритмов обучения.

Синтез речи по тексту. Основные понятия

Во многих случаях создание систем искусственного интеллекта с элементами ея-общения требуют вывода сообщений в речевой форме. На рисунке представлена структурная схема интеллектуальной вопросно-ответной системы с речевым интерфейсом:

Рисунок 1.

Кусок лекций взять у Олега

Рассмотрим особенности эмпирического подхода на примере распознавания частей речи. Задача состоит в присвоении словам предложения меток: существительное, глагол, предлог, прилагательное и тому подобное. Кроме этого, необходимо определять некоторые дополнительные признаки существительных и глаголов. Например, для существительного – число, а для глагола – форму. Формализуем задачу.

Представим предложение в виде последовательности слов: W=w1 w2…wn, где wn – случайные переменные, каждая из которых получает одно из возможных значений, принадлежащих словарю языка. Последовательность меток, назначаемых словам предложения, представим последовательностью X=x1 x2 … xn, где xn – случайные переменные, значения которых определены на множестве возможных меток.

Тогда задача распознавания частей речи состоит в поиске наиболее вероятной последовательности меток x1, x2, …, xn по заданной последовательности слов w1, w2, …, wn. Иными словами, необходимо найти такую последовательность меток X*=x1 x2 … xn, которая обеспечивает максимум условной вероятности P(x1, x2, …, xn| w1 w2.. wn).

Перепишем условную вероятность P(X| W) в следующем виде P(X| W)=P(X,W) / P(W). Так как требуется найти максимум условной вероятности P(X,W) по переменной X, получим X*=arg x max P(X,W). Совместную вероятность P(X,W) можно записать в виде произведения условных вероятностей: P(X,W)=произведение по и-1 до н от P(x i |x1,…,x i -1 , w1,…,w i -1) P(w i |x1,…,x i -1 , w1,…,w i -1). Непосредственный поиск максимума данного выражения представляет собой сложную задачу, так как при больших значениях n поисковое пространство становится очень большим. Поэтому вероятности, которые записаны в этом произведении, аппроксимируют более простыми условными вероятностями: P(x i |x i -1) P(w i |w i -1). В этом случае полагают, что значение метки x i связано только с предыдущей меткой x i -1 и не зависит от более ранних меток, а также что вероятность слова w i определяется только текущей меткой x i . Указанные предположения называют марковскими, а для решения задачи привлекают теорию марковских моделей. С учетом марковских предположений можно записать:

X*= arg x1, …, xn max П i =1 n P(x i |x i -1) P(wi|wi-1)

Где условные вероятности оцениваются на множестве обучающих данных

Поиск последовательности меток Х* осуществляют с помощью алгоритма динамического программирования Витерби. Алгоритм Витерби может рассматриваться как вариант алгоритма поиска на графе состояний, где вершинам соответствуют метки слов.

Характерно, что для любой текущей вершины множество дочерних меток всегда одно и то же. Более того, для каждой дочерней вершины множества родительских вершин тоже совпадают. Это объясняется тем, что на графе состояний осуществляются переходы с учетом всех возможных сочетаний меток. Предположение Маркова обеспечивают существенное упрощение задачи распознавания частей речи при сохранении высокой точности назначения меток словам.

Так, при наличии 200 меток точность назначения примерно равна 97%. Долгое время имперический анализ выполнялся с помощью стохастических контекстно-свободных грамматик. Однако для них характерен существенный недостаток. Он заключается в том, что различным грамматическим разборам могут назначаться одинаковые вероятности. Это происходит из-за того, что вероятность грамматического разбора представляется в виде произведения вероятностей правил, участвующих в разборе. Если в ходе разбора используются различные правила, характеризуемые одинаковыми вероятностями, то это и порождает указанную проблему. Лучшие результаты дает грамматика, учитывающая лексику языка.

В этом случае в правила включаются необходимые лексические сведения, которые обеспечивают различные значения вероятности для одного и того же правила в разных лексических окружениях. Имперический синтаксический анализ в большей степени соответствует распознаванию образов, чем традиционному грамматическому разбору в его классическом понимании.

Сравнительные исследования показали, что правильность имперического грамматического разбора приложений естественного языка оказывается выше по сравнению с традиционным грамматическим разбором.

С задачей распознавания образов живые системы, в том числе и человек, сталкиваются постоянно с момента своего появления. В частности, информация, поступающая с органов чувств, обрабатывается мозгом, который в свою очередь сортирует информацию, обеспечивает принятие решения, а далее с помощью электрохимических импульсов передает необходимый сигнал далее, например, органам движения, которые реализуют необходимые действия. Затем происходит изменение окружающей обстановки, и вышеуказанные явления происходят заново. И если разобраться, то каждый этап сопровождается распознаванием.

С развитием вычислительной техники стало возможным решить ряд задач, возникающих в процессе жизнедеятельности, облегчить, ускорить, повысить качество результата. К примеру, работа различных систем жизнеобеспечения, взаимодействие человека с компьютером, появление роботизированных систем и др. Тем не менее, отметим, что обеспечить удовлетворительный результат в некоторых задачах (распознавание быстродвижущихся подобных объектов, рукописного текста) в настоящее время не удается.

Цель работы: изучить историю систем распознавания образов.

Указать качественные изменения произошедшие в области распознавания образов как теоретические, так и технические, с указанием причин;

Обсудить методы и принципы, применяемые в вычислительной технике;

Привести примеры перспектив, которые ожидаются в ближайшем будущем.

1. Что такое распознавание образов?

Первые исследования с вычислительной техникой в основном следовали классической схеме математического моделирования - математическая модель, алгоритм и расчет. Таковыми были задачи моделирования процессов происходящих при взрывах атомных бомб, расчета баллистических траекторий, экономических и прочих приложений. Однако помимо классических идей этого ряда возникали и методы основанные на совершенно иной природе, и как показывала практика решения некоторых задач, они зачастую давали лучший результат нежели решения, основанные на переусложненных математических моделях. Их идея заключалась в отказе от стремления создать исчерпывающую математическую модель изучаемого объекта (причем зачастую адекватные модели было практически невозможно построить), а вместо этого удовлетвориться ответом лишь на конкретные интересующие нас вопросы, причем эти ответы искать из общих для широкого класса задач соображений. К исследованиям такого рода относились распознавание зрительных образов, прогнозирование урожайности, уровня рек, задача различения нефтеносных и водоносных пластов по косвенным геофизическим данным и т. д. Конкретный ответ в этих задачах требовался в довольно простой форме, как например, принадлежность объекта одному из заранее фиксированных классов. А исходные данные этих задач, как правило, задавались в виде обрывочных сведений об изучаемых объектах, например в виде набора заранее расклассифицированных объектов. С математической точки зрения это означает, что распознавание образов (а так и был назван в нашей стране этот класс задач) представляет собой далеко идущее обобщение идеи экстраполяции функции.

Важность такой постановки для технических наук не вызывает никаких сомнений и уже это само по себе оправдывает многочисленные исследования в этой области. Однако задача распознавания образов имеет и более широкий аспект для естествознания (впрочем, было бы странно если нечто столь важное для искусственных кибернетических систем не u1080 имело бы значения для естественных). В контекст данной науки органично вошли и поставленные еще древними философами вопросы о природе нашего познания, нашей способности распознавать образы, закономерности, ситуации окружающего мира. В действительности, можно практически не сомневаться в том, что механизмы распознавания простейших образов, типа образов приближающегося опасного хищника или еды, сформировались значительно ранее, чем возник элементарный язык и формально-логический аппарат. И не вызывает никаких сомнений, что такие механизмы достаточно развиты и у высших животных, которым так же в жизнедеятельности крайне необходима способность различения достаточно сложной системы знаков природы. Таким образом, в природе мы видим, что феномен мышления и сознания явно базируется на способностях к распознаванию образов и дальнейший прогресс науки об интеллекте непосредственно связан с глубиной понимания фундаментальных законов распознавания. Понимая тот факт, что вышеперечисленные вопросы выходят далеко за рамки стандартного определения распознавания образов (в англоязычной литературе более распространен термин supervised learning), необходимо так же понимать, что они имеют глубокие связи с этим относительно узким(но все еще далеко неисчерпанным) направлением .

Уже сейчас распознавание образов плотно вошло в повседневную жизнь и является одним из самых насущных знаний современного инженера. В медицине распознавание образов помогает врачам ставить более точные диагнозы, на заводах оно используется для прогноза брака в партиях товаров. Системы биометрической идентификации личности в качестве своего алгоритмического ядра так же основаны на результатах этой дисциплины. Дальнейшее развитие искусственного интеллекта, в частности проектирование компьютеров пятого поколения, способных к более непосредственному общению с человеком на естественных для людей языках и посредством речи, немыслимы без распознавания. Здесь рукой подать и до робототехники, искусственных систем управления, содержащих в качестве жизненно важных подсистем системы распознавания.

Именно поэтому к развитию распознавания образов с самого начала было приковано немало внимания со стороны специалистов самого различного профиля - кибернетиков, нейрофизиологов, психологов, математиков, экономистов и т.д. Во многом именно по этой причине современное распознавание образов само питается идеями этих дисциплин. Не претендуя на полноту (а на нее в небольшом эссе претендовать невозможно) опишем историю распознавания образов, ключевые идеи .

Определения

Прежде, чем приступить к основным методам распознавания образов, приведем несколько необходимых определений.

Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - задача идентификации объекта или определения каких-либо его свойств по его изображению (оптическое распознавание) или аудиозаписи (акустическое распознавание) и другим характеристикам.

Одним из базовых является не имеющее конкретной формулировки понятие множества. В компьютере множество представляется набором неповторяющихся однотипных элементов. Слово "неповторяющихся" означает, что какой-то элемент в множестве либо есть, либо его там нет. Универсальное множество включает все возможные для решаемой задачи элементы, пустое не содержит ни одного.

Образ - классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку. Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. В классической постановке задачи распознавания универсальное множество разбивается на части-образы. Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.

Методика отнесения элемента к какому-либо образу называется решающим правилом. Еще одно важное понятие - метрика, способ определения расстояния между элементами универсального множества. Чем меньше это расстояние, тем более похожими являются объекты (символы, звуки и др.) - то, что мы распознаем. Обычно элементы задаются в виде набора чисел, а метрика - в виде функции. От выбора представления образов и реализации метрики зависит эффективность программы, один алгоритм распознавания с разными метриками будет ошибаться с разной частотой.

Обучением обычно называют процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть "поощрениями" и "наказаниями". Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что здесь дополнительная информация о верности реакции системе не сообщается.

Адаптация - это процесс изменения параметров и структуры системы, а возможно - и управляющих воздействий, на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

Обучение - это процесс, в результате которого система постепенно приобретает способность отвечать нужными реакциями на определенные совокупности внешних воздействий, а адаптация - это подстройка параметров и структуры системы с целью достижения требуемого качества управления в условиях непрерывных изменений внешних условий.

Примеры задач распознавания образов: - Распознавание букв;