К

Компьютерное зрение

Компьютерное зрение или Компьютерное видение — теория и технология создания машин, которые могут проводить выявление, наблюдение и классификацию объектов.

Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые получают информацию в виде изображений. Видеоданные могут быть представлены в виде многих форм, таких как видеопоследовательность, изображения с разных камер или трехмерными данными из медицинского сканера.

Как технологическая дисциплина, компьютерное зрение стремится применить теории и модели компьютерного зрения к созданию систем компьютерного зрения. Примерами таких систем могут быть:

  1. системы управления процессами (промышленные роботы, автономные транспортные средства)
  2. системы видеонаблюдения
  3. системы организации информации (например, для индексации баз данных изображений)
  4. системы моделирования объектов или окружающей среды (анализ медицинских изображений, топографическое моделирование)
  5. системы взаимодействия (например, устройства ввода для систем человеко-машинного взаимодействия).

Компьютерное зрение также может быть описан как дополнение (но не обязательно противоположность) биологическому зрения. В биологии изучается зрительное восприятие человека и различных животных, в результате создаются модели работы таких систем в терминах физиологических процессов. Компьютерное зрение, с другой стороны, изучает и описывает системы компьютерного зрения, которые выполнены аппаратно или программно. Междисциплинарный обмен между биологическим и компьютерным зрением оказался весьма продуктивным для обеих научных отраслей.

Подразделения компьютерного зрения включают воспроизведение действий, выявления событий, слежения, распознавания образов, восстановление изображений.

Современное состояние дел

Область компьютерного зрения может быть охарактеризована как молодая и разнообразна. И, хотя существуют более ранние работы, можно сказать, что только с конца 1970-х началось интенсивное изучение этой проблемы, когда компьютеры смогли управлять обработкой больших наборов данных, таких как изображения. Однако, эти исследования обычно начинались из других отраслей, и, соответственно, нет стандартных формулировки проблемы компьютерного зрения. Также, и это даже более важно, нет стандартных формулировки того, как должна решаться проблема компьютерного зрения. Вместо того, существует масса методов для решения различных строго определенных задач компьютерного зрения, где методы часто зависят от задач и редко могут быть обобщены для широкого круга применения. Многие из методов и приложений все еще находятся на стадии фундаментальных исследований, но все большее количество методов находит применение в коммерческих продуктах, где они часто составляют часть более сложной системы, которая может решать сложные задачи (например, в области медицинских изображений или измерения и контроля качества в процессах производства). В большинстве практических применений компьютерного зрения компьютеры запрограммированы для решения отдельных задач, но методы, основанные на знаниях, становятся все более обобщенными.

Важную часть в области искусственного интеллекта занимает автоматическое планирование или принятие решений в системах, которые могут выполнять механические действия, такие как передвижение работа через некоторое среду. Этот тип обработки обычно требует входных данных, предоставляемых системами компьютерного зрения, действуют как видеосенсор и предоставляют высокоуровневую информацию о среде и работу.

Другие отрасли, которые иногда описываются как принадлежащие к искусственному интеллекту, и которые используются относительно компьютерного зрения, это распознавания образов и учебные методы. В результате компьютерное зрение иногда рассматривается как часть области искусственного интеллекта или области компьютерных наук в целом.

Физика является другой наукой, которая тесно связана с компьютерным зрением. Значительная часть компьютерного зрения имеет дело с методами, которые требуют досконального понимания процесса, в котором электромагнитное излучение, обычно в области видимого или инфракрасного спектра, отражается поверхностью объектов и измеряется датчиком изображения, чтобы получить видеоданные. Этот процесс базируется на оптике и физике твердого тела. Сложные датчики изображения также требуют знаний по квантовой механике для полного понимания процесса формирования изображения. Также, различные проблемы измерений в физике могут быть решены, используя компьютерное зрение (например, те, что относятся к движению в жидкостях). Поэтому, компьютерное зрение может рассматриваться как расширение физики.

Третья отрасль науки, которая играет важную роль, — это нейробиология, в частности изучение систем биологического зрения. За последнее столетие были проведены обширные исследования глаз, нейронов и структур мозга, относящихся к обработке визуальных раздражителей как у человека, так и в различных животных. Это привело к грубому, и одновременно сложного, описания того, как работают «реальные» системы зрения, что помогло решить некоторые задачи. Результаты этих исследований привели к созданию искусственных систем, имитирующих работу и функционирования аналогичных биологических систем на различных уровнях сложности. Также, некоторые методы изучения, которые были разработаны в области компьютерного зрения, обязаны своему происхождению биологии.

Еще одной отраслью, связанной с компьютерным зрением, является обработка сигналов. Многие методы обработки одномерных сигналов, обычно временных сигналов, могут быть естественным путем расширены для обработки двумерных или многомерных сигналов в компьютерном зрении. Однако, из-за своеобразной природу изображений, существуют много методов, разработанных в области компьютерного зрения, не имеют аналогов в области обработки одномерных сигналов. Особенностью этих методов является их нелинейность, что, вместе с многомерностью сигнала, делает соответствующую подобласть в обработке сигналов частью области компьютерного зрения.

Кроме названных подходов к проблеме компьютерного зрения, многие из исследуемых вопросов могут быть изучены с чисто математической точки зрения. Например, большинство методов основаны на статистике, оптимизационной математике или геометрии.

Наконец, большие работы ведутся в области практического применения компьютерного зрения, в том, как методы, существуют, могут быть реализованы программно и аппаратно или как они могут быть изменены с целью достижения высокой скорости работы без существенного увеличения ресурсов, которые потребляются.

Связанные области

Компьютерное зрение, Обработка изображений, Анализ изображений, Зрение работа и Машинный зрение — тесно связанные области. Но до сих пор точно не определено, они разделами одной, более широкой области. При детальном анализе может показаться, что это лишь разные названия одной и той же области. Чтобы не возникло путаницы, принято различать их как направления, сфокусированные на определенном предмете изучения. Ниже приведено описание некоторых из них, наиболее важных.

Обработка изображений и анализ изображений в основном сосредоточены на работе с двумерными изображениями, то есть как превратить одно изображение в другое. Например, попиксельно операции увеличения контрастности, операции по выделению краев, устранение шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка / анализ изображения действуют независимо от содержания самих изображений.

Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановление структуры или иной информации о трехмерной сцену по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных предположений относительно того, что представлено на изображениях.

Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерения. Это означает, что технологии датчиков изображения и теории управления связанные с обработкой видеоданных для управления роботом и обработка данных в реальном времени осуществляется аппаратно или программно.

Также существует область, названная Визуализацией, которая изначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского назначения.

Наконец, распознавания образов является областью, которая использует различные методы для получения информации из видеоданных, что, в основном, базируются на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

Примеры применения компьютерного зрения

Одним из наиболее важных применений является обработка изображений в медицине. Эта область характеризуется получением информации из видеоданных для определения медицинского диагноза пациенту. В большинстве случаев, видеоданные получают с помощью микроскопии, рентгенографии, ангиографии, ультразвуковых исследований и томографии. Примером информации, которая может быть получена из таких видеоданных является выявление опухолей, атеросклероза или других злокачественных изменений. Также примером может служить измерения размеров органов, кровообращения и т. Эта прикладная область также способствует медицинским исследованиям, предоставляя новой информации, например, о строении мозга или качества медицинского лечения.

Другой прикладной областью компьютерного зрения является промышленность. Здесь информацию получают для поддержания производственного процесса. Примером может служить контроль качества, когда детали или конечный продукт автоматически проверяются на наличие дефектов. Другим примером является измерение положения и ориентация деталей поднимаются рукой робота.

Военное применение является, пожалуй, самой областью компьютерного зрения. Очевидным примером является выявление вражеских солдат и транспортных средств и управления ракетами. Наиболее совершенные системы управления ракетами отправляют ракету в заданную область, конкретная цели, а селекция целей происходит тогда, когда ракета достигает заданной области, основываясь на видеоданных, поступающих. Современное военное понятие, такое как «боевая осведомленность», предполагает, что различные датчики, включая датчики изображения, предоставляют большой набор информации о поле битвы, которая может быть использована для принятия стратегических решений. В этом случае, автоматическая обработка данных используется, чтобы уменьшить сложность или увеличить надежность полученной информации.

Одними из новых областей применения являются автономные транспортные средства, включая подводные, наземные (работы, машины), воздушные. Уровень автономности измеряется от полностью автономных (беспилотных) до транспортных средств, где системы, основанные на компьютерном видении, поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства используют компьютерное видение для навигации, то есть для получения информации о месте своего положения, для создания карты окружающей обстановки, для определения препятствий. Они также могут быть использованы, например, для определенных задач нахождения лесных пожаров. Примером таких систем могут быть система предупредительной сигнализации о препятствиях на машинах и системы автономной посадки самолетов. Некоторые производители машин демонстрировали системы автономного управления автомобилем, но эта технология все еще не достигла того уровня, когда ее можно запустить в массовое производство.

Другие области применения включают:

  • поддержку создания видеоэффектов для кино и телевидения;
  • наблюдения.

Типичные задачи компьютерного зрения

Каждая из областей применения компьютерного зрения, что были описаны выше, связана с рядом задач; более или менее хорошо определенные проблемы измерения или обработки могут быть решены с использованием многих методов. Некоторые примеры типовых задач компьютерного зрения ниже.

Распознавание

Классическая задача в компьютерном зрении, обработке изображений и машинном зрении — это определение того, содержат видеоданные некоторый характерный объект, особенность или активность. Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях.

Существующие методы решения этой задачи эффективны только для отдельных объектов, таких как простые геометрические объекты (например, многоугольники), человеческие лица, печатные или рукописные символы, автомобили и только в определенных условиях, обычно это определенное освещение, фон и положение о ‘объекта относительно камеры.

В литературе описано многообразие проблем распознавания:

  • Распознавание один или несколько предварительно заданных или изученных объектов или классов объектов могут быть распознаны, обычно вместе с их двумерным положением на картинке или трехмерным положением в сцене.
  • Идентификация: распознается индивидуальный экземпляр объекта. Примеры: идентификация определенного человеческого лица или отпечатка пальцев или автомобиля.
  • Выявление: видеоданные проверяются на наличие определенной условия. Например, обнаружение возможных неправильных клеток или тканей в медицинских изображениях. Выявление, основанный на относительно простых и быстрых вычислениях, иногда используется для нахождения небольших участков в изображении, анализируется, которые потом анализируются с помощью мероприятий, требующих больше ресурсов, для получения правильной интерпретации.

Существует несколько специализированных задач, основанные на распознавании, например:

  • Поиск изображений по содержанию: нахождение всех изображений среди большого набора изображений, которые имеют определенный содержание. Содержание может быть определено различными путями, например в терминах сходства с конкретным изображением (найти все изображения, похожие на данный файл), или в терминах высокоуровневых критериев поиска, вводимых как текстовые данные (найти все изображения на которых изображено много домов, которые сделаны зимой и на которых нет машин).
  • Оценка положения: определение положения или ориентации определенного объекта относительно камеры. Примером применения этой техники может быть содействие руки работа при изъятии объектов с конвейера на линии сборки.
  • Оптическое распознавание символов: распознавание символов на изображениях печатного или рукописного текста, обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации (например, ASCII).

Движение

Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатывается для нахождения оценки скорости каждой точки изображения или 3D сцены. Примерами таких задач являются:

  • определения трехмерного движения камеры
  • слежения, то есть движением за перемещением объекта (например, машин или людей)

Восстановление сцены

Заданы два или более изображения сцены или видеоданные. Восстановление сцены имеет целью воспроизведения трехмерной модели сцены. В простейшем случае, моделью может быть набор точек трехмерного пространства. Сложные методы воспроизводят полную трехмерную модель.

Восстановление изображений

Задача восстановления изображений — это удаление шумов (шум датчика, размытость движущегося т.д.). Самым простым подходом к решению этой задачи является разнообразные типы фильтров, таких как фильтры низких или средних частот. Сложные методы используют представление того, как должны выглядеть те или иные участки изображения, и на основе этого их преобразования.

Более высокий уровень удаления шуме достигается в течение первичного анализа видеоданных на наличие различных структур, таких как линии или границы, а затем управление процессом фильтрации на основе этих данных.

Системы компьютерного зрения

Реализация систем компьютерного зрения сильно зависит от области их применения. Некоторые системы являются автономными и решают специфические проблемы детектирования и измерения, тогда как другие системы составляют подсистемы больших систем, которые, например, могут содержать подсистемы контроля за механическими манипуляторами, планирование, информационные базы данных, интерфейсы человек-машина и т. Реализация систем компьютерного зрения также зависит от того, является ли ее функциональность заранее определенной или некоторые ее части могут быть изучены и модифицированы в процессе работы. Однако, существуют функции, типичные для многих систем компьютерного зрения.

  • Получение изображений цифровые изображения получаются от одного или нескольких датчиков изображения, помимо различных типов светочувствительных камер включают датчики расстояния, радары, ультразвуковые камеры и тому подобное. В зависимости от типа датчика, полученные данные могут быть обычным 2D изображением, 3D изображением или последовательностью изображений. Значения пикселов обычно соответствуют интенсивности света в одной или нескольких спектральных полосах (цветные или изображения в оттенках серого), но могут быть связаны с различными физическими измерениями, такими как глубина, поглощение или отражение звуковых или электромагнитных волн, или ядерным магнитным резонансом.
  • Предварительная обработка: перед тем, как методы компьютерного зрения могут быть применены к видеоданных с целью извлечения определенной части информации, необходимо обработать видеоданные, чтобы они удовлетворяли некоторым требованиям в зависимости от метода, используемого. Примеры:
    • повторная выборка с целью, чтобы убедиться, что координатная система изображения является правильным;
    • удаление шумов с целью, чтобы удалить искажения, вносимые датчиком;
    • улучшение контрастности для того, чтобы нужная информация могла быть выявлена;
    • масштабирования для лучшего различения структур на изображении.
  • Выделение деталей: детали изображения различного уровня сложности выделяются из видеоданных. Типичными примерами таких деталей являются:
    • линии и границы;
    • локализованные точки интереса, такие как углы, капли или точки: сложные детали могут принадлежать к структуре, формы или движения.
  • Детектирование / Сегментация: на определенном этапе обработки принимается решение о том, какие точки или участки изображения являются важными для дальнейшей обработки. Примерами являются:
    • выделение определенного набора точек, нас интересуют;
    • Сегментация одного или нескольких участков изображения, которые содержат характерный объект.
  • Высокоуровневый обработка: на этом этапе входные данные обычно представляют небольшой набор данных, например, набор точек или участок изображения, в которой предположительно находится определенный объект. Примерами являются:
    • проверка того, что данные удовлетворяют условиям, зависят от метода и применения;
    • оценка характерных параметров, таких как положение или размер объекта;
    • классификация найденного объекта по категориям.

Спецификации OpenVX

Осенью 2014 группа Khronos, отвечающий за разработку стандартов семейства OpenGL и OpenCL, представила финальный вариант спецификации OpenVX 1.0, которая определяет прикладной программный интерфейс (API) для разработки переносных, высокопроизводительных и энергоэффективных приложений и библиотек для решения задач компьютерного зрения (выявление, слежения и классификация объектов на изображениях и видеоданных). спецификации OpenVX разработана.

OpenVX предоставляет возможность использования серии алгоритмов для распознавания и отслеживания перемещения лица, тела и жестов, автоматизации видеонаблюдения, автоматических систем помощи водителю, реконструкции объектов и сцен, дополненной реальности, визуального осмотра, робототехники и многих других приложений. Обработка данных в OpenVX-приложениях производится через манипуляцию с графом функциональных узлов, работа с которым может быть ускорена за счет привлечения CPU, GPU, DSP и дополнительных аппаратных устройств, а также раздельной обработки фрагментов (tiling).

Показать больше

Похожие статьи

Добавить комментарий

Проверьте также
Закрыть
Кнопка «Наверх»
Закрыть
Закрыть