Слоеный бутерброд Cognitive
Новая технология, представленная компанией Cognitive Technologies, предназначена для пакетного сканирования, обработки и сжатия факсимильных копий, договоров, счетов, таблиц, кадровых бумаг и т. д., то есть тех документов, где присутствуют графика, печати, подписи и текст.
Как подчеркнул вице-президент Cognitive Technologies по маркетингу и общественным коммуникациям Николай Никольский, документы, с которыми в России приходится иметь дело, зачастую находятся в очень плохом состоянии: неразборчивые печати и подписи, некачественный шрифт, пометки маркерами, различного рода пятна. Специалисты компании уверяют: после обработки с помощью ScanPack документ сможет снова стать легко читаемым.
Как известно, качественное изображение – это громоздкий оцифрованный документ, занимающий немалые объемы дискового пространства. Поэтому новая технология предусматривает автоматическое сжатие и упаковку файлов. Разработчики подчеркивают более высокую эффективность ScanPack по сравнению с аналогичными решениями, предлагаемыми на рынке ПО, а это стало следствием реализации в технологии некоего подобия экспертной системы. По словам Владимира Арлазарова, руководителя технологической лаборатории, ScanPack обладает возможностью анализировать тип и структуру документа, а затем автоматически подбирать наиболее подходящий режим его обработки. Подчеркивалось также, что вышеописанные технологии в компании называют не когнитивными, а гораздо более просто и ясно: технологии понимания документов.
Сама идея нового подхода состоит в том, чтобы разбить изображение, отсканированное без потерь, на отдельные зоны и обрабатывать каждую с разной степенью сжатия. Получается некий многослойный бутерброд, но в результате каждая картинка будет хорошо читаться. Заметим: в Cognitive ScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR), но собственно движок распознавания может быть и иным.
После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в файл формата PDF/A (технология сжатия электронных документов c их последующей конвертацией в формат PDF/A). Таким образом возможно снизить объем оцифрованных документов до 10-кратного размера: скажем, полис ОСАГО при сохранении в формате JPEG с качеством, пригодным для работы, будет занимать объем 2,42 Мбайт, а сжатый с помощью ScanPack – всего 408 Кбайт.
По словам Николая Никольского, мировой рынок систем, подобных ScanPack, еще не сформирован, но, по предварительным оценкам, только в российском сегменте его потенциальный объем составит порядка миллиарда долларов. «Мы выводим эту систему на рынок, так как в ней ощущается большая потребность, – сказал он. – Причем выводим пока как технологию, но в дальнейшем появится и продукт. Технология уже внедрена в некоторых страховых компаниях. Есть запросы из стран Европы и Америки».
В дальнейшем разработчики обещают научить систему работать с цветными страницами журналов и газет – ведь их экономичное хранение тоже необходимо.
Источник: IT News №8 (май 2011 года)