Форум Восточного портала


    
      
        Форум Восточного портала
        (http://oriental.ru/cgi-bin/forum/YaBB.pl)
      

        Общее >> Технический раздел >> OCR: как сканировать книги?
        
(Message started by: Цзошучжан на 11.01.03 в 16:06:23)

Заголовок: OCR: как сканировать книги?
Прислано участником Цзошучжан на 11.01.03 в 16:06:23

Quote:

Как я буду сбрасывать вам отсканированное? Насколько я представляю одна книга - это от нескольких десятков мегабайт до сотни (в зависимости от режима сканирования). Есть какая-то отработанная практика?

Да, есть. По ней одна книга занимает не больше Мб текста и требует на OCR около одного дня.

1. Сканируйте и распознавайте за одну процедуру, используя любую программу OCR, понимающую русский язык, например, ABBYY FineReader.

2. Выставляйте разрешение 300dpi Grayscale (не black&white и не color)

3. Перед началом сканирования выполните гамма-коррекцию, чтобы настроить сканер на белизну бумаги и контрастность типографской краски. Пробная страница не должна иметь фон заметно темнее экранного белого (#FFFFFF), мусор на белом поле и разрывы в штрихах литер. Не жалейте времени на коррекцию, иначе потом придется потратить в десять раз больше на вычитку и ручное дописывание утраченных абзацев.

4. Обратите внимание, что переплет даже у средних по толщине изданий может создавать заметные тени на внутренней стороне разворота и нарушать геометрию текста, уводя его в перспективу. Поэтому нелишне будет прижимать книгу к стеклу сканера рукой или каким-нибудь грузом. Я обычно использую блин от штанги.

5. Из программы сканирования текст сохраняется в Word или plain txt, вычитывается, проходит корректуру, постраничные сноски преобразуются в концевой тезаурус, расставляется авторская разметка и курсив.

Заголовок: Re: OCR: как сканировать книги?
Прислано участником Сергей2 на 08.05.03 в 13:20:10

Сейчас книги чаще всего сканируют в формат DjVu. В 1 мегабайте помещается примерно 100 (сто) книжных страниц. Программу (бесплатную версию) можно скачать здесь: http://caoki.narod.ru/progs/djvus_31.exe или (возможно) с официального сайта http://www.lizardtech.com , но на последнем я её не нашёл, устарела, наверное. Но может, на нём более что навороченное находится...

Заголовок: Re: OCR: как сканировать книги?
Прислано участником quaxter на 21.05.03 в 22:22:45

Необходимое дополнение к сказанному Цзошучжан:
=====================
В свое время в частном письме один из форумчан задавал мне вопрос - а как избежать исчезновения знаков препинания и диакритики, если сканируется. к примеру, пиньинь.
Нужно сказать, что FineReader имеет вредную функцию Despeckle image/Очистить от мусора. Если надо, я пришлю картинку настроек для 6-й версии. См. Tools > Options > Scan/Open Image (Для пользователей русского интерфейса Сервис > Опции > Сканирование/Открытие). В 6-м снизу (он же 2-й сверху в группе Image processing/Обработка изхображений) чекбоксе галочки быть не должно!
Эта пакость должна быть ПРИНУДИТЕЛЬНО ОТКЛЮЧЕНА, в противном случае дополнительные проблемы с пунктуацией, буквами типа ё, й и любыми надстрочно-подстрочными знаками гарантированы.
Если у вас документ или книга с многочисленными рукописными помарками, полиграфической грязью или просо блеклой печатью на неважной бумаге - без контакта с фотошопом вам, увы, не обойтись.

Форум Восточного портала » Проект дизайн-студии Индейское лето, 2000–2010