|
||
Заголовок: OCR: как сканировать книги? Прислано участником Цзошучжан на 11.01.03 в 16:06:23 Quote:
Да, есть. По ней одна книга занимает не больше Мб текста и требует на OCR около одного дня. 1. Сканируйте и распознавайте за одну процедуру, используя любую программу OCR, понимающую русский язык, например, ABBYY FineReader. 2. Выставляйте разрешение 300dpi Grayscale (не black&white и не color) 3. Перед началом сканирования выполните гамма-коррекцию, чтобы настроить сканер на белизну бумаги и контрастность типографской краски. Пробная страница не должна иметь фон заметно темнее экранного белого (#FFFFFF), мусор на белом поле и разрывы в штрихах литер. Не жалейте времени на коррекцию, иначе потом придется потратить в десять раз больше на вычитку и ручное дописывание утраченных абзацев. 4. Обратите внимание, что переплет даже у средних по толщине изданий может создавать заметные тени на внутренней стороне разворота и нарушать геометрию текста, уводя его в перспективу. Поэтому нелишне будет прижимать книгу к стеклу сканера рукой или каким-нибудь грузом. Я обычно использую блин от штанги. 5. Из программы сканирования текст сохраняется в Word или plain txt, вычитывается, проходит корректуру, постраничные сноски преобразуются в концевой тезаурус, расставляется авторская разметка и курсив. |
||
Заголовок: Re: OCR: как сканировать книги? Прислано участником Сергей2 на 08.05.03 в 13:20:10 Сейчас книги чаще всего сканируют в формат DjVu. В 1 мегабайте помещается примерно 100 (сто) книжных страниц. Программу (бесплатную версию) можно скачать здесь: http://caoki.narod.ru/progs/djvus_31.exe или (возможно) с официального сайта http://www.lizardtech.com , но на последнем я её не нашёл, устарела, наверное. Но может, на нём более что навороченное находится... |
||
Заголовок: Re: OCR: как сканировать книги? Прислано участником quaxter на 21.05.03 в 22:22:45 Необходимое дополнение к сказанному Цзошучжан: ===================== В свое время в частном письме один из форумчан задавал мне вопрос - а как избежать исчезновения знаков препинания и диакритики, если сканируется. к примеру, пиньинь. Нужно сказать, что FineReader имеет вредную функцию Despeckle image/Очистить от мусора. Если надо, я пришлю картинку настроек для 6-й версии. См. Tools > Options > Scan/Open Image (Для пользователей русского интерфейса Сервис > Опции > Сканирование/Открытие). В 6-м снизу (он же 2-й сверху в группе Image processing/Обработка изхображений) чекбоксе галочки быть не должно! Эта пакость должна быть ПРИНУДИТЕЛЬНО ОТКЛЮЧЕНА, в противном случае дополнительные проблемы с пунктуацией, буквами типа ё, й и любыми надстрочно-подстрочными знаками гарантированы. Если у вас документ или книга с многочисленными рукописными помарками, полиграфической грязью или просо блеклой печатью на неважной бумаге - без контакта с фотошопом вам, увы, не обойтись. |
||
Форум Восточного портала » Проект дизайн-студии Индейское лето, 2000–2010 |