Восточный портал [oriental.ru]

Главная
Рейтинг
Форум
Книги
Новости

Тексты
Изображения
Разное



Добро пожаловать, Гость. Пожалуйста, выберите: Вход || Регистрация.               18.04.24 в 20:53:03

Главная Правила Поиск Участники Карта Вход Регистрация
Форум Восточного портала «OCR: как сканировать книги?»
дизайн студия, логотипы, дизайнерские визитки, экслибрисы, фирменный стиль, иллюстрации, каллиграфия реклама на Восточном портале реклама на Восточном портале реклама на Восточном портале
   Форум Восточного портала
   Общее
   Технический раздел

   OCR: как сканировать книги?
« Предыдущая тема | Следующая тема »
Страницы: 1
Ответить Послать тему Печатать
   Автор  Тема: OCR: как сканировать книги?  (прочитана 5353 раз, 2 ответов)

Цзошучжан
Администратор
мужчина *****
Сообщений: 851
Карма: 55
Russia  Москва
Сайт    
Восток — дело толстое.

OCR: как сканировать книги?
написан: 11.01.03 в 16:06:23
ЦитироватьПравить

Как я буду сбрасывать вам отсканированное? Насколько я представляю одна книга — это от нескольких десятков мегабайт до сотни (в зависимости от режима сканирования). Есть какая-то отработанная практика?

Да, есть. По ней одна книга занимает не больше Мб текста и требует на OCR около одного дня.
 
1. Сканируйте и распознавайте за одну процедуру, используя любую программу OCR, понимающую русский язык, например, ABBYY FineReader.
 
2. Выставляйте разрешение 300dpi Grayscale (не black&white и не color)
 
3. Перед началом сканирования выполните гамма-коррекцию, чтобы настроить сканер на белизну бумаги и контрастность типографской краски. Пробная страница не должна иметь фон заметно темнее экранного белого (#FFFFFF), мусор на белом поле и разрывы в штрихах литер. Не жалейте времени на коррекцию, иначе потом придется потратить в десять раз больше на вычитку и ручное дописывание утраченных абзацев.
 
4. Обратите внимание, что переплет даже у средних по толщине изданий может создавать заметные тени на внутренней стороне разворота и нарушать геометрию текста, уводя его в перспективу. Поэтому нелишне будет прижимать книгу к стеклу сканера рукой или каким-нибудь грузом. Я обычно использую блин от штанги.
 
5. Из программы сканирования текст сохраняется в Word или plain txt, вычитывается, проходит корректуру, постраничные сноски преобразуются в концевой тезаурус, расставляется авторская разметка и курсив.

0
[ ссылки доступны для участников. реклама на форуме платная ] | [ ссылки доступны для участников. реклама на форуме платная ] Зарегистрирован

Сергей2
Гость


Почта
Re: OCR: как сканировать книги?
Ответ #1 написан: 08.05.03 в 13:20:10
ЦитироватьПравить

Сейчас книги чаще всего сканируют в формат DjVu. В 1 мегабайте помещается примерно 100 (сто) книжных страниц. Программу (бесплатную версию) можно скачать здесь: [ ссылки доступны для участников. реклама на форуме платная ] или (возможно) с официального сайта [ ссылки доступны для участников. реклама на форуме платная ] , но на последнем я её не нашёл, устарела, наверное. Но может, на нём более что навороченное находится...

Зарегистрирован

quaxter
Новичок
мужчина *
Сообщений: 25
Карма: 0

Почта 142416276 142416276   wapurobaka
Всем привет!

Re: OCR: как сканировать книги?
Ответ #2 написан: 21.05.03 в 22:22:45
ЦитироватьПравить

Необходимое дополнение к сказанному Цзошучжан:
=====================
В свое время в частном письме один из форумчан задавал мне вопрос — а как избежать исчезновения знаков препинания и диакритики, если сканируется. к примеру, пиньинь.
Нужно сказать, что FineReader имеет вредную функцию Despeckle image/Очистить от мусора. Если надо, я пришлю картинку настроек для 6-й версии.  См. Tools > Options > Scan/Open Image (Для пользователей русского интерфейса Сервис > Опции > Сканирование/Открытие). В 6-м снизу (он же 2-й сверху в группе Image processing/Обработка изхображений) чекбоксе галочки быть не должно!
Эта пакость должна быть ПРИНУДИТЕЛЬНО ОТКЛЮЧЕНА, в противном случае дополнительные проблемы с пунктуацией, буквами типа ё, й и любыми надстрочно-подстрочными знаками гарантированы.
Если у вас документ или книга с многочисленными рукописными помарками, полиграфической грязью или просо блеклой печатью на неважной бумаге — без контакта с фотошопом вам,  увы, не обойтись.

0
При контакте по e-mail удалите из адреса .NOSPAM Зарегистрирован
Страницы: 1
Ответить Послать тему Печатать

« Предыдущая тема | Следующая тема »








   реклама на Восточном портале

   Bumali Project

   реклама на Восточном портале






















Создание, поддержка и графический дизайн Восточного портала: «Indian Summer Studio»