Добро пожаловать, Гость. Пожалуйста, выберите:
Вход
||
Регистрация
.
—
—
18.04.24 в 20:53:03
Форум Восточного портала
«OCR: как сканировать книги?»
Форум Восточного портала
Общее
Технический раздел
OCR: как сканировать книги?
«
Предыдущая тема
|
Следующая тема
»
Страницы:
1
Автор
Тема: OCR: как сканировать книги? (прочитана 5353 раз, 2 ответов)
Цзошучжан
Администратор
Сообщений: 851
Карма: 55
Москва
Восток — дело толстое.
OCR: как сканировать книги?
написан: 11.01.03 в 16:06:23
Как я буду сбрасывать вам отсканированное? Насколько я представляю одна книга — это от нескольких десятков мегабайт до сотни (в зависимости от режима сканирования). Есть какая-то отработанная практика?
Да, есть. По ней одна книга занимает не больше Мб текста и требует на OCR около одного дня.
1. Сканируйте и распознавайте за одну процедуру, используя любую программу OCR, понимающую русский язык, например, ABBYY FineReader.
2. Выставляйте разрешение 300dpi Grayscale (не black&white и не color)
3. Перед началом сканирования выполните гамма-коррекцию, чтобы настроить сканер на белизну бумаги и контрастность типографской краски. Пробная страница не должна иметь фон заметно темнее экранного белого (#FFFFFF), мусор на белом поле и разрывы в штрихах литер. Не жалейте времени на коррекцию, иначе потом придется потратить в десять раз больше на вычитку и ручное дописывание утраченных абзацев.
4. Обратите внимание, что переплет даже у средних по толщине изданий может создавать заметные тени на внутренней стороне разворота и нарушать геометрию текста, уводя его в перспективу. Поэтому нелишне будет прижимать книгу к стеклу сканера рукой или каким-нибудь грузом. Я обычно использую блин от штанги.
5. Из программы сканирования текст сохраняется в Word или plain txt, вычитывается, проходит корректуру, постраничные сноски преобразуются в концевой тезаурус, расставляется авторская разметка и курсив.
0
[ ссылки доступны для участников. реклама на форуме платная ]
|
[ ссылки доступны для участников. реклама на форуме платная ]
Зарегистрирован
Сергей2
Гость
Re: OCR: как сканировать книги?
Ответ #1 написан: 08.05.03 в 13:20:10
Сейчас книги чаще всего сканируют в формат DjVu. В 1 мегабайте помещается примерно 100 (сто) книжных страниц. Программу (бесплатную версию) можно скачать здесь:
[ ссылки доступны для участников. реклама на форуме платная ]
или (возможно) с официального сайта
[ ссылки доступны для участников. реклама на форуме платная ]
, но на последнем я её не нашёл, устарела, наверное. Но может, на нём более что навороченное находится...
Зарегистрирован
quaxter
Новичок
Сообщений: 25
Карма: 0
Всем привет!
Re: OCR: как сканировать книги?
Ответ #2 написан: 21.05.03 в 22:22:45
Необходимое дополнение к сказанному Цзошучжан:
=====================
В свое время в частном письме один из форумчан задавал мне вопрос — а как избежать исчезновения знаков препинания и диакритики, если сканируется. к примеру, пиньинь.
Нужно сказать, что FineReader имеет вредную функцию Despeckle image/Очистить от мусора. Если надо, я пришлю картинку настроек для 6-й версии. См. Tools > Options > Scan/Open Image (Для пользователей русского интерфейса Сервис > Опции > Сканирование/Открытие). В 6-м снизу (он же 2-й сверху в группе Image processing/Обработка изхображений) чекбоксе галочки быть не должно!
Эта пакость должна быть ПРИНУДИТЕЛЬНО ОТКЛЮЧЕНА, в противном случае дополнительные проблемы с пунктуацией, буквами типа ё, й и любыми надстрочно-подстрочными знаками гарантированы.
Если у вас документ или книга с многочисленными рукописными помарками, полиграфической грязью или просо блеклой печатью на неважной бумаге — без контакта с фотошопом вам, увы, не обойтись.
0
При контакте по e-mail удалите из адреса .NOSPAM
Зарегистрирован
Страницы:
1
Перейти к разделу:
-----------------------------
Интересы
-----------------------------
- Новости
- Картинки
- Манга и аниме
- Китайское языкознание
- Японское языкознание
- Корейское языкознание
- Философия и религия
- Восточная медицина
- Боевые искусства
- Древние традиции
- Древние традиции. Альманах
- Искусство
- Восточная кухня
- Бизнес в Китае
- Психология
-----------------------------
Страны
-----------------------------
- Китай
- Япония
- Корея
- Индия, Тибет, Монголия
- Индокитай
-----------------------------
Общее
-----------------------------
- Общий раздел
=> Технический раздел
- Интеллектуальные игры Востока
- События
- Коммерция, ссылки и поиск
«
Предыдущая тема
|
Следующая тема
»
Форум Восточного портала
» Проект
дизайн-студии Индейское лето
, 2000–2010