Добро пожаловать, Гость. Пожалуйста, выберите:
Вход
||
Регистрация
.
—
—
28.04.24 в 22:53:50
Форум Восточного портала
«скрипт "SatTools"»
Форум Восточного портала
Общее
Технический раздел
скрипт "SatTools"
«
Предыдущая тема
|
Следующая тема
»
Страницы:
1
2
Автор
Тема: скрипт "SatTools" (прочитана 6799 раз, 58 ответов)
Lunatic
Новичок
Сообщений: 21
Карма: 0
Re: скрипт "SatTools"
Ответ #50 написан: 29.04.04 в 16:14:39
29.04.04 в 09:12:04,
Сат Абхава писал(а)
:
...В задачи скрипта входит конвертация нормативного пиньинь в послоговое представление в цифро-пиньинь, например:
túshūguăn
—
tu2 shu1 guan3
, для дальнейшего индексирования слова по чтениям и порядку следования составляющих его лексем-иероглифов. Именно в связи с этим мне показалось рациональнее выделять эризацию в нулевую лексему (чтобы сохранить системность в представлении иероглифического состава слова), например:
xiăoháir
—
xiao3 hai2 r5
.
Вот это очччччень интересно! Дело в том, что такой скрипт представляет исключительный интерес для составителей словарей! Ведь правильно рассортировать слова по пиньиню, на самом деле, задача не такая уж и тривиальная!
Единственное, от чего хочу Вас предостеречь: конвертировать
xiăoháir
лучше не в
xiao3 hai2 r5
, а в
xiao3hai2r5
! Расставить пробелы легко, а вот правильно склеить слова назад будет впоследствии довольно сложно, напр., "eluosi lianbang" не равно "e luo si lian bang". Впрочем, в своем следующем постинге Вы лишние пробелы не ставите, так что, полагаю, это просто был пример, а скрипт этого делать не будет.
А вот эризацию выделять в отдельный слог не советую. Во-первых, при гипотетической попытке обратного конвертирования пиньиня в иероглифику вылезет еще и иероглиф 儿 (пардон, 兒!), которого в оригинале может и не быть. Во-вторых, на сегодняшний день никто так не пишет — kong4 r5. Все напишут kongr4, а значит, в конвертирующем цифры в диакритику скрипте Вам придется учитывать и общепринятый варинат, и свой собственный. Что касается сортировки, то эризацию можно вообще не учитывать (т.е. kong4 = kongr4).
P.S.: Повторюсь: терпеть не могу эризацию! Столько проблем сразу возникает!
0
Зарегистрирован
Сат Абхава
Эксперт
Сообщений: 1817
Карма: 25
Тайбэй
Всё в моих речах может оказаться ошибкой!
Re: скрипт "SatTools"
Ответ #51 написан: 29.04.04 в 20:03:28
29.04.04 в 16:14:39,
Lunatic писал(а)
:
Вот это очччччень интересно! Дело в том, что такой скрипт представляет исключительный интерес для составителей словарей! Ведь правильно рассортировать слова по пиньиню, на самом деле, задача не такая уж и тривиальная!
Не знаю, правильно ли мы друг друга поняли. О какой сортировке Вы ведете речь? Я имею в виду простую разбивку слитно написанного пиньинь с диакритиками на отдельные слоги. Пока в моей работе задача стоит таким образом. Может, в ней есть еще какое далеко идущее развитие, но я с необходимостью в нем пока не столкнулся...
Единственное, от чего хочу Вас предостеречь: конвертировать
xiăoháir
лучше не в
xiao3 hai2 r5
, а в
xiao3hai2r5
! Расставить пробелы легко, а вот правильно склеить слова назад будет впоследствии довольно сложно, напр., "eluosi lianbang" не равно "e luo si lian bang".
По-моему, это легко решаемо. Достаточно лишь к изначально имеющимся пробелам между словами добавить еще один пробел — получим по два пробела между словами. Почему я пока придерживаюсь идеи отделения слогов внутри слова пробелом? Так, на мой взгляд, мы получаем некоторые удобства для разбивки строки сначала на слова (два пробела как разделитель), а затем на отдельные иероглифы внутри слова (один пробел как разделитель). А делить такую строку как
xiao3hai2r5
на слоги (без общего знака-"делителя") уже становится сложнее.
А вот эризацию выделять в отдельный слог не советую. Во-первых, при гипотетической попытке обратного конвертирования пиньиня в иероглифику вылезет еще и иероглиф 儿 (пардон, 兒!), которого в оригинале может и не быть.
Но если 兒 нет в слове, то этого r не должно быть и в пиньине...
Во-вторых, на сегодняшний день никто так не пишет — kong4 r5. Все напишут kongr4, а значит, в конвертирующем цифры в диакритику скрипте Вам придется учитывать и общепринятый варинат, и свой собственный.
Я в последнем исправлении уже учел оба варианта...
Что касается сортировки, то эризацию можно вообще не учитывать (т.е. kong4 = kongr4).
Видимо, мы все-таки говорим о разных видах сортировки. В мою задачу сейчас входит следующее. Допустим есть словарь, в котором словарная статья выглядит таким образом:
圖書館
túshūguǎn
словарная статья...
Скрипт берет иероглифическое значение —
圖書館
и транскрипцию пиньинь —
túshūguǎn
— и производит в своих "мозгах" следующие операции:
1. разбивает иероглифическое значение по отдельным иероглифам —
圖 書 館
и определяет их юникодовые значения — 22294 26360 39208;
2. переводит пиньинь в цифропиньинь и делит его на отдельные слоги:
túshūguǎn
— tu2 shu1 guan3
3. выдает на выходе статью словаря-индекса, сформированную примерно таким образом (например, под формат поисковых возможностей Лингво):
圖書館
1. char-3 (т.е. три иероглифа в слове)
2. u22294 u26360 u39208 (т.е. какие иероглифы в слове, такое представление нужно при работе с программами, которые не производят поиска по иероглифическому тексту, например, с Лингво )
3. 1-u22294 2-u26360 3-u39208 (т.е. порядок следования иероглифов в слове)
4. tu2 shu1 guan3 (т.е. чтения иероглифов в слове)
5. 1-tu2 2-shu1 3-guan3 (т.е. порядок следования иероглифов по их чтению)
6. может что еще взбредет в мою больную фантазию...
Создав такой словарь-индекс по всем словарным статьям, мы получаем достаточно гибкую возможность поиска даже в такой "неповоротливой" (с китайской точки зрения) программой, как Лингво.
Например, нужно найти все слова, в которых присутствует иероглиф
書
, — составляем запрос:
u26360
Нужно конкретизировать, чтобы поиск производился только в словах, состоящих из трех иероглифов, — пожалуйста:
char-3 u26360
Еще более конкретизируем — 3 иероглифа в слове, второй из которых
書
:
char-3 2-u26360
Или еще конкретнее — 3 иероглифа в слове, второй из которых
書
, а последний имеет чтение guan3:
char-3 2-u26360 3-guan3
И т.д. и т.п.
С Лингво все работает, как часы, я уже создал пробный файлик, да и скрипт по созданию индекса уже давно написан, но писал я его под свое форматирование строки словаря (на примере БКРС), а творческая группа по переводу БКРС в электронный вид пошла другой дорогой. Вот и приходится мне перестраиваться...
0
Зарегистрирован
Сат Абхава
Эксперт
Сообщений: 1817
Карма: 25
Тайбэй
Всё в моих речах может оказаться ошибкой!
Re: скрипт "SatTools"
Ответ #52 написан: 29.04.04 в 20:07:26
P.S.: Повторюсь: терпеть не могу эризацию! Столько проблем сразу возникает!
Я тоже не отношусь к большим любителям эризации. Звучит, правда, "сочно", но норма гоюй вполне демонстрирует, что эризация в китайском языке — явление избыточное...
0
Зарегистрирован
yazyk_wallst_ru
Начинающий
Сообщений: 79
Карма: 0
Москва
Я люблю форум Восточного портала!
Re: скрипт "SatTools" Спасибо + неск воп
Ответ #53 написан: 19.09.04 в 17:19:46
Внимательно помострел все постинги по данной теме, все, что было, скачал; по поводу конвертации в диакритический пиньинь — доволен неимоверно, поскольку лично набрал страниц 900 текста с пиньинь-шрифтом, подаренным мне Игорем Васильевичем Кочергиным, совершенно замечательным, удобным и остроумным, но не автоматизированным. Так что теперь решилась одна из моих проблем при наборе книг — ведь вводится при помощи скрипта обычный юникод-таймс, я думаю Вам будут благодарны все пишущие, в том числе и Ваш покорный слуга --- огромное спасибо Сат Абхаве.
Позвольте задать несколько дилетантских вопросов:
1. издательство поставилро мне категоричное условие — отказаться от TwinBridge, поскольку он "не выводится на пленки", и все что в TwinBridge, перевести в читабельный вариант.
Понимаю, что вопрос банален, но теперь встает проблема конвертации нескольких сотен страниц текста уже новой книги в в формат unicode.
Придуманы ли уже такие скрипты или программы, которые позволяют это сделать? Возможно есть какая-либо новая версия TwinBridge, позволяющая так сделать?
2. Какая из версий русского или английского Page Maker'a оптимально работает со смешанным русско-иероглифическим (unicode) текстом?
0
Зарегистрирован
Сат Абхава
Эксперт
Сообщений: 1817
Карма: 25
Тайбэй
Всё в моих речах может оказаться ошибкой!
Re: скрипт "SatTools" Спасибо + неск воп
Ответ #54 написан: 19.09.04 в 18:44:12
19.09.04 в 17:19:46,
yazyk_wallst_ru писал(а)
:
Внимательно помострел все постинги по данной теме, все, что было, скачал; по поводу конвертации в диакритический пиньинь — доволен неимоверно, поскольку лично набрал страниц 900 текста с пиньинь-шрифтом, подаренным мне Игорем Васильевичем Кочергиным, совершенно замечательным, удобным и остроумным, но не автоматизированным. Так что теперь решилась одна из моих проблем при наборе книг — ведь вводится при помощи скрипта обычный юникод-таймс, я думаю Вам будут благодарны все пишущие, в том числе и Ваш покорный слуга --- огромное спасибо Сат Абхаве.
Спасибо на добром слове. Писал я этот скрипт под себя. Как я понимаю, не я один сталкиваюсь с этими проблемами. Пользуйтесь на здоровье.
1. издательство поставилро мне категоричное условие — отказаться от TwinBridge, поскольку он "не выводится на пленки", и все что в TwinBridge, перевести в читабельный вариант.
Понимаю, что вопрос банален, но теперь встает проблема конвертации нескольких сотен страниц текста уже новой книги в в формат unicode.
Придуманы ли уже такие скрипты или программы, которые позволяют это сделать? Возможно есть какая-либо новая версия TwinBridge, позволяющая так сделать?
К сожалению, ничего не могу Вам подсказать. Любовь к разного рода "китаизаторам" у меня не сложилась с самого "детства". Потому и опыта работы на них нет никакого.
2. Какая из версий русского или английского Page Maker'a оптимально работает со смешанным русско-иероглифическим (unicode) текстом?
Тоже не смогу ответить на Ваш вопрос. Не работал ни с той ни с другой. Но могу дать совет. На форуме Полушария есть прекрасные специалисты, которые на все Ваши вопросы смогут ответить и посоветовать решение. Обратитесь в раздел "Китайский язык. Компьютеры"...
0
Зарегистрирован
yazyk_wallst_ru
Начинающий
Сообщений: 79
Карма: 0
Москва
Я люблю форум Восточного портала!
Re: скрипт "SatTools"
Ответ #55 написан: 19.09.04 в 19:45:56
В любом случае спасибо. Заслуживают огоромного уважения те, кто системно и целенаправленно работает над воплощением возникающих / поставленных задач.
Уважаемый Сат, если у Вас есть время, можете заглянуть на новую (в процессе тестирования и обкатки) версию сайта "Мир языка" по адресу
[ ссылки доступны для участников. реклама на форуме платная ]
Буду очень признателен за замечания.
0
Зарегистрирован
Сат Абхава
Эксперт
Сообщений: 1817
Карма: 25
Тайбэй
Всё в моих речах может оказаться ошибкой!
Re: скрипт "SatTools"
Ответ #56 написан: 19.09.04 в 21:20:10
19.09.04 в 19:45:56,
yazyk_wallst_ru писал(а)
:
Уважаемый Сат, если у Вас есть время, можете заглянуть на новую (в процессе тестирования и обкатки) версию сайта "Мир языка" по адресу
[ ссылки доступны для участников. реклама на форуме платная ]
Буду очень признателен за замечания.
Заглянул. Понравился Ваш новый дизайн. Почитал аннотацию к Вашей новой книге. Очень интересно. Непременно поищу ее при первой же оказии.
И форум у Вас на сайте заявлен (по темам) серьезный. Надеюсь, что он оживет интересными и серьезными темами из области теоретического и практического языкознания (китаистики). Сам с удовольствием принял бы в этих темах участие. Желаю Вашему начинанию всяческих благ.
0
Зарегистрирован
yazyk_wallst_ru
Начинающий
Сообщений: 79
Карма: 0
Москва
Я люблю форум Восточного портала!
Re: скрипт "SatTools"
Ответ #57 написан: 21.09.04 в 11:04:45
Спасибо за внимание к пока что сырому варианту моего сайта, куда просто перенесены старые рубрики и старый форум.
И кстати все больше и больше убеждаюсь, насколько полезны дискуссии, обсуждения и обмен предложениями на форумах типа
[ ссылки доступны для участников. реклама на форуме платная ]
или
[ ссылки доступны для участников. реклама на форуме платная ]
, поскольку китаистика во всех ее проявлениях и направлениях движется вперед темпами, совершенно непредставимыми лет 8-10 назад.
Ваш ВК
0
Зарегистрирован
Сат Абхава
Эксперт
Сообщений: 1817
Карма: 25
Тайбэй
Всё в моих речах может оказаться ошибкой!
Re: скрипт "SatTools"
Ответ #58 написан: 21.09.04 в 11:29:33
21.09.04 в 11:04:45,
yazyk_wallst_ru писал(а)
:
Спасибо за внимание к пока что сырому варианту моего сайта, куда просто перенесены старые рубрики и старый форум.
И кстати все больше и больше убеждаюсь, насколько полезны дискуссии, обсуждения и обмен предложениями на форумах типа
[ ссылки доступны для участников. реклама на форуме платная ]
или
[ ссылки доступны для участников. реклама на форуме платная ]
, поскольку китаистика во всех ее проявлениях и направлениях движется вперед темпами, совершенно непредставимыми лет 8-10 назад.
Ваш ВК
К сожалению, большинство представителей "академической науки" считают такое общение тратой своего "драгоценного времени".
Живут по-старинному, так сказать, вдали от НТП...
А жаль...
0
Зарегистрирован
Страницы:
1
2
Перейти к разделу:
-----------------------------
Интересы
-----------------------------
- Новости
- Картинки
- Манга и аниме
- Китайское языкознание
- Японское языкознание
- Корейское языкознание
- Философия и религия
- Восточная медицина
- Боевые искусства
- Древние традиции
- Древние традиции. Альманах
- Искусство
- Восточная кухня
- Бизнес в Китае
- Психология
-----------------------------
Страны
-----------------------------
- Китай
- Япония
- Корея
- Индия, Тибет, Монголия
- Индокитай
-----------------------------
Общее
-----------------------------
- Общий раздел
=> Технический раздел
- Интеллектуальные игры Востока
- События
- Коммерция, ссылки и поиск
«
Предыдущая тема
|
Следующая тема
»
Форум Восточного портала
» Проект
дизайн-студии Индейское лето
, 2000–2010