Восточный портал [oriental.ru]

Главная
Рейтинг
Форум
Книги
Новости

Тексты
Изображения
Разное



Добро пожаловать, Гость. Пожалуйста, выберите: Вход || Регистрация.               28.04.24 в 22:53:50

Главная Правила Поиск Участники Карта Вход Регистрация
Форум Восточного портала «скрипт "SatTools"»
дизайн студия, логотипы, дизайнерские визитки, экслибрисы, фирменный стиль, иллюстрации, каллиграфия реклама на Восточном портале реклама на Восточном портале реклама на Восточном портале
   Форум Восточного портала
   Общее
   Технический раздел

   скрипт "SatTools"
« Предыдущая тема | Следующая тема »
Страницы: 12
Ответить Послать тему Печатать
   Автор  Тема: скрипт "SatTools"  (прочитана 6799 раз, 58 ответов)

Lunatic
Новичок
не определено *
Сообщений: 21
Карма: 0
Russia 
   


Re: скрипт "SatTools"
Ответ #50 написан: 29.04.04 в 16:14:39
ЦитироватьПравить

29.04.04 в 09:12:04, Сат Абхава писал(а):
...В задачи скрипта входит конвертация нормативного пиньинь в послоговое представление в цифро-пиньинь, например: túshūguăntu2 shu1 guan3, для дальнейшего индексирования слова по чтениям и порядку следования составляющих его лексем-иероглифов. Именно в связи с этим мне показалось рациональнее выделять эризацию в нулевую лексему (чтобы сохранить системность в представлении иероглифического состава слова), например: xiăoháirxiao3 hai2 r5.

Вот это очччччень интересно! Дело в том, что такой скрипт представляет исключительный интерес для составителей словарей! Ведь правильно рассортировать слова по пиньиню, на самом деле, задача не такая уж и тривиальная!
 
Единственное, от чего хочу Вас предостеречь: конвертировать xiăoháir лучше не в xiao3 hai2 r5, а в xiao3hai2r5! Расставить пробелы легко, а вот правильно склеить слова назад будет впоследствии довольно сложно, напр., "eluosi lianbang" не равно "e luo si lian bang". Впрочем, в своем следующем постинге Вы лишние пробелы не ставите, так что, полагаю, это просто был пример, а скрипт этого делать не будет.
 
А вот эризацию выделять в отдельный слог не советую. Во-первых, при гипотетической попытке обратного конвертирования пиньиня в иероглифику вылезет еще и иероглиф 儿 (пардон, 兒!), которого в оригинале может и не быть. Во-вторых, на сегодняшний день никто так не пишет — kong4 r5. Все напишут kongr4, а значит, в конвертирующем цифры в диакритику скрипте Вам придется учитывать и общепринятый варинат, и свой собственный. Что касается сортировки, то эризацию можно вообще не учитывать (т.е. kong4 = kongr4).
 
P.S.: Повторюсь: терпеть не могу эризацию! Столько проблем сразу возникает! скалит зубы

0
Зарегистрирован

Сат Абхава
Эксперт
мужчина *****
Сообщений: 1817
Карма: 25
Taiwan  Тайбэй
   
Всё в моих речах может оказаться ошибкой!

Re: скрипт "SatTools"
Ответ #51 написан: 29.04.04 в 20:03:28
ЦитироватьПравить

29.04.04 в 16:14:39, Lunatic писал(а):
Вот это очччччень интересно! Дело в том, что такой скрипт представляет исключительный интерес для составителей словарей! Ведь правильно рассортировать слова по пиньиню, на самом деле, задача не такая уж и тривиальная!

 
Не знаю, правильно ли мы друг друга поняли. О какой сортировке Вы ведете речь? Я имею в виду простую разбивку слитно написанного пиньинь с диакритиками на отдельные слоги. Пока в моей работе задача стоит таким образом. Может, в ней есть еще какое далеко идущее развитие, но я с необходимостью в нем пока не столкнулся...  
 
Единственное, от чего хочу Вас предостеречь: конвертировать xiăoháir лучше не в xiao3 hai2 r5, а в xiao3hai2r5! Расставить пробелы легко, а вот правильно склеить слова назад будет впоследствии довольно сложно, напр., "eluosi lianbang" не равно "e luo si lian bang".

 
По-моему, это легко решаемо. Достаточно лишь к изначально имеющимся пробелам между словами добавить еще один пробел — получим по два пробела между словами. Почему я пока придерживаюсь идеи отделения слогов внутри слова пробелом? Так, на мой взгляд, мы получаем некоторые удобства для разбивки строки сначала на слова (два пробела как разделитель), а затем на отдельные иероглифы внутри слова (один пробел как разделитель). А делить такую строку как xiao3hai2r5 на слоги (без общего знака-"делителя") уже становится сложнее.  
 
А вот эризацию выделять в отдельный слог не советую. Во-первых, при гипотетической попытке обратного конвертирования пиньиня в иероглифику вылезет еще и иероглиф 儿 (пардон, 兒!), которого в оригинале может и не быть.

 
Но если 兒 нет в слове, то этого r не должно быть и в пиньине... улыбается
 
Во-вторых, на сегодняшний день никто так не пишет — kong4 r5. Все напишут kongr4, а значит, в конвертирующем цифры в диакритику скрипте Вам придется учитывать и общепринятый варинат, и свой собственный.

 
Я в последнем исправлении уже учел оба варианта... улыбается
 
Что касается сортировки, то эризацию можно вообще не учитывать (т.е. kong4 = kongr4).

 
Видимо, мы все-таки говорим о разных видах сортировки. В мою задачу сейчас входит следующее. Допустим есть словарь,  в котором словарная статья выглядит таким образом:
 
圖書館 túshūguǎn словарная статья...
 
Скрипт берет иероглифическое значение — 圖書館 и транскрипцию пиньинь — túshūguǎn — и производит в своих "мозгах" следующие операции:
 
1. разбивает иероглифическое значение по отдельным иероглифам — 圖 書 館 и определяет их юникодовые значения — 22294 26360 39208;
 
2. переводит пиньинь в цифропиньинь и делит его на отдельные слоги: túshūguǎn — tu2 shu1 guan3
 
3. выдает на выходе статью словаря-индекса, сформированную примерно таким образом (например, под формат поисковых возможностей Лингво):
 
圖書館
 
1. char-3 (т.е. три иероглифа в слове)
 
2. u22294 u26360 u39208 (т.е. какие иероглифы в слове, такое представление нужно при работе с программами, которые не производят поиска по иероглифическому тексту, например, с Лингво )
 
3. 1-u22294 2-u26360 3-u39208 (т.е. порядок следования иероглифов в слове)
 
4. tu2 shu1 guan3 (т.е. чтения иероглифов в слове)
 
5. 1-tu2 2-shu1 3-guan3 (т.е. порядок следования иероглифов по их чтению)
 
6. может что еще взбредет в мою больную фантазию... скалит зубы
 
Создав такой словарь-индекс по всем словарным статьям, мы получаем достаточно гибкую возможность поиска даже в такой "неповоротливой" (с китайской точки зрения) программой, как Лингво.
 
Например, нужно найти все слова, в которых присутствует иероглиф , — составляем запрос:
u26360
 
Нужно конкретизировать, чтобы поиск производился только в словах, состоящих из трех иероглифов, — пожалуйста:
char-3 u26360
 
Еще более конкретизируем — 3 иероглифа в слове, второй из которых :
char-3 2-u26360
 
Или еще конкретнее — 3 иероглифа в слове, второй из которых , а последний имеет чтение guan3:
char-3 2-u26360 3-guan3
 
И т.д. и т.п.
 
С Лингво все работает, как часы, я уже создал пробный файлик, да и скрипт по созданию индекса уже давно написан, но писал я его под свое форматирование строки словаря (на примере БКРС), а творческая группа по переводу БКРС в электронный вид пошла другой дорогой. Вот и приходится мне перестраиваться... улыбается

0
Зарегистрирован

Сат Абхава
Эксперт
мужчина *****
Сообщений: 1817
Карма: 25
Taiwan  Тайбэй
   
Всё в моих речах может оказаться ошибкой!

Re: скрипт "SatTools"
Ответ #52 написан: 29.04.04 в 20:07:26
ЦитироватьПравить

P.S.: Повторюсь: терпеть не могу эризацию! Столько проблем сразу возникает! скалит зубы

 
Я тоже не отношусь к большим любителям эризации. Звучит, правда, "сочно", но норма гоюй вполне демонстрирует, что эризация в китайском языке — явление избыточное... улыбается

0
Зарегистрирован

yazyk_wallst_ru
Начинающий
не определено **
Сообщений: 79
Карма: 0
Barbados  Москва
   
Я люблю форум Восточного портала!

Re: скрипт "SatTools" Спасибо + неск воп
Ответ #53 написан: 19.09.04 в 17:19:46
ЦитироватьПравить

Внимательно помострел все постинги по данной теме, все, что было, скачал; по поводу конвертации в диакритический пиньинь — доволен неимоверно, поскольку лично набрал страниц 900 текста с пиньинь-шрифтом, подаренным мне Игорем Васильевичем Кочергиным, совершенно замечательным, удобным и остроумным, но не автоматизированным. Так что теперь решилась одна из моих проблем при наборе книг — ведь вводится при помощи скрипта обычный юникод-таймс, я думаю Вам будут благодарны все пишущие, в том числе и Ваш покорный слуга --- огромное спасибо Сат Абхаве.
 
Позвольте задать несколько дилетантских вопросов:
 
1.  издательство поставилро мне категоричное условие — отказаться от TwinBridge, поскольку он "не выводится на пленки", и все что в TwinBridge, перевести в читабельный вариант.
Понимаю, что вопрос  банален, но теперь встает проблема конвертации нескольких сотен страниц текста уже новой книги в в формат unicode.  
Придуманы ли уже такие скрипты или программы, которые позволяют это сделать? Возможно есть какая-либо новая версия TwinBridge, позволяющая так сделать?
 
2. Какая из версий русского или английского Page Maker'a  оптимально работает со смешанным русско-иероглифическим (unicode) текстом?
 

0
Зарегистрирован

Сат Абхава
Эксперт
мужчина *****
Сообщений: 1817
Карма: 25
Taiwan  Тайбэй
   
Всё в моих речах может оказаться ошибкой!

Re: скрипт "SatTools" Спасибо + неск воп
Ответ #54 написан: 19.09.04 в 18:44:12
ЦитироватьПравить

19.09.04 в 17:19:46, yazyk_wallst_ru писал(а):
Внимательно помострел все постинги по данной теме, все, что было, скачал; по поводу конвертации в диакритический пиньинь — доволен неимоверно, поскольку лично набрал страниц 900 текста с пиньинь-шрифтом, подаренным мне Игорем Васильевичем Кочергиным, совершенно замечательным, удобным и остроумным, но не автоматизированным. Так что теперь решилась одна из моих проблем при наборе книг — ведь вводится при помощи скрипта обычный юникод-таймс, я думаю Вам будут благодарны все пишущие, в том числе и Ваш покорный слуга --- огромное спасибо Сат Абхаве.

 
Спасибо на добром слове. Писал я этот скрипт под себя. Как я понимаю, не я один сталкиваюсь с этими проблемами. Пользуйтесь на здоровье.
 
1.  издательство поставилро мне категоричное условие — отказаться от TwinBridge, поскольку он "не выводится на пленки", и все что в TwinBridge, перевести в читабельный вариант.
Понимаю, что вопрос  банален, но теперь встает проблема конвертации нескольких сотен страниц текста уже новой книги в в формат unicode.  
Придуманы ли уже такие скрипты или программы, которые позволяют это сделать? Возможно есть какая-либо новая версия TwinBridge, позволяющая так сделать?

 
К сожалению, ничего не могу Вам подсказать. Любовь к разного рода "китаизаторам" у меня не сложилась с самого "детства". Потому и опыта работы на них нет никакого.
 
2. Какая из версий русского или английского Page Maker'a  оптимально работает со смешанным русско-иероглифическим (unicode) текстом?

 
Тоже не смогу ответить на Ваш вопрос. Не работал ни с той ни с другой. Но могу дать совет. На форуме Полушария есть прекрасные специалисты, которые на все Ваши вопросы смогут ответить и посоветовать решение. Обратитесь в раздел "Китайский язык. Компьютеры"...

0
Зарегистрирован

yazyk_wallst_ru
Начинающий
не определено **
Сообщений: 79
Карма: 0
Barbados  Москва
   
Я люблю форум Восточного портала!

Re: скрипт "SatTools"
Ответ #55 написан: 19.09.04 в 19:45:56
ЦитироватьПравить

В любом случае спасибо. Заслуживают огоромного уважения те, кто  системно и целенаправленно работает над воплощением  возникающих / поставленных задач.
 
Уважаемый Сат, если  у Вас есть время, можете заглянуть на новую (в процессе тестирования и обкатки) версию сайта "Мир языка" по адресу   [ ссылки доступны для участников. реклама на форуме платная ]
Буду очень признателен за замечания.  

0
Зарегистрирован

Сат Абхава
Эксперт
мужчина *****
Сообщений: 1817
Карма: 25
Taiwan  Тайбэй
   
Всё в моих речах может оказаться ошибкой!

Re: скрипт "SatTools"
Ответ #56 написан: 19.09.04 в 21:20:10
ЦитироватьПравить

19.09.04 в 19:45:56, yazyk_wallst_ru писал(а):
Уважаемый Сат, если  у Вас есть время, можете заглянуть на новую (в процессе тестирования и обкатки) версию сайта "Мир языка" по адресу   [ ссылки доступны для участников. реклама на форуме платная ]
Буду очень признателен за замечания.

 
Заглянул. Понравился Ваш новый дизайн. Почитал аннотацию к Вашей новой книге. Очень интересно. Непременно поищу ее при первой же оказии.
 
И форум у Вас на сайте заявлен (по темам) серьезный. Надеюсь, что он оживет интересными и серьезными темами из области теоретического и практического языкознания (китаистики). Сам с удовольствием принял бы в этих темах участие. Желаю Вашему начинанию всяческих благ.  улыбается

0
Зарегистрирован

yazyk_wallst_ru
Начинающий
не определено **
Сообщений: 79
Карма: 0
Barbados  Москва
   
Я люблю форум Восточного портала!

Re: скрипт "SatTools"
Ответ #57 написан: 21.09.04 в 11:04:45
ЦитироватьПравить

Спасибо за внимание к пока что сырому варианту моего сайта, куда просто перенесены старые рубрики и старый форум.
 
И  кстати все больше и больше убеждаюсь, насколько полезны дискуссии, обсуждения и обмен предложениями на форумах типа  [ ссылки доступны для участников. реклама на форуме платная ] или [ ссылки доступны для участников. реклама на форуме платная ], поскольку китаистика во всех ее проявлениях и направлениях движется вперед темпами, совершенно непредставимыми лет 8-10 назад.
 
Ваш ВК

0
Зарегистрирован

Сат Абхава
Эксперт
мужчина *****
Сообщений: 1817
Карма: 25
Taiwan  Тайбэй
   
Всё в моих речах может оказаться ошибкой!

Re: скрипт "SatTools"
Ответ #58 написан: 21.09.04 в 11:29:33
ЦитироватьПравить

21.09.04 в 11:04:45, yazyk_wallst_ru писал(а):
Спасибо за внимание к пока что сырому варианту моего сайта, куда просто перенесены старые рубрики и старый форум.
 
И  кстати все больше и больше убеждаюсь, насколько полезны дискуссии, обсуждения и обмен предложениями на форумах типа  [ ссылки доступны для участников. реклама на форуме платная ] или [ ссылки доступны для участников. реклама на форуме платная ], поскольку китаистика во всех ее проявлениях и направлениях движется вперед темпами, совершенно непредставимыми лет 8-10 назад.
 
Ваш ВК  

 
К сожалению, большинство представителей "академической науки" считают такое общение тратой своего "драгоценного времени".  улыбается Живут по-старинному, так сказать, вдали от НТП... улыбается А жаль... улыбается

0
Зарегистрирован
Страницы: 12
Ответить Послать тему Печатать

« Предыдущая тема | Следующая тема »








   реклама на Восточном портале

   Bumali Project

   реклама на Восточном портале






















Создание, поддержка и графический дизайн Восточного портала: «Indian Summer Studio»