Welcome to eComStation.RU site!

Select your language: Russian English Deutch Spanish Italian Portuguese Czech Polish French

Frequently asked questions and answers:

eComStation.RU

ru · en · de · es · it · pt · cz · pl · fr
eComStation - это совершенно другая операционная система для PC (IBM OS/2 Warp)
Программы, новости, статьи, поддержка пользователей, оборудование, вопросы и ответы.
 
      Что такое OS/2?НовостиУстановкаОбновлениеПрименениеБудущееСообществоКупить    
(Карта сайта)

 
 
Списки протестированного OS/2 оборудования
Как получить драйверы OS/2 бесплатно

 
Обновление

 
Программы

 
(Санкт-Петербург)

 
Преимущества (1)

 
Разработчику (1)

 
(Пайпы программ)

 
Компании: (1)

 
История (1):

 
(Бонусы)

 
Советы:

 
(Барьеры и решения)

 
Технологии: (1)

 
(Применение в науке, лаборатории, ..)

 

 
Готовые решения:

 
Новая eComStation:

 
Будущее: (1)

 
(Ссылки на другие сайты)

 
(Картинка дня)

 
Артефакты OS/2

 
Гаджеты

 

JDic/2 - японский словарь для eComStation (OS/2)


TITLE: JDic/2 - японский словарь для eComStation (OS/2)

DATE: 2009-09-17 00:57:15

AUTHOR: Konstantin Kozlov

Введение

В последнее время операционная система eComStation бурно развивается. Появляются драйверы для современного железа, непрерывно пишется новое, портируется и совершенствуется существующее программное обеспечение. На данный момент для eComStation существует новые мультимедиа и офисные программы, средства разработки, программы для Интернета, игры.

Одно из слабых мест в программном обеспечении - словари языков со специфической письменностью (иероглифической, арабской). Для eComStation существует несколько словарей: PmDict, Slovo, DC User Pack. Однако, универсальные словари не подходят для таких языков, в особенности для японского, в котором существует две письменности (иероглифическая и фонетическая). Существует потребность в полноценном словаре японского языка.

За основу был взят Jdic - англо-японский и японо-английский словарь, разработанный более десяти лет назад Джеймсом Уильямом Брином для операционной системы DOS. Данный словарь отвечал практически всем требованиям, предъявляемым к словарю японского языка, но в связи с тем, что не обновлялся уже много лет, морально устарел. Было принято решение создать версию этого словаря, отвечающую современным требованиям к интерфейсу, написанную под современную операционную систему, с добавлением новых возможностей, которых не хватало в Jdic.

Jdic выбран за основу, поскольку использует в качестве словарной базы EDICT, который регулярно обновляется и является основой для словарных баз большинства словарей японского языка. Последнюю версию EDICT, а также ENAMDICT (словаря японских имен) всегда можно скачать с сервера http://monash.edu.au/pub/nihongo

Основные возможности JDic/2

  • средство для ввода текста каной (IME)
  • средство для поиска кандзи различными способами
  • возможность искать текст на японском и других языках (осушествлять поиск в обоих направлениях)
  • возможность подключать неограниченное число словарей
  • возможность осуществлять поиск как во всех доступных словарях, так и выборочно выводить результаты поиска в удобном для восприятия виде.

Немного теории (особенности японского языка)

Особенности письма

Японская система письма сформировалась на основе китайской, и ее образуют два набора знаков:

  • иероглифы, или кандзи (словесные знаки, каждый из которых соответствует целому слову или его значащей части)
  • и кана, (слоговые знаки, каждый из которых передает тот или иной слог японской речи).

В настоящее время в Японии используется около 5000 кандзи, 1942 из них входят в рекомендованный правительством перечень для повседневного использования. Остальные практически встречаются только в старинных названиях и древних фамилиях. Кана насчитывает около 100 разных знаков и состоит из двух наборов: хираганы и катаканы, иероглифы же, как и слова в любом языке, исчисляются многими тысячами.

Обычно, кандзи записывают корни слов, хираганой - окончания, союзы и постфиксы, катаканой - заимствованные слова и междометия. Допускается заменять кандзи хираганой (так пишут дети и не очень грамотные люди). Также редкие кандзи часто заменяют более известными, если у них совпадает произношение (среди кандзи множество омонимов).

А теперь, чуть подробнее про кану.

Как уже писалось выше, кана состоит из двух наборов (хираганы и катаканы) по 46 символов в каждом. Каждый символ (за исключением гласных и одного исключения) обозначает не букву, а слог - то есть сочетание согласного и гласного звуков. Просто символов, обозначающих согласные буквы, в катакане нет. Каждый слог имеет свое собственное произношение, которое никогда не меняется, независимо от положения слога в слове или стоящих рядом слогов, что очень удобно для запоминания. Правда, есть составные звуки, состоящие из нескольких слогов, но они тоже всегда произносятся одинаково.

Весь набор звуков основывается на "мягких" согласных (т, к, с, х). Их "твердые" аналоги получаются прибавлением к оригиналу двух черточек (нигори) в правом верхнем углу значка.

Хирагану используют в основном для записи окончаний, союзов и постфиксов. Корни слов пишутся кандзи (иероглифами). Как уже говорилось выше, допускается заменять кандзи на хирагану, но это считается не очень грамотным (в основном так делают дети, когда учатся писать). Иногда кандзи заменяют катаканой, когда требуется выделить или как-то подчеркнуть слово.

В принципе, учить хирагану стоит только в том случае, если вы собрались изучать японский язык. Ведь в основном она используется для записи произношения японских слов. Прочитать такую запись легко, но чтобы понять ее - надо знать язык.

Катакану используют в основном для записи заимствованных слов и междометий. Под заимствованными словами понимаются все иноязычные слова, имена и названия. Изучив катакану, вы сможете прочитать большинство вывесок на магазинах, меню в ресторанах, имена персонажей, интернет-странички и надписи на японских дисках. Фактически, в большинстве случаев катаканой записываются английские (реже французские, немецкие и др. заимствованные) слова, то есть получается что-то вроде записи русских слов транслитом, а потому при достаточном знании английского языка вы будете понимать, о чем идет речь.

Собственно, программа

1. Формат EDICT

EDICT - словарь японского языка, разработанный Джеймсом Уильямом Брином. Формат записей в словаре EDICT следующий:

КАНДЗИ [КАНА] /Значение_1/ Значение_2/.../

или

 
КАНА / Значение_1/.../

Не предполагается, что в файле EDICT строчки идут в определенном порядке.

Формат EDICT использует кодировку EUC-JP для каны и кандзи, однако с помощью программы конвертирования ее можно преобразовать в JIS (ISO-2022-JP) или Shift-JIS.

В записях нет склонения глаголов или прилагательных, кроме идиоматических выражений. Похожим образом частицы хранятся как отдельные записи. Наречия, образованные от прилагательных (-ku или ni), обычно не включаются. Глаголы присутствуют, разумеется, в простой ("словарной форме").

Начиная с редакции 2001 года около 20000 записей включают в себя наиболее часто используемые японцами в повседневной жизни слова. В конце таких записей добавлено "(P)". Этот список был составлен после изучения нескольких малых словарей и списка популярных гайраго из японских газет.

2. Jdic/2

Jdic/2 - попытка создать современный словарь японского языка для OS/2 и eComStation. Основные функции:

  • поиск японского слова или выражения по его произношению, записанному каной
  • поиск слова(выражений, содержащих это слово) на неяпонском языке и вывод их перевода на японский язык
  • поиск кандзи различными методами и вывод на экран подробной информации (вклюая значения и звучание)

Улучшения по сравнению с JDic:

  • современный графический многооконный интерфейс с поддержкой мыши, содержащий привычные элементы управления
  • поддержка национальных символов (возможность использовать словари, содержащие не ASCII символы)
  • возможность подключать неограниченное число словарей
  • возможность искать как в одном, так и сразу в нескольких словарях
  • поддержка TrueType шрифтов
  • улучшена производительность
  • словарь не забирает в единоличное использование файлы данных, с которыми работает, а обращается к ним при необходимости

Jdic/2 содержит 6355 кандзи в кодировке JIS X 0208-1990 и 5801 дополнительных кандзи в кодировке JIS X 0212-1990.

Основными источниками данных для Jdic/2 служат словари японского языка в формате EDICT и словарь кандзи. Файл EDICT регулярно обновляется и новую версию всегда можно скачать с сервера http://monash.edu.au/pub/nihongo.

Все японские слова в Jdic/2 отображаются в виде каны или кандзи, поэтому, словарь не предназначен для людей, не знающих хотя бы хирагану и катакану. Не планируется добавление в словарь возможности работы с романизированной или кирилизованной записью японских слов.

 

Системные требования:

  • IBM PC-совместимый компьютер
  • 64 мегабайта оперативной памяти
  • VGA-совместимая видео карта

Программные требования:

  • операционная система OS/2 Warp 3.0 и выше или eComStation.

На данный момент настройки программы хранятся в файле Jdic.rc (текстовый файл). В будущих версиях планируется перенести их в файлы INI OS/2 (бинарный формат) и использовать графический интерфейс для настойки программы.

Для быстрого поиска методом половинного деления, используются индексные файлы. Эти файлы содержат упорядоченный массив указателей на записи. Индексирование осуществляется утилитой indexgen.exe.

Для того, чтобы проиндексировать файл со словарной базой (словарь), запустите Indexgen.exe, передав ему в качестве параметра имя файла. Результатом индексирования станут два файла. Один - имеющий расширение .kdx и содержащий индексы для японских слов и другой - с расширением .adx и индексами для неяпонских слов.

Оригинальный JDic предназначен для перевода с японского языка на английский и наоборот. В JDic/2 добавлена поддержка национальных символов (различных кодировок). Поэтому можно переводить с японского на любой другой язык.

В данном комплекте также есть словарная база для русского языка.

В ранних версиях EDICT была ограничена длина записи из-за его использования его в японском текстовом процессоре MOKE (Mark's Own Kanji Editor), который целиком хранил индексный файл в оперативной памяти. Из-за этого ограничения перевод был кратким, и не приводились примеры использования фраз и выражений. В JDic теперь нет этого ограничения, но составители EDICT традиционно придерживаются краткости в переводе.

3. Работа с программой

После запуска программы на экране появляется основное окно JDic/2. Оно состоит из дисплея для отображения результатов поиска слов или их сочетаний на японском и неяпонском языках и строки вода. Под строкой ввода есть подпись, которая указывает на то, какой режим ввода выбран в данный момент.

Чтобы найти слово, нужно набрать его в строке поиска и нажать клавишу Enter. Существует несколько режимов ввода.

  • Direct - режим прямого ввода, предназначен для поиска слов на неяпонском языке. В этом режиме можно ввести любое слово, которое позволяет ввести операционная система.
  • Hiragana и Katakana - режим поиска японских слов. В этом режиме японские слова следует вводить латиницей, используя либо кунрей (государственную латиницу), либо систему романизации Хэббёрна. Введенный текст будет преобразован в кану.

Режимы ввода можно выбрать из меню или используя клавишу F3.

Для поиска кандзи нужно выбрать из меню желаемый способ поиска или нажать соответствующую горячую клавишу. В этих режимах ввода можно найти кандзи по индексу. На данный момент поддерживается поиск по индексам Halpern, Nelson, Bushu и JIS.

Часть индексов однозначно определяет кандзи, другая часть - неоднозначно. Так, для каждого индекса Halpern сущетствует только один иероглиф. То же самое и для индексов Nelson и JIS. Но, одному индексу Bushu может соответствовать сразу несколько кандзи.

Чтобы выбрать кандзи по индексам Halpern, Nelson или JIS, достаточно выбрать соответствующий режим ввода и ввести индескс - набор цифр (и букв, в случае индекса JIS).

Индекс Bushu - это радикал.

Радикал (ключ) - это часть иероглифа, относящая иероглиф к какому-либо разряду по значению (изначально, позже новодельные иероглифы приписывались к ключам с условной привязкой к смыслу). Например, в знаке ??? (ай, любовь) радикал - ??? (кокоро, душа/сердце), то есть он указывает на принадлежность к группе знаков мыслительной деятельности, чувств и так далее.

Ключи делятся по месторасположению в иероглифе. Они могут быть слева, справа, охватывающие, вписанные внутрь иероглифа (как "сердце" в вышеприведенном знаке "любовь"), сверху, снизу иероглифа. То есть практически в любом месте. Есть более и менее частые расположения, более и менее часто встречающиеся ключи.

Таблица ключей - сводная таблица имеющихся ключей. Самая распространенная - из 214 знаков, плюс-минус старые полные формы написания. У каждого ключа в таблице есть свой номер.

Для поиска кандзи по индексу Bushu необходимо ввести номер радикала. После нажатия клавиши Enter на экран выведется список кандзи, составной частью которых является этот радикал и он сам. Под каждым иероглифом есть подпись - его SJIS - код. Далее следует ввести SJIS - код искомой кандзи, чтобы узнать полную информацию о ней.

4. Пример использования словаря

4.1 Перевод русского слова на японский язык

Найдем перевод на японский язык слова "луна". В JDic/2 нужно выбрать режим ввода Direct. Затем ввести слово в строку поиска (рис.4.1) и нажать клавишу Enter.

На экран буден выведен перевод самого слова, а также словосочетаний, в которых оно встречается.

4.2 Перевод японского слова на русский язык

Найдем перевод на русский язык японского слова "kodomo". Для этого в качестве режима вводы выберем режим Hiragana (Katakana) и в строку поиска запишем искомое слово. После нажатия клавиши Enter на экране появится слово и все словосочетания, в которых оно встречается.


Скриншот 1: Ввод слова на русском языке



Скриншот 3: ввод японского слова в режиме Hiragana


Скриншот 4: Результат поиска перевода японского слова

4.3 Поиск кандзи по индексам Халперна, Нельсона и коду JIS

Выведем на экран информацию о кандзи "восток" по индексу Халперна (Нельсона или по JIS - коду). JIS кандзи "восток" - 4b4c, индекс Халперна - 197, Нельсона- 751. В меню нужно выбрать режим поиска кандзи JIS, Halpern или Nelson соответственно. В строке поиска запишем индекс, соответствующий режиму ввода (рис 4.5).


Скриншот 5: поиск кандзи по индексу Халперна

Результатом поиска станет вывод всей информации о кандзи в отдельном окне.


Скриншот 6: Результат поиска кандзи по индексу Халперна

4.4 Поиск кандзи по индексу Bushu (по номеру радикала)

Найдем кандзи по индексу Bushu. После выбора режима ввода Bushu введем, например, число "9". После нажатия клавиши Enter режим ввода сменится на JIS, а на экране появится список кандзи, основой которых служит девятый радикал.


Скриншот 7: Список кандзи, основой которых служит девятый радикал

Под кандзи написаны их код JIS (верхнее число) и число составляющих их штрихов (нижнее число). Из предложенного списка нужно выбрать кандзи и ввести ее JIS-код в строку поиска (возьмем кандзи с JIS-кодом "503а"). После в отдельном окне выводится информация о кандзи.


Скриншот 8: Полная информация о кандзи

4.5 Поиск кандзи по радикалу

Найдем кандзи по радикалу. После выбора в меню опции Radical List или нажатия клавиши F5, на экране появится список радикалов (под радикалами - число составляющих их штрихов). Режим ввода меняется на Bushu.


Скриншот 9: Список радикалов

После этого можно ввести индекс Bushu и осуществить поиск по нему.

Что дальше?

В заключении хотелось бы подчеркнуть, что Jdic/2 на данный момент является незавершённым проектом, в котором ещё многое предстоит дорабатывать. В основном, это избавление от рудиментов версии для DOS: текстовый файл конфигурации, слабая поддержка мыши.

Также планируется добавить возможность автоматически обновлять словари через интернет (EDICT обновляется несколько раз в неделю, ENAMDICT - чуть реже, встроить утилиту для индексирования словаря в основную программу (сейчас это отдельное текстовое приложение), сделать возможность добавлять в строку поиска кандзи и многое другое!

Попробуй программу:

Как ускорить чтение/запись на USB флэшку? Советы -> Q7

Комментарии:

Mentore Siesto
2009-09-21 11:06:51

Where can I find this program (sorry I can't read Russian)? I'm fond of Japanese language and can't wait to use something on OS/2 - eCS!

Eugene Gorbunoff
2009-09-21 12:39:52

New site is under construction: eComStation Babylon - Multilanguage world of eComStation - how to setup eCS, tools, tricks & tips

[url]

Забыла
2009-12-30 20:49:48

ого..а чё эт такое???

Саи
2010-01-03 22:44:49

COOL))

Прокомментируйте эту статью (напоминаем, автор работал над текстом несколько недель, уважайте мнение других).


Ваше имя:

Ваш E-Mail:

CODE:
......

  

Ваш комментарий:


Для eComStation 2.0 были созданы виджеты (индикаторы разной информации) + новые элементы управления. Пользоваться системой стало еще удобнее. Что нового в eCS 2.0?

Статьи

Операционная система
Программное обеспечение
Оборудование
Для разработчика
Разное
Колонка редактора


Готовая eComStation на SSD диске

 

Самая комментируемая новость за неделю: ArcaOS 5.01 еще две недели





Последний активный опрос: Какая высота барьера RPM?

Самая комментируемая новость за месяц: ArcaOS 5.01 еще две недели

IBM OS/2 Warp

 
Обучение новичков

Отчет: OS/2 совместимое оборудование

 
Статьи


   
  Почему eComStation?
Возможности
Особенности
Применение
Ролики и скриншоты
   eComStation для
для бизнесменов
для студентов и инженеров
для продавцов компьютеров
сообщество пользователей
   Разработчик
Распространить программу
Описание API, библиотеки
Начать новый проект
Конкурсы
   Программы
Он-лайн каталог
Выбрать через eCo Market
   Служба поддержки
Отправить вопрос
Купить eComStation
Вопросы и ответы
Обучение новичков
 
 
© 2001 - 2014 eCo Software, All rights reserved
eComStation is a registered trademark of Serenity Systems International
OS/2 Warp is a registered trademark of IBM Corporation
 

 

 
Картинка дня: