Описание формата словаря Мюллера, Издание 7. Под GNU GPL.

В первой строке словарного файла обозначены авторские права на словарь:

(C) V.K.Mueller English-Russian Dictionary, 7 Edition;

"State Publishing House of Foreign and National Dictionaries" Moscow 1961;

Free Electronic Version by S.Starostin 1996 starling.rinet.ru/download/dict.exe;

Electronic Version by E.S.Cymbalyuk 1999 under GNU GPL, ver. 1.2, see latest version on www.chat.ru/~mueller_dic or www.geocities.com/mueller_dic

Исходная электронная версия словаря Мюллера 7-ой редакции свободно доступна на странице (под названием dict.exe). Во время юридического разбирательства между фирмой "ABBYY" и издательством "Русский Язык" выяснилось, что издательство "Русский язык" имеет права только на издания после 1961 г., а до того никаких прав на ограничение его распространения ни у кого нет. Как обладатель авторского права на вышеуказанную (dict.exe) электронную версию словаря Мюллера, Сергей дал мне разрешение на его переработку. Я разрешаю использовать мое электронное представление словаря Мюллера под

в закрытых проектах пользуйтесь версией Сергея :-)

Словарь зарегистрирован в депозитарии электронных изданий НТЦ "ИНФОРМРЕГИСТР" 29 февраля 2000 г. и ему присвоен номер государственного учета 0320000030.

Во второй строке кратко описан формат словаря на английском, а в третей превод на русский (затем идут пояснения к сокращениям).

Формат словаря Каждая словарная статья представляет собой строку.

Два пробела отделяют английское слово от его перевода.

Русские буквы кодируются в koi8-r.

A stress in a Russian word is coded by a capital letter.

Транскрипция в формате IPA показывается в квадратных скобках.

Различные значения одного слова индексируются латинскими или арабскими цифрами с предшествующим подчеркиванием. Например, _I-_VII, 1.-6., 1>-34>, а>-о>.

Служебные слова начинаются с символа "_" и завершаются символом "." или ":".

Формат словаря максимально приближен к исходному (книжному) форматированию текста словаря.

Для авторов программных оболочек, в которых нужно отделять переводимое слово в словарной статье от его перевода (пояснения) введен разделитель --- два пробела подряд.
Мной введен один служебный символ --- "_" (он был выбран, так как в обычных текстах словарей он не встречается и в регулярных выражениях Unix не играет специфической роли). С этого символа начинаются все служебные слова, причем слова, обозначающие употребление в разных областях знания, русские, а грамматические служебные слова --- английские. Все служебные слова заканчиваются точкой или двоеточием. Список сокращений добавлен в начало файла словаря, после строки с авторскими правами. С символа "_" начинаются также римские цифры, обозначающие разные значения основного переводимого слова (чтобы отличить от употребления буквы "I" в предложениях и в сносках на другие слова). Словарная статья может разбиваться на подразделы цифрой с точкой и/или русской буквой со скобочкой ">" (я заменил обычную скобку ")" на ">", для более точной работы автоматического форматирования).
В исходном словаре Сергея Старостина особым образом кодировалось ударение в русских словах. Чтобы не потерять эту информацию в данной версии все русские ударные буквы превращены в заглавные. При правильно настроенной русской локали это позволит проводить поиск по русским словам без учета регистра. Доступна версия и с нормальным использованием русских букв.
Транскрипция выделятся скобочками "[" и "]". Символы транскрипции соответствуют стандарту (International Phonetic Alphabet).
Основные английские фонетические символы,
"a" from "man" --- Q, 81
"w" --- W
"a" from "past" --- A, 65
":" from a: in "past" --- 249, 0xF9
"e" from "her" --- 171, 0xAB
"e" first from diphthong in "care" --- E, 69
"o" from "wash" --- 141, 0x8D
"a" from "son" --- 195, 0xC3
"i" короткое "i" from "ink" --- I
"i" длинное "i" from "machine" --- i
"'" ударение голосом --- 200, 0xC8
"," понижение голоса --- 199, 0xC7
"k" --- H
"z" --- Z, 90
"ng" --- N, 78
"sh" --- S, 83
"th" с голосом --- D, 68
"th" без голоса --- T, 84
Большинство маленьких английских букв не изменили своего положения. Главная неприятность в использовании IPA
стандарта --- нельзя сделать один фонт содержащий и русские и английские буквы и фонетические символы (разве только UNICODE). К тому же на месте "-", "(", ")" находятся другие символы и для нормальной работы их приходится удалять (хотя в обычных бумажных словарях они используются вперемешку с символами транскрипции).
Словарь (версия 1.2) вместе с файлом хешей можно скачать в виде tar.gz архива. Тот же словарь с ударениями в русских словах можно найти здесь. Каждый пакет занимает по 2.6 Mb.
--- программа на C для перекодировки словаря в другие русские кодировки (с сохранением транскрипции в Sil-IPA).
Все вопросы, замечания и предложения присылайте Евгению Цымбалюку на mueller_dic@koi.chat.ru

Содержание раздела