Описание формата словаря Мюллера, Издание 7. Под GNU GPL.
В первой строке словарного файла обозначены авторские права на словарь:
Исходная электронная версия словаря Мюллера 7-ой редакции свободно доступна на странице (под названием dict.exe). Во время юридического разбирательства между фирмой "ABBYY" и издательством "Русский Язык" выяснилось, что издательство "Русский язык" имеет права только на издания после 1961 г., а до того никаких прав на ограничение его распространения ни у кого нет. Как обладатель авторского права на вышеуказанную (dict.exe) электронную версию словаря Мюллера, Сергей дал мне разрешение на его переработку. Я разрешаю использовать мое электронное представление словаря Мюллера под
в закрытых проектах пользуйтесь версией Сергея :-)
Словарь зарегистрирован в депозитарии электронных изданий НТЦ "ИНФОРМРЕГИСТР" 29 февраля 2000 г. и ему присвоен номер государственного учета 0320000030.
Во второй строке кратко описан формат словаря на английском, а в третей превод на русский (затем идут пояснения к сокращениям).
Формат словаря максимально приближен к исходному (книжному) форматированию текста словаря.
Для авторов программных оболочек, в которых нужно отделять переводимое слово в словарной статье от его перевода (пояснения) введен разделитель --- два пробела подряд.
Мной введен один служебный символ --- "_" (он был выбран, так как в обычных текстах словарей он не встречается и в регулярных выражениях Unix не играет специфической роли). С этого символа начинаются все служебные слова, причем слова, обозначающие употребление в разных областях знания, русские, а грамматические служебные слова --- английские. Все служебные слова заканчиваются точкой или двоеточием. Список сокращений добавлен в начало файла словаря, после строки с авторскими правами. С символа "_" начинаются также римские цифры, обозначающие разные значения основного переводимого слова (чтобы отличить от употребления буквы "I" в предложениях и в сносках на другие слова). Словарная статья может разбиваться на подразделы цифрой с точкой и/или русской буквой со скобочкой ">" (я заменил обычную скобку ")" на ">", для более точной работы автоматического форматирования).
В исходном словаре Сергея Старостина особым образом кодировалось ударение в русских словах. Чтобы не потерять эту информацию в данной версии все русские ударные буквы превращены в заглавные. При правильно настроенной русской локали это позволит проводить поиск по русским словам без учета регистра. Доступна версия и с нормальным использованием русских букв.
Транскрипция выделятся скобочками "[" и "]". Символы транскрипции соответствуют стандарту (International Phonetic Alphabet).
Основные английские фонетические символы,
"a" from "man" --- Q, 81
"w" --- W
"a" from "past" --- A, 65
":" from a: in "past" --- 249, 0xF9
"e" from "her" --- 171, 0xAB
"e" first from diphthong in "care" --- E, 69
"o" from "wash" --- 141, 0x8D
"a" from "son" --- 195, 0xC3
"i" короткое "i" from "ink" --- I
"i" длинное "i" from "machine" --- i
"'" ударение голосом --- 200, 0xC8
"," понижение голоса --- 199, 0xC7
"k" --- H
"z" --- Z, 90
"ng" --- N, 78
"sh" --- S, 83
"th" с голосом --- D, 68
"th" без голоса --- T, 84
Большинство маленьких английских букв не изменили своего положения. Главная неприятность в использовании IPA
стандарта --- нельзя сделать один фонт содержащий и русские и английские буквы и фонетические символы (разве только UNICODE). К тому же на месте "-", "(", ")" находятся другие символы и для нормальной работы их приходится удалять (хотя в обычных бумажных словарях они используются вперемешку с символами транскрипции).
Словарь (версия 1.2) вместе с файлом хешей можно скачать в виде tar.gz архива. Тот же словарь с ударениями в русских словах можно найти здесь. Каждый пакет занимает по 2.6 Mb.
--- программа на C для перекодировки словаря в другие русские кодировки (с сохранением транскрипции в Sil-IPA).
Все вопросы, замечания и предложения присылайте Евгению Цымбалюку на mueller_dic@koi.chat.ru