Компьютерная лексикография
Лексикография (от гр. lexikon — словарь, grapho — пишу) изучает теорию и практику составления различных языковых словарей.
Теоретическая лексикография изучает вопросы разработки макроструктуры и микроструктуры словаря, разработку типологии словарей, историю развития лексикографии.
Макроструктура словаря определяет отбор лексики, объём и характер словника, принципы расположения материала.
Микроструктуры словаря определяет структуру словарной статьи, типы словарных определений, соотношение разных видов информации о слове, типы языковых иллюстраций.
Практическую лексикографию можно определить как процесс составлением словарей различных типов на базе теоретических разработок.
Этапы разработки словаря:
- Разработка системы требований, касающихся назначения и круга пользователей.
- Разработка системы требований, касающихся таких параметров словаря как единицы описания, объем, структуру, вид словарной информации.
- Отбор текстов, расписывание контекстов, характеристика грамматических форм, составление предварительных словников.
- Дистрибутивный анализ текстов, тесты с носителями языка.
- Обобщение экспериментальных данных.
- Построение дефиниций на соответствующем метаязыке и их проверка в ходе новых экспериментов.
- Сбор и систематизация дополнительной информации о каждой языковой единице.
- Оформление словарных статей.
- Системный анализ и упорядочение словарных статей.
- Оформление словаря.
Типы словарей [ править ]
Рассматривая классификацию словарей следует учитывать, что разнообразие словарей объясняется сложностью самого объекта лексикографического описания — языка.
Практически нет никакой возможности дать в одном словаре всю в той или иной мере исчерпывающую информацию о языке, которая удовлетворила бы в равной степени все общество в целом и отдельные его слои и частности.
Это объясняет почему в любой национальной лексикографии реализуются десятки и сотни словарей самых разных типов.
Деление словарей на типы происходит по различным основаниям: в зависимости от цели словаря, его объема, порядка расположения в нем слов, объекта описания и т. д.
Попытки создания классификации словарей предпринимались многими лингвистами, в частности Л. В. Щербой, П. Н. Денисовым, Б. Кемадой, Я. Малкилом, Л. Згустой и др.
В лингвистике пока нет общепринятой типологии.
Можно выделить следующие типы словарей:
- переводные,
- толковые,
- диалектные,
- региональные,
- словари сленга,
- исторические,
- неологизмов,
- этимологические,
- крылатых.
Кроме этого различают словари лингвистические и нелингвистические.
В лингвистических словарях собирают и описывают лексические единицы языка.
Особый подтип лингвистических словарей составляют идеографические словари, идущие от понятия (идеи) к выражению этого понятия в слове или словосочетании.
В нелингвистических словарях лексические единицы служат лишь отправной точкой для сообщения тех или иных сведений о предметах и явлениях вне языковой действительности.
Встречаются и промежуточные разновидности словарей.
Кроме того выделяют словари «общие» и «специальные».
Примерами общих лингвистических словарей могут служить обычные толковые и переводные словари, охватывающие с той или иной степенью полноты всю лексику, бытующую в общенародном употреблении.
Специальный лингвистический словарь разрабатывает какую-то одну область лексики, иногда достаточно широкую (например, фразеологический словарь, словарь иностранных слов), иногда же довольно узкую (например, словарь личных имен, даваемых новорожденным).
Общий нелингвистический словарь — энциклопедия.
Специальный нелингвистический словарь — это специальная (отраслевая) энциклопедия (медицинская, юридическая и т. д.), краткий словарь той или иной области знания, биографический словарь деятелей той или иной страны («Who is who»).
Толковым словарем называют такой словарь, главной задачей которого является толкование значений слов (и фразеологизмов) какого-либо языка средствами самого этого языка. Толкование дается с помощью логического определения концептуального значения, посредством подбора синонимов или в форме указания на грамматическое отношение к другому слову.
В некоторых толковых словарях значения слов раскрываются с помощью рисунков.
Эмоциональные, экспрессивные и стилистические коннотации указываются посредством специальных помет («formal», «colloq» и т. П.).
Отдельные значения могут иллюстрироваться примерами — типичными сочетаниями, в которых участвует данное слово.
В толковых словарях дают также грамматическую характеристику слова, указывая с помощью специальных помет на часть речи, грамматический род имени существительного, вид глагола и т. д. В той или иной мере указывается и произношение слова (например, в русских толковых словарях — ударение), иногда сообщаются и разные другие, добавочные сведения. Обычно толковые словари являются словарями современного литературного языка. Некоторые из них носят строго нормативный характер — отбирают только факты, полностью соответствующие литературной норме, рекомендуют эти факты как единственно «правильные» и отсекают все, что хотя бы немного отклоняется в сторону просторечья (академический словарь французского языка — Dictionnaire de I’Academie Franзaise).
Для многих других толковых словарей характерно более широкое понимание литературного языка и, соответственно, включение в словарь разговорной и даже просторечной лексики (кроме лишь узко-областных, диалектных, узкопрофессиональных и сугубо арготических элементов).
Главная задача толкового словаря – истолковать значение слов и их применение в речи, отграничить правильное от неправильного, показать связь слов со стилями языка, дать читателю сведения об особенностях падежных, родовых, залоговых, видовых и иных грамматических форм слова; попутно указывается, как слова пишутся и произносятся.
Переводные словари, чаще всего они являются двуязычными (скажем, русско-английский и англо-русский), а иногда многоязычные. Данный тип словарей используется при изучения иностранные языки, при переводе текстов с одного языка на другой. В переводных словарях вместо толкования значений на том же языке даются переводы этих значений на другой язык, например, накалиться – become heated, назойливый – importunate, troublesome. В зависимости от того, предназначен ли словарь как пособие при чтении (слушании) текста на чужом языке, или как пособие при переводе с родного языка на чужой, его желательно строить по-разному. Так, русско-английский словарь для англичан может давать меньше сведений в английской части, чем их дает русско-английский словарь, предназначенный для русских. Переводный словарь должен содержать стилистические пометы.
Перевод слов всегда представляет большую трудность, т.к. объем значения слова в разных языках часто не совпадает, переносные значения в каждом языке развивается по-своему. Переводные словари могут быть двуязычными (русско-французский, англо-русский и т.п.) и многоязычными.
К общим словарям относятся словари, рассматривающие лексику под каким-либо специфическим углом зрения. Например словообразовательные (деривационные) словари, указывающие членение слов на составляющие их элементы — морфологический составе слова.
Этимологические словари (одного языка или группы родственных языков), содержащие сведения о происхождении и первоначальной мотивировке слов. Краткие этимологические словари обыкновенно ограничиваются приведением для каждого слова одной этимологии, представляющейся автору словаря наиболее вероятной. Полные словарях, как правило, приводятся соответствия в родственных языках и излагаются «контроверзы», т. е. споры ученых, касающиеся этимологии тех или иных слов, даются краткие сводки предложенных гипотез и их критическая оценка.
От этимологических словарей следует отличать исторические словари, которые, в свою очередь, представлены двумя разновидностями.
- В словарях относящихся к первой группе некоторых из них ставится цель — проследить эволюцию каждого слова и его отдельных значений на протяжении письменно засвидетельствованной истории соответствующего языка, обычно вплоть до современности.
- Ко второй разновидности исторических словарей следует отнести словари древних периодов истории соответствующего языка.
Особое место занимают диалектологические, или диалектные словари. Диалектный словарь может быть дифференциальным, т.е. содержащим только диалектную лексику, отличающуюся от общенародной, либо полным, охватывающим всю лексику, бытующую в диалектной речи — как специфическую для данного диалекта, так и совпадающую с лексикой общенародного языка.
Сравнительно новый тип словарей — частотные словари. Их задача — показать сравнительную частоту употребления слов языка в речи. Частотные словари позволяют делать очень интересные выводы о функционировании в речи слов и грамматических категорий языка.
Чисто практические цели преследуют орфографические и орфоэпические словари, указывающие «правильное» (т. е. отвечающее принятой норме) написание слов и их форм и, соответственно, «правильное» произношение.
Среди специальных лингвистических словарей большой интерес представляют различные фразеологические словари. Они бывают переводными (например, англо-русский фразеологический словарь А. В. Кунина) и одноязычными, дающими толкование значений фразеологизмов средствами того же самого языка. Разновидностью фразеологических словарей являются словари «крылатых слов», т. Е. ходовых цитат из литературных произведений, афоризмов знаменитых людей и др. фразеологизмов, главным образом книжного употребления, имеющих литературный источник. Особую разновидность фразеологических словарей составляют словари народных пословиц и поговорок.
Из других специальных лингвистических словарей выделяются словари синонимов, антонимов, омонимов, иностранных слов, словари сокращений, различные словари имен собственных, словари рифм.
Особую группу составляют лингвистические справочные словари, в которых дается не объяснение значения слова или особенностей его употребления и происхождения, а приводятся различного рода справки о слове как языковой единице. Словарь иностранных слов дает краткое объяснение значений и происхождения иноязычных слов, указывает язык-источник (последнее обстоятельство сближает словари иностранных слов с этимологическими). Словари неологизмов описывают слова, значения слов или сочетания слов, появившиеся в определенный период времени или употребленные только один раз (окказионализмы). В развитых языках количество неологизмов, зафиксированных в газетах и журналах в течение одного года, составляет десятки тысяч.
Иногда различают еще нормативные и ненормативные словари. К первым относят такие, которые устанавливают определенные правила употребления слов, ко вторым — такие, где подобной задачи не ставится. Нормативным является большинство справочных словарей (орфоэпические, орфографические), основная масса толковых словарей. К ненормативным относятся исторические, этимологические и т. п. словари.
Специальные словари, показывающие нормы словоупотребления в особенно трудных случаях.
Следует отметить существование многочисленных промежуточных, переходных и смешанных типов. Так, переходными от лингвистических к нелингвистическим словарям являются словари терминов различных наук и отраслей техники.
Эти словари бывают одноязычными, двуязычными и многоязычными. Широкое распространение имеют терминологические словари, включающие специальные термины, употребляемые в какой-либо научной области: химии, биологии, медицине, гидротехнике и т. п. Существует, наконец, тип универсальных словарей, одновременно толковых и энциклопедических, включающих также этимологические и исторические справки, иногда важнейший материал иноязычных цитат, и снабженных в нужных случаях рисунками.
Особенности компьютерной лексикографии [ править ]
В настоящее время лексикография находится под сильным воздействием новых методов обработки информации.
Изменение инструментальных средств приводит к появлению новых словарных технологий.
Современная информационная технология лексикографии — компьютерная лексикография. Значительная часть интеллектуальных операций переходит в разряд рутинных. При этом наблюдается процесс перехода части лексикографов осваивает новые профессии и отходит от «чистой» лексикографической деятельности, и начинают заниматься издательской деятельностью или организаторами лексикографических исследований и издателями их результатов, с другой стороны, часть специалистов, прежде всего, информатики активно занимаются лексикографической деятельностью.
Компьютерная лексикография представляет собой:
- быстро развивающуюся отрасль компьютерной индустрии;
- прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.
Компьютерная лексикография — совокупность методов и программных средств обработки текстовой информации для создания словарей.
Инструментальные средства компьютерной лексикографии [ править ]
К инструментальным средствам в рамках компьютерной лексикографии относятся – базы данных, компьютерные картотеки, программы обработки текста. Эти программы позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.
Множество различных компьютерных лексикографических программ разделяются на две больших группы:
- программы поддержки лексикографических работ,
- компьютерные (автоматические) словари различных типов, включающие лексикографические базы данных.
Компьютерный (автоматический) словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста.
Таким образом различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста.
Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д.
Это могут быть компьютерные версии известных обычных словарей. Например:компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), компьютерная версия словаря Ожегова.
Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.
Язык Пролог и лексикография [ править ]
Среди возможных сфер использования языка ПРОЛОГ можно выделить:
- автоматический перевод с одного языка на другой;
- создание естественно-языковых интерфейсов для существующих систем;
- проектирование динамических реляционных баз данных;
- экспертные системы и оболочки экспертных систем.
Программирование на Прологе предполагает описание некоего мира. Программа на этом языке состоит из множества фраз, задающих взаимосвязь между термами. Каждый терм обозначает ту или иную сущность, принадлежащую миру. Один из способов описания – это задание фактов. Факт – это утверждение о том, что соблюдается некоторое конкретное отношение. Он является безусловно верным.
Программы на Прологе, по своей сути, являются базами данных или базами знаний, так как они представляет собой совокупности предложений, определяющих отношения между объектами предметной области или свойства этих объектов. Свойства и отношения в Прологе называют предикатами.
Практикум [ править ]
Согласно задания необходимо создать лингвистическую базу данных. В личном модуле можно привести фрагмент базы данных.
Компьютерная лексикография.
В настоящее время лексикография – наука, занимающаяся составлением словарей – находится под сильным воздействием новых методов обработки информации. Современная информационная технология лексикографии – компьютерная лексикография. Значительная часть интеллектуальных операций переходит в разряд рутинных.
Под компьютерной лексикографией понимают совокупность методов и программных средств обработки текстовой информации для создания словарей.
Компьютерная лексикография представляет собой:
быстро развивающуюся отрасль компьютерной индустрии;
прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.
С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей – электронный словарь. Такой тип словаря – абсолютно новое слово в истории лексикографии, отметившее новую качественную ступень ее развития. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако благодаря все возрастающим темпам компьютеризации, в том числе и растущей доступностью переносным компьютеров типа Laptop этот недостаток будет достаточно скоро устранен.
Компьютерная лексикография имеет свои инструментальные средства: базы данных, компьютерные картотеки, программы обработки текста. Эти программы позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.
Множество различных компьютерных лексикографических программ разделяются на две больших группы:
программы поддержки лексикографических работ;
компьютерные (автоматические) словари различных типов, включающие лексикографические базы данных.
Автоматические переводные словари.
Компьютерный (автоматический) словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста.
Различают автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста.
Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д.
Это могут быть компьютерные версии известных обычных словарей. Например: компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), компьютерная версия словаря Ожегова.
Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.
Теоретической разработке параметризации переводных словарей, а также критическому анализу готовых лексикографических изданий посвящены работы таких отечественных и зарубежных ученых как В.П. Берков, В.В. Дубичинский, И.И. Убин, В.Н. Крупнов, О.М. Карпова, Сидней Ландау (Sidney I. Landau), Т. Пиотровски, Ю.Д. Апресян, М.Я. Цвиллинг. Исследования в рамках специальной переводной лексикографии принадлежат таким ученым как С.В. Гринев, Ю.Н. Марчук, В.Д. Табанакова.
По определению Л. Л. Нелюбина, переводной словарь – это словарь, представляющий планомерное сопоставление словарных составов двух и более языков (в той или другой их части или во всей их совокупности).
Характеристика переводных словарей осуществляется по следующим основным параметрам:
1) количество языков и способ их описания;
2) обратимость / необратимость словаря;
3) адресация словаря;
4) состав словника;
5) типы эквивалентов, включенные в микроструктуру словаря;
6) использование дефиниций в словарной статье переводного словаря.
Рассмотрим указанные выше лексикографические параметры в порядке их следования.
Языки, включенные в переводной словарь делятся на входные (языки, с которых происходит перевод) и выходные (языки, на которые переводят).
Словарь, имеющий один входной и один выходной язык – двуязычный. Сидней Ландау делит двуязычные словари на однонаправленные, содержащие словник на входном языке с эквивалентами на выходном (например, англо-русский словарь), и двунаправленные, фактически совмещающие два словаря (например, англо-русский, русско-английский словарь).
Если мы имеем дело с многоязычным словарем, то он может иметь более одного входного и более одного выходного языка. При этом «в многоязычном словаре намеренно или ненамеренно проявляется один язык, «стержневой», или тот, для которого такой словарь составляется». Многоязычная лексикография представляет собой гораздо менее разработанную часть переводной лексикографии и терминографии по сравнению с одно- и двуязычной лексикографией. Это обусловлено тем, что перевод происходит обычно в двуязычной ситуации и редко в многоязычной. В.В. Дубичинский отмечает, что «…коренное отличие двуязычных словарей от многоязычных заключается в том, что трех-, четырех, пяти- и т.п. многоязычные словари на практике выполняют, пожалуй, лишь пассивную функцию и, как правило, используются лишь в качестве справочных пособий».
Возможность по желанию пользователя менять входной и выходной языки местами называется по терминологии И.И. Убина обратимостью словаря. Составители терминологических словарей используют различные методы и приемы для преобразования традиционных необратимых переводных словарей в обратимые. Это достигается за счет обеспечения дополнительных входов в словари. Например, в словарной статье многоязычного словаря, где заголовком является лексическая единица стержневого языка, лексические единицы остальных языков приводятся как переводные эквиваленты заглавного слова. Обратимость в данном случае обеспечивается за счет приложений к основной части словаря – алфавитных списков лексических единиц всех языков, кроме стержневого, с отсылками к основным словарным статьям.
Автоматизация словарного дела дала возможность выделять не только обратимость на уровне языков, но и обратимость на уровне отдельных лексических единиц.
В автоматических или электронных переводных словарях языковая обратимость означает, что «языки, входящие в состав этого словаря, могут выступать как в качестве языков запроса, так и в качестве языков ответа». Если все языки из состава словаря могут быть как входными, так и выходными, словарь является полностью обратимым на уровне языков. Если только некоторые из языков выступают в качестве входных и выходных, то словарь является частично обратимым.
Лексическая обратимость переводного словаря означает, что каждая лексическая единица может выступать в качестве запроса и в качестве ответа. «При полной лексической обратимости словаря каждая лексическая единица, выступая в качестве единицы входного языка, должна иметь переводные эквиваленты на всех отдельных языках, входящих в состав многоязычного словаря». Полная лексическая обратимость словаря зависит также от качественного состава его лексического массива. Такой уровень обратимости возможен при условии, что в качестве заглавных слов и их переводных эквивалентов выступают слова или словосочетания. В случае, когда в качестве переводных эквивалентов используются не лексические единицы, а развернутые переводные эквиваленты, которые передают значение заглавной лексической единицы описательным способом, сложно говорить о лексической обратимости словаря.
В зависимости от того, кому адресован словарь, переводные словари делятся на активные и пассивные (понятия введены Л.В. Щербой). Двуязычный словарь является активным, если он используется для перевода с родного языка на иностранный, например, Русско-французский социально-экологический словарь И.Н. Ремизова и др. (2002). И наоборот, если он используется для перевода с иностранного на родной, то словарь – пассивный, например, Англо-русский экологический словарь Е.Г. Коваленко (1996, 1999). В соответствии с этим делением можно говорить и об активном или пассивном пользователе словарем. В идеале, по мнению В.П. Беркова и Сиднея Ландау, переводной словарь должен иметь одного адресата, так как выбор адресата словаря определяет состав словника и характер эквивалентных соответствий. Однако на практике оказывается, что подавляющее большинство двуязычных словарей имеет одновременно двух адресатов.
Взаимосвязь адресации словаря и способа описания включенных в словарь иноязычных эквивалентов позволила В.В. Дубичинскому выделить два типа переводных словарей с лингводидактической точки зрения:
монофункциональные переводные словари, описывающие один язык посредством других. Англо-русский словарь, составленный для носителей русского языка, изучающих английский, с пометами, объяснениями и уточнениями английских заголовочных единиц на русском языке является примером монофункционального словаря;
би-, три-, полифункциональные переводные словари, в которых объектом исследования являются языковые единицы всех или некоторых языков словаря. Англо-русский словарь, содержащий параллельные переводы английских лексических единиц на русский язык и наоборот, двуязычные толкования и комментарии, пометы на двух языках, англо-русские и русско-английские алфавитные указатели, является бифункциональным.
Электронных словарей сейчас выпущено довольно много, поэтому остановимся только на двуязычных англо-русских и русско-английских словарях. Для примера возьмем два самых известных: Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Эти словари любопытно сравнить, ведь создающие их команды, исповедуют разные взгляды на принципы электронной лексикографии.
Электронные словари «МультиЛекс»
Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: «В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с «естественным монополистом» рынка российских словарей, издательством «Русский язык». С точки зрения МедиаЛингва, задача электронной лексикографии – как можно точнее перевести традиционный словарь в электронную форму.
За основу словаря МультиЛекс взят «Новый большой англо-русский словарь» под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.
Конечно, словарь Апресяна – выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки:
традиционные словари довольно серьезно отстают от языковой реальности, электронные словари можно пополнять чуть ли не ежедневно.
словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи.
Электронные словари «Lingvo»
Lingvo в переводе с языка эсперанто означает «язык». Создан российской компанией ABBYY.
До 1998 года компания называлась BIT Software, однако в связи с предполагаемой экспансией на запад, было решено произвести ребрендинг: компаний с названием BIT насчитывалось более десятка. Давид Ян, основатель компании, физик, предложил название ABBYY. (Задумался о создании электронного в 1989 г. во время сдачи зачёта по французскому языку.)
Название компании произносится как «аби» и буквально означает «ясный глаз»; реконструированная форма праязыка мяо-яо, гипотетического языка-предка групп мяо-яо, ну, хмун, хмонг и киммун; название связано с деятельностью компании в области создания систем оптического распознавания текстов.
13 августа 2008 года вышла новая версия x3 (икс три). Объём словарных статей составляет более 8,7 млн. Многоязычная версия охватывает 11 языков – русский, украинский, английский, немецкий, французский, испанский, итальянский, турецкий, латинский, китайский, португальский. Европейская версия – 130 словарей на 7 языках.
В отличии от компании МедиаЛингва компания ABBYY пошла по другому, более перспективному пути. Конечно, и в их большом электронном словаре Lingvo7.0 есть переведенные в цифровой вид лицензированные бумажные словари – это политехнический, юридический, экономический, финансовый, медицинский и динамично пополняемый компьютерный словарь. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы ABBYY близок к языковой практике.
Удачной находкой ABBYY выглядит приглашение всем желающим размещать на их Интернет-узле
словари собственного изготовления.
Такое вовлечение пользователей в лексикографическую работу вполне соответствует духу открытых Интернет-сообществ. На сайте уже размещены 23 дополнительных словаря. Причем всякий желающий может скачать их из Интернета и присоединить их к уже имеющимся в базовой версии. Базовая версия Lingvo-7.0 содержит миллион двести тысяч словарных статей, все основные статьи тщательно проработаны. Например, статья о слове «go» содержит более двадцати пяти тысяч знаков.
Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Причем искать можно в любой форме. Некоторые, например Lingvo, встраиваются во все основные офисные приложения и выделенное слово можно переводить нажатием нескольких клавиш.
Мультитран – это мультимедийная коллекция электронных словарей, которые можно использовать как в онлайновом режиме, так и в режиме офлайн, включающая миллионы слов и словосочетаний на разных языках. Может поддерживать дополнительные пользовательские словари и корпоративные глоссарии. Пользуется
большой популярностью среди переводчиков благодаря следующим особенностям:
многоязычность (русский, английский, немецкий, французский, испанский словари в единой поисковой системе), всего около 30 млн исходных статей;
большое количество тематических областей (свыше 800 тематик);
автоматический поиск стандартных языковых выражений;
постоянное пополнение словарной базы данных самими пользователями (каждый день на сайте добавляется около 500 новых терминов);
перевод слов и устойчивых словосочетаний;
огромный объем лексического словаря (более 4 млн. слов в англо-русской версии);
активно действующий форум по 12 языкам (300 000 тем, 1,5 млн. ответов);
сквозной поиск по всем словарям и форумам;
возможность установки словаря на КПК, смартфонах и коммуникаторах;
развитая система сообщений об ошибках и их исправлениях;
единственный словарь, который позволяет ежедневно получать обновления и исправления словарных баз с сайта.
Пользователи указывают на такие недостатки словаря, как отсутствие окошек со всплывающим переводом (в сравнении с Lingvo), перегруженность словарной статьи вариантами перевода и наличие большого количества ошибок, гораздо большего, чем в других электронных словарях.
Последнее особенно характерно для слов из технических областей. Это объясняется
принятой практикой пополнения словаря самими пользователями, что вынуждает подходить к найденным в нем эквивалентам и соответствиям с большой осторожностью и все перепроверять.
Отметим, что данный словарь рассчитан в основном на профессиональных переводчиков, и, чтобы сориентироваться в нем и отобрать наиболее точное соответствие, нужен определенный опыт и знания, что трудно для начинающего переводчика.
Огромная коллекция многоязычных словарей по самым различным областям знаний, в том числе и в русско-английской комбинации, хранится на сайте переводчиков ООН. Любопытная подборка англо-русских словарей составлена в департаменте лингвистического обеспечения МИД России. Она включает терминологические словари по вопросам разоружения и переговорного процесса, по режиму контроля за ракетными технологиями, АТЭС, проблемам регионов Балтийского, Каспийского и Черного морей, борьбе с наркотиками, по ОБСЕ, Совету Европы, а также по Конституции РФ, официальным и православным праздникам в России и т. д.
Системы автоматизированного и автоматического перевода текстов
Перевод с одного языка на другой происходит путем восприятия и понимания исходного текста и последующей передачи его смысла средствами выходного языка. При этом переводятся не слова и словосочетания, а понятийные образы, порождаемые в сознании переводчика под их воздействием. Однако если в настоящее время пока еще нет возможности моделировать работу человека-переводчика, то, по крайней мере, нужно стремиться оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание текста, написанного на одном языке, средствами другого языка. Такими единицами являются, прежде всего, фразеологические обороты и терминологические словосочетания и, во вторую очередь, — отдельные слова. Если в настоящее время полностью автоматический высококачественный научно-технический перевод практически невозможен, то автоматизированный человеко-машинный перевод вполне реален.
Процесс машинного перевода текстов с одного естественного языка на другой может быть в крупном плане разделен на три этапа
Примеры компьютерных словарей :
PROMT XT Office — это профессиональное решение, которое позволяет осуществлять перевод текстовых документов и электронной почты, а также онлайн-перевод Web-сайтов с сохранением форматирования.

Домашний переводчик «Друзья Goo-Ru» — уникальный обучающий и развлекательный продукт для детей. В основе этой программы лежит мощное переводческое ядро, а также реализована технология «Виртуальные друзья», которая помогает школьникам превратить процессы изучения языков и подготовки домашних заданий в увлекательную игру.
Большой электронный словарь VER-Dict представляет собой собрание словарей, объединенных в одной программной оболочке. Помимо объемного словаря общей лексики, в VER-Dict включены все специализированные словари, разработанные компанией ПРОМТ.
Серия переводчиков X-Translator Platinum является совместным продуктом компании ПРОМТ и ИДДК . В основе продукта лежит переводческое ядро от ПРОМТ, а всеми вопросами тиражирования и распространения занимается компания ИДДК.
Электронный словарь как новый этап в развитии лексикографии
Кашеварова, И. С. Электронный словарь как новый этап в развитии лексикографии / И. С. Кашеварова. — Текст : непосредственный // Молодой ученый. — 2010. — № 10 (21). — С. 145-147. — URL: https://moluch.ru/archive/21/2055/ (дата обращения: 22.03.2023).
The article deals with the relatively new sphere of lexicography-computer lexicography, the basic object of which is the electronic dictionary. The article dwells upon the advantages of such type of a dictionary in comparison with an ordinary “paper” dictionary and gives a short outlook on some electronic dictionaries.
Key words: electronic dictionary, computer lexicolography, Internet-encyclopaedia.
Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Это направление прикладной лингвистики получило название компьютерной лексикографии. Центр ее интереса — способы организации словарной статьи, устройство словарей и технология их создания. Компьютерная лексикография является дисциплиной переходного периода — перехода от существовавшей в течение многих столетий традиционно ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. Она представлена совокупностью методов и программных средств обработки текстовой информации для создания словарей. [9, c. 45] Центральным объектом компьютерной лексикографии является компьютерный словарь, под которым понимается любое лексикографическое произведение на машинных носителях, снабженное программами автоматической обработки и наполнения. [2, с. 36]
Идея создания компьютерных словарей возникла в результате исследований «по определению вида и количества ошибок, совершаемых переводчиком при переводе текстов различной трудности, и по подсчету времени, которое затрачивает переводчик на поиск в словарях и справочниках незнакомых ему слов». [3, 3-16] Г.М. Мандрикова предлагает назвать компьютерным словарем «любое лексикографическое произведение на машинных носителях».[4] В литературе по данной теме обнаруживается целый ряд вариантов названия этого типа словарей: автоматический (Л.Н. Беляева, А.С. Герд, Ю.Н. Марчук), машинный (Л.Л. Нелюбин), компьютерный (Г.М. Мандрикова), электронный (В.П. Берков, О.М. Карпова), современный вариант — цифровой словарь. Учитывая тот факт, что до настоящего времени компьютерная лексикография не выработала единого названия для своего продукта, все выше перечисленные варианты можно рассматривать как равнозначные. [5, с. 14]
В. П. Селегей, директор по лингвистическим исследованиям компании ABBYY, полагает, что электронный словарь-это особый лексикографический объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, не востребованные по разным причинам в бумажных словарях. [11]
Появление электронных словарей вызвано объективными обстоятельствами, с их помощью можно решить проблему объема словаря, быстрого поиска необходимой информации в словаре, соответствия содержания текущему моменту. По мнению В.П.Беркова словарь XXI века должен обладать следующими чертами:
1. Колоссальность по своему объему.
2. Обеспечение поступенчатого извлечения информации в зависимости от потребностей пользователя.
3. Возможность словаря быть звуковым.
4. Возможность предоставления полной грамматической информации о словах входного и выходного языков, обширного материала по именам собственным с программами по транскрибированию.
5. Возможность включения графического иллюстративного материала.[1, c. 15-35]
Всем этим потребностям отвечают электронные словари.
К общепринятому делению словарей на энциклопедические и лингвистические в настоящее время прибавилось противопоставление электронный/печатный словарь. Вслед за Г.М. Мандриковой будем рассматривать их отличия друг от друга по следующим характеристикам:
— гибкость, как комплекс лингвистических и программных приемов, упрощающих обращение к словарю и расширяющих возможности пользователя при работе с ним, т.е. это удобство и легкость, с которыми пользователь может входить в словарь и в пределах кроткого времени получать необходимую информацию;
—многоязычие, как возможность независимого описания лексических единиц для каждого языка средствами и по законам этого языка;
— обратимость, как возможность использования любого из включенных в компьютерный словарь языков в качестве входного;
— динамичность, как возможность постоянного пополнения, коррекции, изъятия устаревших данных. Подобная переменность способность воспринимать изменения в течение периода создания и эксплуатации словаря является принципиальным отличием электронного словаря от обычного. [9, c. 47]
Кроме вышеозначенного к новым возможностям электронного словаря относятся:
- Существенно большие возможности показа содержания словарной статьи, включая возможность показа по различным критериям, использование разнообразных графических средств, которые не используются в обычных словарях.
2. Использование для доступа к содержанию различных лингвистических технологий, таких как морфологический и синтаксический анализ, полнотекстовый поиск, распознавание и синтез звука. Пользователь хотел бы, чтобы словарь максимально локализовал релевантную информацию. Специфика словарного ответа в том, что он дает весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор из нескольких возможных хорошо обоснованных альтернатив.
- «Бумажные» словари — неизбежно словари устаревшие. Особенно это характерно для разговорной лексики.
4. Для массовых программных продуктов, каковыми являются электронные словари, характерна частая смена версий и наличие постоянной обратной связи с тысячами пользователей. Поэтому электронная лексикография — это актуальная лексикография.
- Объем (информация хранится на плоских, небольших носителях — компакт-дисках, дискетах или жестком диске); информативная наполненность; ощутимое сокращение временных затрат на поиск необходимых данных; простота использования, обеспеченная с помощью диалогового способа взаимодействия с компьютером, удобных и понятных интерфейсов программ (подсказки, «меню», «помощь») и т. д.
6. Благодаря электронным банкам языковых данных словники современных словарей включают богатый материал. Электронный формат позволяет вмещать в корпусе большое количество информации. Словари в Интернете обладают способностью постоянно обновляться, а поисковые стратегии пользователя, работающего с электронными справочниками, отличаются большей креативностью по сравнению с возможностями, предоставляемыми печатными продуктами. [3;5]
7. Электронные словари можно классифицировать по роду выполняемых задач (например, словари для формального определения рода и падежа существительного), по характеру лексических единиц, включенных в словарь (сюда относятся словари словоформ, состоящие из списка всех словоформ подъязыка, или словари основ, состоящие из списка основ и окончаний), по способу организации словников (алфавитные, тезаурусы, где словарные единица сгруппированы по понятийным группам). [9, c. 33]
В настоящий момент выпущено довольно большое количество электронных словарей. Для примера возьмем один из самых известных: МультиЛекс, разработанный фирмой МедиаЛингва. Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: "В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». С точки зрения МедиаЛингва, задача электронной лексикографии — как можно точнее перевести традиционный словарь в электронную форму. В МультиЛекс встроен синтезатор звука и произносятся все слова. Однако полностью доверять такому подходу, не контролируя его по транскрипции, опасно. Синтезатор может неправильно поставить ударение или вообще исказить произношение слова. За основу словаря Мультилекс взят "Новый большой англо-русский словарь" под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу. Конечно, словарь Апресяна — заметное достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Во-первых, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. Электронные словари можно пополнять чуть ли не ежедневно. Во-вторых, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи. С осторожностью нужно относиться к электронным словарям типа Wikipedia, где зачастую приводятся непроверенные данные, а одна и та же статья на разных языках несет различную информацию. На главной странице сайта создатели говорят о своем словаре как о свободной энциклопедии, которую может создавать каждый. Основными объектами критики являются: открытая природа проекта, приводящая к неавторитетности и ненадёжности информации. В Wikipedia признают, что её не следует использовать как первоисточник в серьёзной научной работе. [14]
Поскольку английский язык — это базовый язык Интернета, преобладающее большинство справочников составляют лингвистические англоязычные словари, представленные одноязычными, двуязычными и\или многоязычными справочниками. Источники можно найти в каталогах электронных словарей по многим адресам, среди которых наиболее надежными считаются:
Интересно отметить, что многие исследователи выделяют в числе приоритетных в Интернете специальные словари, регистрирующие и обрабатывающие отдельные группы лексики: диалектные словари (Dictionary of American Regional Terms); терминологические словари или словари подъязыков (Tropical Medicine Glossary, Management and Technology Dictionary). [11]
Интернет-энциклопедии представлены как общими (Encyclopedia Britannica), так и специальными видами (Financial Encyclopedia), а также проектом энциклопедии Global Encyclopedia, составляемой самими пользователями системы. Кроме того, в последнее время популярными стали «новые энциклопедии», в которых пользователь может найти ответы на часто задаваемые вопросы (в первую очередь, это энциклопедия Encarta). Таким образом, очевидно, что электронная лексикографическая продукция активно и успешно завоевывает позиции.
Тем не менее, следует отметить, что электронная лексикография находится лишь в стадии становления, и дать ей оценку сегодня в полной мере представляется невозможным. Оперативность, постоянная обновляемость киберсловарей определяет их ненадежность, поскольку лексикография выполняет функцию нормализации языка, а для этого нужна значительная степень консервативности. Кроме того, каждый традиционный словарь, переиздаваемый с внесением в язык раз в 10-15 лет, фиксирует определенный исторический срез языка, в то время как online словари не позволяют этого сделать.
Итак, создание электронных словарей — это перспективное, активно развивающееся направление практической лексикографии. Электронный словарь сокращает время поиска, обладает возможностью включения неограниченного объема информации, обеспечивает одновременный поиск не только по названию словарной статьи, но и по всему огромному объему словарей, что нереально в бумажном варианте, озвучивает слова и словарные статьи, прост в использовании. Как отмечает В. Селегей, главное преимущество хороших электронных словарей — создание многомерного портрета слова, когда становятся явными языковые законы. [12]
1. Берков В.П. Двуязычная лексикография. — СПб.: СПУ, 1996. — 248 стр.
2. Герд А.С. Основы научно-технической лексикографии. — Л.: ЛГУ, 1986. -72 с.
3. Карпова О.М. Словари издательства HarperCollins: находки и решения // Language and Communication. Issue I. Rostov-on Don. 2001. -57 с.
4. Карпова О.М. Библиографический указатель «Словари современного английского языка». Спб., 2002. -24 с.
5. Карпова О.М. Учебные словари серии Collins COBUILD // Гуманитарное измерение меняющегося мира. Иваново, 2002. -34 с.
6. Карпова О.М. Лексикографические портреты словарей современного английского языка. – Иваново: Иван. гос. ун-т, 2004. – 192 с.
7. Марчук Ю.Н. Компьютерная лингвистика.- АСТ, Восток-Запад, 2007.-165 с.
8. Савина А.С., Типикина Т.А. Что внутри электронного словаря? // Наука и жизнь.- №10, 1999 г.- 63с.
9. Тузлукова В.И. Типология педагогических лексикографических источников в международной педагогической лексикографии // Сборник трудов Второй Международной научно-практической конференции
"Международная педагогическая лексикография в теории и практике обучения в высшей школе"(25-26 августа 2001 года). — 78 с.
10. Шишлова А.В. Электронные словари на компакт-дисках // Наука и жизнь.- №10, 1999 г.- 63 с.