Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Частотный французско-русский словарь-минимум по электронике

..pdf
Скачиваний:
8
Добавлен:
19.10.2023
Размер:
4.39 Mб
Скачать

Проведенные на основании этих теоретических положений лингвопсихологические исследования

показали, что специалисту, желающему прочесть

и перевести иностранный текст по интересующей

его тематике, вовсе не обязательно владеть всем

богатством того языка, на котором написан этот текст. Достаточно активно выучить определен­

ный запас наиболее часто использующихся слу­

жебных и общеупотребительных слов, граммати­

ческих правил, а также пассивно овладеть опре­

деленным запасом достаточно часто употребля­ ющихся ключевых слов и выражений. Даже если этот объем лингвистических знаний и не будет полностью покрывать конкретный иностранный

текст по специальности, избыточность текста, до­

гадка и знание ситуации помогут читателю рас­

шифровать его содержание.

Само собой разумеется, что читатель должен обладать не какими-то знаниями по иностранно­ му языку, а именно теми, которые с наибольшей вероятностью будут нужны ему для понимания текста по специальности. Эта совокупность лин­

гвистических знаний, называемая часто «базовым языком», служит как бы моделью, приближен­

ным описанием системы и нормы той разновид­ ности иностранного языка, к которой относятся тексты данной специальности.

Статистические исследования текста для отбо­ ра словаря базового языка дали поучительные

результаты. Во французских текстах по конкрет­

ной тематике употребляется несколько десятков

тысяч разных слов, дающих в сумме в полтора-

два раза больше разных словоформ^ (amplificateur и amplificateurs рассматриваются как раз­

ные словоформы). Вместе с тем выясняется, что всего лишь 65-70 наиболее частых словоформ, включенных в Частотный словарь французского

10

подъязыка электроники, покрывает 50% текста

этой специальности, первая сотня словоформ да­

ет покрываемость в 63%, а первая тысяча слово­

форм составляет около 80% французского тек­

ста по электронике i.

Иному читателю покажется, что, учитывая ста­

тистику, можно достичь понимания текста: до­

статочно выучить несколько сот одних только

наиболее частых словоформ!, чтобы догадка и знание ситуации восполнили остальное. Однако темп роста покрываемости текста по мере про­ движения по списку от наиболее частых слово­

форм к менее употребительным не совпадает с

темпом нарастания информационного «покры­

тия». Причина здесь кроется в так называемом

парадоксе вероятности и информации: наиболее

частые слова текста оказываются наименее ин­

формативными, напротив, более редкие лексиче­

ские единицы несут обычно много смысловой ин­ формации. Так, например, в число первых ста самых частых лексем входят большей частью слу­ жебные слова — предлоги, артикли, союзы, вспо­ могательные глаголы, усвоить которые необхо­ димо для того, чтобы распознать грамматическое

построение предложения, но которые мало что

дают для понимания его смысла. Несколько больше семантической информации приносят об­ щеупотребительные существительные, прилага­ тельные и глаголы, входящие в состав первой и

особенно второй и третьей сотен наиболее упот­

ребительных лексических единиц текста.

1 К о ч е т к о в а В. К. и С к р е л и н а Л. М. Частотный словарь французского подъязыка электроники. В сб.: «Ста­ тистика речи». Л., «Наука», 1968, с. 162—170; К о ч е т к о ­ ва В. К. Вероятностно-статистическое построение автомати­ ческого словаря. (На материале французских текстов по электронике). Автореф. канд. дисс. Л., ЛГПИ, 1969, с. 4.

11

Однако основное содержание текста заложено

в ключевых терминологических словах и словосо­

четаниях, большинство из которых обычно имеет гораздо меньшую вероятность, чем служебные

слова и общеупотребительные знаменательные

лексемы. При этом' экспериментально установле­

но, что для понимания научно-технического тек­

ста из шести словоупотреблений необходимо по­

нимать значение пяти единиц, включая в это чис­

ло и понимаемые без словаря интернациона-

лизмы *.

Учитывая вероятностную структуру текста,

можно создать разумную программу обучения

иностранному языку. Ограниченное количество часов, отводимое в техническом вузе на изуче­ ние языка, позволяет учащимся усвоить лишь несколько сот наиболее часто встречающихся

служебных и знаменательных слов вместе с са­

мыми употребительными морфологическими пра­

вилами и синтаксическими схемами («структура­

ми»). Такого объема знаний, естественно, недо­ статочно для понимания текста по специаль­ ности. Однако, имея под рукой надежный дву­ язычный частотный словарь-минимум, в котором всегда можно найти значения пяти из шести нуж­ ных слов, а также привлекая знание ситуации и

догадку, читатель получает возможность полно­

стью понять содержание текста по своей специ­ альности.1

1 Ср. К о р ш у н о в а Л.

Б. Статистические данные и

отбор языкового материала

(обзор). В сб.: «Проблемы от­

бора учебного материала».

М., изд.-во

МГУ, 1971, с.

78;

А л е к с е е в П.

М.,

Г е р м а н - П р о з о р о в а Л.

П.,

П и о т р о в с к и й

Р.

Г., Щ е п е т о в а

О. П. Цит.

соч.,

с. 220.

 

 

 

 

 

12

Как раз эту задачу и стремится решить

В. К. Кочеткова. Она собрала в своем словаре

такие терминологические слова, которые в соче­

тании с активно усвоенной лексикой и граммати­

кой совершенно необходимы для чтения и пере­

вода французского текста по электронике.

Сознавая, что ни собственная языковая интуи­

ция, ни данные двуязычных технических слова­

рей, чаще всего отражающих субъективный опыт

их составителей, ни быстро устаревающие энци­

клопедические и толковые словари не могут стать объективной основой для словаря-минимума,

В. К. Кочеткова составляла свой словарь на ос­

нове собственных данных и данных ее коллег, полученных путем последовательного и беском­ промиссного статистического обследования фран­ цузских и русских текстов по заглавной темати­

ке, относящихся к 60-м и началу 70-х годов l. С од­ ной стороны, это позволило автору выявить те

служебные и знаменательные слова, а также

грамматические формы, которые составляют ак­

тивное ядро базового языка. Аналогичная работа

по отбору наиболее употребительных словосоче­ таний и синтаксических схем проводится колле­ гами В. К. Кочетковой по группе «Статистика ре­ чи». Списки слов, словосочетаний, грамматиче­ ских схем построения, которые образуют актив­ ную часть базового языка и которые должны быть усвоены читателем настоящего словаря-ми-1

1

К о ч е т к о в а В.

К-

и С к р е л и н а Л. М. Цит. соч.,

с. 162—166; К а л и н и н а

Е.

А. Частотный словарь русско­

го подъязыка

электроники.

В сб.: «Статистика речи». Л.,

«Наука», 1968,

с. 144—150;

М е ж л у м о в а А. Б. Стати­

стическая характеристика лексики и морфологии русских текстов по радиотехнике. Аатореф. канд. дисс. Минск, БГУ, 1973.

13

нимума, приводятся в изданиях группы «Стати­ стика речи» *.

При этом предполагается, что читатель, поль­ зующийся словарем, уже овладел активной ча­

стью французского базового языка электроники,

включающей наиболее частые слова и граммати­

ческие правила.

Составителю удалось отобрать наиболее инфор­

мативные и употребительные ключевые слова, ко­

торые и составили корпус настоящего словаря.

Пробные тексты показали, что вероятностный

подход при построении двуязычного словаря-ми­

нимума дает обнадеживающие результаты. Ча­ стотный словарь-минимум В. К. Кочетковой в сочетании с активной частью базового языка обеспечивает почти полное понимание современ­

ного французского текста по электронике.

В заключение нельзя не указать на то, что вероятностно-статистические приемы оправдыва­

ют себя и в других приложениях языкознания.

Это вполне относится и к данному словарю: его материал с успехом служит основой для автома­ тического французско-русского словаря, приме­

няемого в системах машинного перевода, анноти­

рования и реферирования французских научнотехнических текстов.

___________

Руководитель группы «Статистика речи»

 

 

проф. Р. Г. ПИОТРОВСКИЙ

1 К о ч е т к о в а В.

К.

и С к р е л и н а Л. М. Цит. соч.,

с. 162—166;

Б е р л и н

М.

И., Ж о л у д е в а Л.

Н., Ле ­

вит 3.

Н.,

Щ е р б а к о в а

И. А. Статистическая характе­

ристика

фразеологических

единиц французского

языка.

В г.б.: «Инженерная лингвистика». Ученые записки ЛГПИ,

т. 458, ч. II, Л., 1971, с. 280—328; К о в е р и н А. А., Скит-

н е в с к и й Д. М. Опыт грамматического анализа на ЭВМ французских научно-технических текстов. В сб.: «Дистри­ бутивно-статистическое описание текстов (для нужд ма­ шинной переработки текстов в АСУ и АИС)». Иркутск,

ИГПИ и ИГПИИЯ, 1973, с. 13—48.

14

ВВЕДЕНИЕ

Данный словарь составлен на основе Частотно­ го словаря словоформ французского подъязыка электроники. Согласно методике, принятой в группе «Статистика речи», словарь строился на

двух выборках по 100 000 словоупотреблений, со­

ставивших общую выборку в 200 000 словоупот­

реблений.

Первая выборка составила 100 000 словоупот­ реблений— 100 текстов по 1 000 словоупотребле­ ний К

Своим содержанием проанализированные тек­

сты охватывают следующие темы (в процентах

от общего количества текстов) :

1.

Связь, телевидение, телеметрия .

. .

32%

2.

Прикладная электрон ика.................

13%

3.

Атомная энергия и электроника

. .

11%

4.

Полупроводники..................................

10%

5.

Радиотехнические устройства . .

. . 9

%

6.

Электронные с х е м ы .............................

6%

7.

Акустика, и зм ерен и е............................

5%

8.

Транзисторы, спектральный метод

. .

4%1

9.

Аэронавтика, фотоэлектрические

при­

боры и другая тематика, представленные

1 В обработке данных первой выборки на материале журнальных статей принимала участие проф. Л. М. Скрелина, которой составитель словаря выражает искреннюю при­ знательность.

15

каждая

небольшим количеством текстов

(1% на каждую тему от общего числа тек­

стов)

....................................................................10%

И т о г о — 100%'

Для второй выборки было взято наугад не­ сколько десятков патентов по электронике. От­ сутствие какой-либо закономерности в выборе номеров журналов и патентов гарантирует слу­

чайность выборки.

В последние годы патентная информация при­ обретает все большее значение среди других ви­

дов научно-технической информации. Это объяс­

няется не только тем, что она представляет со­

бой неисчерпаемый источник результатов творче­ ского труда тысяч изобретателей, но и тем, что именно патентная информация является всегда самой свежей и объективной информацией о пе­

редовых научно-технических идеях, опережаю­

щей информацию книг, журналов, отчетов и дру­

гих источников.

В патентной практике фигурируют, как пра­ вило, три вида патентоспособных объектов:

1.устройства (конструкции, машины, прибо­ ры, приспособления, изделия, радио- и электросхемы и т. п.),

2.процессы (технологические и производствен­ ные),

3.вещества (сплавы, смеси, растворы).

Поскольку нас интересовали патенты только по электронике, то были выбраны два первых ви­

да объектов.

Отсюда и соответствующая дозировка тек­ стов:

1.различные полупроводниковые приборы

(около 55%),

2.производство, преобразование и распределе­ ние электрической энергии, электрические коле­

бания и импульсы, техника электросвязи и т. д.

(около 45% ).

Так же, как ив первоначальной выборке, бра­

лись 100 текстов по 1000 словоупотреблений, т. е.

еще 100 000 словоупотреблений. Общая длина об­

следованного текста равна 200 000 словоупотреб­

лений. Словоупотреблением считался всякий бук-

воряд от пробела до пробела. Апостроф (’) считал­

ся знаком, разделяющим словоупотребления (по­ добно пробелу), дефис считался знаком, соединя­ ющим их (подобно букве). При анализе текста не учитывались математические знаки и цифры

в вычислениях и тексте, формулы (химические, физические и математические), подписи к ил­

люстрациям, имена собственные, сокращения,

используемые только в данном тексте (исключе­ ния составляли международные обозначения фи­

зических и математических величин типа kW,

Mzh).

При составлении словаря проводился частич­

ный учет контекстовых связей словоформы с

другими словоформами текста, т. е. выделялись

лексико-грамматические и грамматические омо­

графы. Например, различными словоформами

считались:

avions — существительное и глагол;

Ыапс — существительное и прилагательное;

еп — предлог, местоимение, частица;

exploitant — прилагательное, деепричастие и причастие настоящего времени.

Подсчет производился не выборочный, а сплошной, так как только таким путем можно

2 Зак. 1046

17

вскрыть систему информации, заключенную в тексте.

Частотный словарь словоформ, составленный по

выборке из

журнальных

статей, насчитывает

8 108 разных

словоформ

(среди

100 000

слово­

употреблений) . Вторая выборка

выявила

5 870

разных словоформ, полученных из

100 000

слово­

употреблений в текстах патентов. Общий список

на

200 000

словоупотреблений включает

10 299

различных

словоформ с частотами

от 13 334 до

1.

Сведенные к исходным формам

слов

10 299

словоформ дали частотный словарь

в 5 858

слов.

В таблице 1 приводится статистическое распре­ деление грамматических классов слов в словаре

и в тексте. Как показывает таблица, существи­

тельные составляют более 50% словаря и почти 40% текста. Довольно высокий процент (24,3%) употребления прилагательных в словаре, выше, чем! глаголов, объясняется особенностями тек­ стов патентов, повлиявшими на статистическое распределение частей речи в словаре. Существи­

тельных в тексте патентов меньше, чем в жур­

нальных статьях (соответственно 53,3% и 46,7%), так как автор патента дает характеристику, как правило, одному объекту.

Увеличение количества употребляемых прила­ гательных и наречий в текстах патентов свиде­

тельствует

о качественной оценке

изобретений.

В текстах патентов встречается в три раза боль­

ше местоимений, чем в текстах журнальных ста­

тей, что объясняется требованиями краткости из­

ложения:

местоимения значительно

сокращают

длину текста.

 

На

основе частотного списка

исходных форм

5 858

слов составлен частотный словарь-мини­

мум,

насчитывающий 4 754 слова

с частотами от

902 до 2.

18

Таблица 1

Статистическое распределение грамматических классов1I слов в словаре (II) и в тексте (I, III)2

 

Части речи

 

I

И

III

 

1.

Существительное

 

38,0

51,0

28,'!

 

2.

Глагол

 

31,1

15,9

13,7

 

3.

Прилагательное

 

25,5

24,3

10,6

 

4.

Наречие

 

3,3

5,8

4,3

 

5.

Местоимение

 

0,7

0,7

5,7

 

6.

Предлог

 

0,4

0,8

9,8

 

7.

Сокращения

 

0,5

0,9

0,3

 

8.

Союз

 

0,2

0,2

0,2

 

9.

Числительное

 

0,1

0,2

0,4

 

10.

Артикль

 

0,1

0,1

26,6

-

11.

Частицы

 

0,1

0,1

0,3

 

 

И т о г о

. . .

100,0

100,0

100,0

 

 

1 Для каждого

грамматического

класса

подсчитыва­

лось количество словоупотреблений (единиц текста), раз­ личных словоформ (единиц частотного списка словоформ) и исходных форм слов (единиц частотного списка слов). Затем определялись процентные соотношения между грам­ матическими классами во французских текстах по электро­ нике.

2 I — распределение по общему количеству словоформ (при N = 10 299, где N — длина исследованного текста в

словоупотреблениях)

II — распределение по общему количеству исходных форм (при N = 5 858)

III — распределение по общему количеству словоупот­ реблений (при N = 200 000).

2*

19

Соседние файлы в папке книги из ГПНТБ