Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КТОЯ 2.doc
Скачиваний:
19
Добавлен:
17.05.2015
Размер:
422.91 Кб
Скачать
      1. Шаг 10. Установите интервики-ссылки.

Википедия — международная энциклопедия, имеющая разделы на десятках языков мира. Но между статьями на разных языках нужно установить связи (интервики-ссылки). Для этого переведите название вашей статьи на английский или немецкий язык (можно воспользоваться бесплатными онлайн-словарями). В конце статьи, после категорий, оставьте пустую строку, а затем на новой строке напишите конструкцию вида[[код языка:перевод названия статьи]], где код языка этоenдля английского илиdeдля немецкого. Для статьи «Квантовая механика» получится, например:[[en:Quantum mechanics]]или[[de:Quantenmechanik]]. В завершении нажмите внизу кнопку «Записать страницу».Сайт диссертаций

Настоящий сайт вступил в жизнь 1 декабря 2002 г. и является продолжением первых выпусков библиотеки РБД, находящихся по адресу http://dissertation1.narod.ru 

95000 авторских диссертаций, 6900 академрефератов, серъезная подборка оригинальных научных работ для студенчества и аспирантуры от преподавателей РБД (100% отличие от стандартных коллекций). На восьми дисках СD-ROM собрано 39 000 уникальных научных монографий. На  дисках серии "В" собрано несколько десятков тыс. диссертаций последних лет.

Целью  сайта является продвижение в российские глубинки редких исследовательских работ из научных центров, находящихся в небольшом количестве экземпляров; помощь студентам гуманитарных, экономических и юридических ВУЗов  в выборе уникальных  работ из  академических баз, ознакомление с   редкими по доступности текстами в открытом доступе сайта,   рассылка диссертационных рукописей и авторефератов   по  электронной и заказной почте. Сайт создан на основе книжных   хранилищ  РБД.

 

    1. 2.Национальный корпус русского языка

    2. Сопоставление корпусной и традиционной лингвистик

Корпусная лингвистика

Традиционная лингвистика

1

Основное внимание – изучение речи

Основное внимание – изучение языка

2

Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов

Цель – описание и объяснение языка

3

В своих исследованиях опирается на данные корпуса текста

В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи

4

Предпочитает квантитативные методы

Предпочитает квалитативные методы

5

Видит себя частью традиций, базирующихся на эмпирических методах

Видит себя частью традиций, базирующихся на рационалистических методах

6

Текст рассматривается как некоторая физическая сущность

Текст рассматривается как некоторая абстракция

7

Составление грамматики конкретных языков

Изучает языковые универсалии

8

Основное внимание уделяется форме

Основное внимание – не только форме, но и содержанию

9

Рассматривает тексты в глобальной перспективе

Рассматривает тексты в локальной перспективе

10

Фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами

Анализирует некоторую конкретную, искусственно ограниченную, проблемную область

11

В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов

Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований

12

Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала

Предпочитает логические рассуждения

13

Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте

Предпочитаются искусственные примеры, из изолированных от текста словоупотреблений

14

Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода

Предпочитает дедуктивные методы обработки эмпирического словесного материала

15

Верит в научные открытия, основанные на обработке эмпирических данных

Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д., т.е., как результат многовековых исследований

Конкорданс - прикладная программа, с помощью которой осуществляется автоматическая выборка заданных языковых единиц из электронных текстов.

Это общедоступный для поиска корпус русских текстов. Открыт 29 апреля 2004 в Интернете по адресу http://ruscorpora.ru. объемом более 20 млн. слов. Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Петербурга, Воронежа и других городов.

Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы «Филология и информатика» РАН (поддержку оказал также Российский гуманитарный научный фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав.

Поиск по корпусу с учетом морфологии, расстояния и грамматических признаков, предоставлен Яндексом.

«Национальный корпус русского языка» поддерживался Российским Гуманитарным Научным Фондом, грант № 03-04-00226а и частично программой «Филология и информатика» РАН.

Руководитель проекта –д.филол.н., проф., акад. РАОЛ.А.Вербицкая, ответственный исполнитель – д.филол.н., проф. В.Б.Касевич (СПбГУ).В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций:

  • Институт русского языка имени В. В. Виноградова (ИРЯ РАН)

  • Институт языкознания РАН (ИЯз РАН)

  • Институт проблем передачи информации им. А. А. Харкевича РАН (ИППИ РАН),

  • Всероссийский институт научной и технической информации РАН (ВИНИТИ РАН)

  • Институт лингвистических исследований РАН (ИЛИ РАН) в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом (СПбГУ)).

Сайт Корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения.

Общее руководство проектом – Л.А.Вербицкая, В.Б.Касевич.

  • Филологическая экспертиза – Н.Н.Казанский (руководитель группы), С.С.Волков, О.Е.Любимова. относящиеся к разным временным периодам (после середины 20 в.).

Филологическая экспертиза призвана обеспечить выполнение трех основных задач:

  • определение целесообразности включения данного текста в состав Корпуса;

  • обеспечение сбалансированности массивов текстов, входящих в Корпус, с точки зрения представленности разных жанров, авторов и т.п.;

  • снабжение каждого текста, вошедшего в Корпус, паспортизацией, или метаразметкой.

Подготовка текстов – А.В.Венцов, Е.В.Грудева, О.Е.Любимова, Н.А.Федорова, Е.И.Корешкова, Е.О.Попов, Е.Г.Уфлянд, П.А.Оскольская.

Программное обеспечение – А.В.Венцов, В.А.Капустин, А.С.Рощина

На начальных этапах в разработке концепции Национального корпуса русского литературного языка принимали участие сотрудники московских институтов РАН (А.А.Молдован, В.А.Плунгян, Е.В.Рахилина, С.Шаров и др.)

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. 

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений). Планируемый составителями объем Национального корпуса русского языка — 200 млн. слов. Объём корпуса на январь 2007 года составил 140 млн словоупотреблений.

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется четыре типа разметки: метатекстовая, морфологическая, акцентная и семантическая; в ближайшее время планируется внедрение синтаксической разметки. Система разметки постоянно совершенствуется.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]