Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
oit.docx
Скачиваний:
20
Добавлен:
08.06.2015
Размер:
112.03 Кб
Скачать

Интернет как средство обмена инф-й:

1. электронная почта (e-mail)

2. списки рассылки - услуга, позвол. определённому кол-ву пользователей поставлять реклам. инф-ю)

3. usenet - глоб. распред. с-ма для дискуссий, включ. множество групп новостей, хранящихся на серверах по всему миру.

4. irc (chat) internet relay chat - обмен в реальном времени текстовыми сообщениями.

5. интернет-пейджер - с-ма, позвол. зарегистр. в св. системе серверов и получить уникальный пейджинговый номер

ICQ

6. аудиоконференции

7. видеоконференции 8. радиотелевещание через интернет

9. интернет-телефония (skype)

основные направления развития сети интернет: 1. упрощение процедуры подключения к сети и-т(через моб. телефоны) 2. повышение скорости доступа к сети

3. увеличение кол-ва ip-адресов (введена 6ая версия протокола, которая поддерживает не 4-байтовое, а 16-байтовое число (128-разрядный ip-адрес) 4. предоставление пользователям всё более широких возможностей

5. создание сети интернет WEB 2(главные достоинства - высокая скорость передачи данных )

сеть стр. на базе ip-протокола-6ой версии, что позволяет подключ.к сети нетолько ПК, но и сотовые.

пользоват. WEB 2 есть доступ к WEB 1, а наоборот нет.

17) назначение и возможности систем автоматического чтения текста. для быстр. и кач.ввода текст.а в ПК исп. сканер(по принципу фотоаппарата) чтобы преобраз. граф.инф. в текст, нужна с-ма автоматического чтения текста или ocr система (optical character recognition) ocr - комп. прог-ма, позвол. преобраз. текст бумажного носителя в электронный файл. принципы работы ocr: 1. целостность (объект опис. как целое)

2. целенаправленность (распозн-е стр. как процесс выдвижения и целенаправл. проверки гипотез) 3. адаптивность (способность комп. с-мы к самообучению) fine reader этапы работы системы fine reader: 1) сканирование

2) распознавание а) анализ граф. макета страницы (выделение областей для распознавания таблиц, картинок) б) распознавание кажд. символа на основе различных алгоритмов распознавания 3. проверка орфографии 4. сохранение алгоритмы распознавания (классификаторы) 1) шаблонные - растровое изображ. наклад. на шаблон, содержащийся в базе данных, наиболее подход. явл. шаблон, у кот. наименьшее кол-во точек отлич. от исслед. изображения. 2) признаковые – позволяет анализировать не все изображ. знака, а лишь некот. признаки, кот вычисл. по формулам., не отвечают принципу целостности 3) структурные - содерж. инф-ю не о точечном изображении символа, а о правилах начертания или структуре. структурными элементами явл. все составляющие символ линии.в работе с векторным изображениями. недостаток - чувствительность к дефектам изображения, достоинство- ненужно обучать новым шрифтам возможности системы OCR: 1. Автоматически система во время сканирования подбир. яркость, фрагментирует стр, распознает символы, пров. орфографию. 2. позв. распозн. рукопечат. символы,рукопис тексты. для портат устройств 3. способность самообучаться и распозн. плохопропечатанные

развитие программ ocr пойдёт в направлении повышения точности распознавания текстов низкого качества, рукопис. текста, выделение текстовой. инф. на фоне шумов, а также интеграции ocr-систем с различными программами обработки информации.

18. аннотация и реферат текста: основные понятия. методы автоматического аннотирования и реферирования текста: позиционный, логико-семантический метод. реферат - связный текст, к. не только коротко выражает центр. тему или предмет к-либо документа, но и цель, примен. методы, осн. результаты описанного исследования или разработки. аннотация - краткое изложение содержания докумета, дающее общ. представление о его теме. рефераты и анн-ции - вторич. документы, кот. созд. к научным документам автоматич. реферирование (аннотирование) текста (сжатие, компрессия текста) - составление реферата (аннотации) текста с помощью компьютера. первый машинный реферат был получен американцем генри лунном в 1958 году. машинный реферат наз. квазирефератом. этапы построения реферата человеком: 1) подготовительный (чел. читает текст и пыт. осмыслить документ в целом) 2) аналитический (чел выд. осн. смысл. единицы, сост.. план буд. реферата) 3) построения реферата (выделенные ранее смысловые единицы располагаются в единый вторич. текст в соответствии с планом) в качестве смысловых единиц реферата могут быть: 1) полное без изменнеия ключ. предложение исход. текста 2) перефразированное ключевое предложение исходного текста 3) предложения, составл. из ключ. слов или словосочетаний с использованием связующих элементов 4) предложения, обобщ. несколько предложений исходного текста (не обязательно ключевых) смысловыми единицами аннотации могут быть: 1) ключевые слова, словосочетания исходного текста с предшествующими им спец. словами-реляторами ("книга посвящена след. проблемам", "в статье рассмтр. след. вопросы") 2) спец. предложения исходного текста а) содержащие оценочные элементы типа (рассматриваются !важные! проблемы, статья посвящена !актуальной! теме) б) предложения, содержащие клише - специализированные словесные штампы, к. фиксир. внимание человека ("недостаток заключается", "ставится задача") компьютер должен уметь: 1. находить в тексте ключ. слова, словосочетания, предложения 2. наход. в тексте менее знач. единицы 3. составлять из текстовых единиц смысл. единицы р-та, аннотации. 4. составл. из таких единиц текст р-та методы: 1) статистические 2) позиционные 3) логико-семантические.

позиционные методы: осн. критерии этих методов явл. место или позиция предложения в исходном тексте. выделяется 2 метода: а) метод заглавия

б) метод локализации (местонахождения)раб на текстах узкой тематики (патенты на изобретения) методы, исп. комплексно и совместно логико-семантические метод: опирается на исслед. структуры и семантики текста.

Цель:1) связь с левым и правым окружением

2) наличие в предлож семант знач. слов

3)выделение текста шрифтом 

В сер 70ых в сша первые результат ключ. предложение - предложение с наибольшим функциональным весом, на величину которого влияют различные факторы кажд. из 3 методов имеет свои достоинства и недостатки

19. методы автоматического аннотирования и реферирования текста: статистический метод. в статист. методе ключевое слово - это знаменат слово текста, к. с учётом всех его синонимов встреч. в тексте наиб. число раз. ключевое предложение - предложение текста, к. содержит несколько ключевых слов и эти слова нах. на небольшом расстоянии друг от друга задача: используя для выделения ключ.слов текста один из вариантов статистич. метода, а именно: кважн= , где f= частота употребления слова в тексте m = число абзацев, в которых встречется слово N= число слов в тексте n = число абзацев в тексте состав. алгоритм позволяет получить: а) аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями. ключевым словосочетанием явл.ключ. имя существительное со стоящим перед ним определением, выраженным прилагательным или причастием. б) словесный реферат текста в виде послед. цепочки ключ. предложений(т.е. предлож содерж. 3 и более разных ключевых слова). словоупотребление - цепочка символов, заключённых между двумя знаками пробелов. слово - несколько словоформ, имеющие одинак. лексическое значение. скоро придёт зима. зимой легче дышится. приходи, зима!

дышится 1 -> 7 словоупотреблений, 5 слов зима 2 зимой 1 легче 1 придёт 1

алгоритм решения задачи: 1 шаг: пк по каждому абзацу составляет алфавито-частотный словарь словоформ. 2 шаг: все словари объедин. в единый распределительный алфовитно-частотный словарь всего текста. 3 шаг: комп. с-ма «чистит» словарь, сжимая его до словаря потенциальноключевых слов: - удал. из словаря служ. и общеупотребительной лексика - объедин. все грам. формы одного и того же слова

-объедин. синонимы - удал. слова, которые встречаются в одном абзаце 4 шаг: словарь потенц. опорных слов дел. на 2 части: а) словари главных опорных слов б) словарь второстеп. опорных слов, что осуществляется на основе коэффициента важности. шаг 5: строит. аннотация, составл. из слов - реляторов со следущими за ними ключевыми словосочетаниями.сост из главного опорного слова и предшествующему в тексте опред. шаг 6: строит. реферат на базе главных и второстепенных опорных слов. просматривая исход. текст, компьютер извл. из него предложение, содерж. три разных опорных слова и сост. из них реферат.

20. способы перевода текста с использованием компьютера. перевод - вид чел. языковой деятельности, в результате которой некотор. текст на одном языке ставится в соответствие тексту на другом языке, при этом обесп. их смысловая эквивалентность. типы перевода по степени автоматизации: 1) традиционный (ручной) перевод, выполн. человеком.

автоматизированный:перевод, выполненный пк с помощью чел. 2) перевод, выполн. человеком с помощью пк: а) в памяти пк двуязыч. словарь и текст. редактор б) система тм (translation memory). Эти программные продукты наз. автоматизир. раб. местом переводчика в основе этих программ лежит принцип сбора и хранения фрагментов, переведённых человеком текстов на 2 языках. они хран. в спец. накопителе переводов (памяти) и служат бесценным поспорьем при послед. переводе текстов той же тематики. для кажд. тематики созд. свой накопитель. ими можно обмениваться.

3)машинный (автоматич.) перевод (мт - машинный перевод) - выполн. компьютером действия по преобразованию текста на одном языке в текст на другой язык при сохранении эквивалентности содержания, а также результата этого действия 1ыймашинный перевод был в 1954 в сша, в россии - 1955. специалисты утв., что такой перевод по существу невозможен. реально авт. перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике). поэтому человек участвует в подготовке маш. перевода и его доведения до удобочитаемого вида (предредактор и постредактор) если кпд человека-переводчика сост. 4-5 автор. листов (18 стр. а4) в месяц, то машина - 120 авт. листов. виды машинного перевода: 1) информативный (грубый пословный перевод, достаточный для поверхностного ознакомления с содержанием текста) 2) профессиональный (кач-во перевода сравнимо с качеством чел. перевода и при небольшом редактировании явл. удовлетворительным) 3) персональный (авторский) перевод в режиме диалога).

21. структура системы мп и назначение её основных блоков смп явл. моделями, к. воспроизв. на пк речевое поведение человека, переводящего текст с одного языка на другой. текст ия пк: двуязычный словарь <- подсистема морф. анализа ия <- подс-ма синт. анализа ия <- подсистема синт. синтеза пя <--> синтаксич. соответствия <- подсистема морф. синтеза пя текст пя в процессе морф. анализа слов ия кажд. слово получ. наборы лексико-грам. признаков, к. с-ма формир. из двуязычного автоматич. словаря. синт. анализ предлож. ия свод. к поиску осн. членов предложения синт. синтез предлож. перев. языки закл.: 1) в создании предложения пя опред. синт. структуры, к. с-ма выбирает из блока "синт. соответствие" 2) замена слов ия на их перев. эквивалента из двуязычного словаря морф. синтез кажд. слова, предложения пя сводит к постановке слова в нужную форму. в словаре содерж. сведения о признаках каждого слова успех и эффективность смп во многом зависит от автомат. словаря и прав. выбора структуры предложения пя автоматич. словарь исп. пк, поэтому инф-я в нём закодирована при создании автомат. словаря реш. след. задачи: задача 1. выбор типа лекс. единицы словаря (исп.:  а) в виде словоформ, когда в словарь заносятся все возможные формы каждого слова и подаются гнёздами; б) в виде квазиосновы: блок # ..., числа, стоящие после #, условно обозначают те наборы суффиксов и окончаний, к. необходимо присоедин. к основе, чтобы получить соответств. формы слов, эти числа назыв. типами формообразования) выбор типа лексической единицы зависит от: 1) для рус., бел., нем., лат. целесообразно исп. квазиоснову; 2) для языков аналит. типа - словоформу  2. от объёма словаря и вычислит. ресурсов пк 3. от типа смп (для информат. - квзиоснова, для профессион. - словоформа) задача 2: отбор перевод. эквивалентов для выход. словаря. задача 3: создание маш. словар. статьи для лекс. статьи - лекс. единица вместе с набором значений и её всевозможн. признаков. в словап. статье выд. 4 зоны: 1) зона морфолог. сведений 2) зона семантич. сведений: а) принадлежность к определ. семант. подклассу б) переводн. эквивалент 3) зона синтаксич. сведений (управл-е глагола/предлога) 4) зона лексич. сведений: а) стилист. исп-е лексич. единицы (термин, принадлееж. к языку, или общеупотр. л.) б) исп-е лексич. единицы как части фразеологизма для выбора структуры предл. пя первоначально исп. прямой перевод (структура 1:1). затем исп. язык-трансформер (внутр. язык). в последнее время стали внедр. статистич. подход, который позволил машин. переводчиком обуч. и выб. прав. структура предложений пя, для чего исп. огром. базы параллельных корпусов текстов, наход. на пк, ранее переведённых людьми. параллель между программными продуктами mt prompt и tm (trados) мт-программы опир. на готов. словари и готовы к работе в момент покупки. но чтобы их исп. профессионально необходимо затратить много времени по настройке с-мы перевода для кажд. тематики. исп-е мт-программ даёт выйгрыш только при переводе огромн. массивов однотип. текстов. тм (trados) - базой служит накопитель, к. в момент покупки пуст. нов. накопитель создаётся переводчиком для кажд. ематики текстов. в осн. перевода ложатся конструкции, выбранные человеком. для крупн. проектов, где речь идёт об оперативном переводе сотен страниц однородной документации, передставл. перспективным сочетание программ мт и тм популярн. смп: sysran, prompt, сократ плюсы исп-я смп: 1) скорость 2) удобно при редактировании и форматировании перевода 3) имеют удобн. возможности для перевода эквивалентов (online словари) 4) ускоряют перевод. освободив. от необходимости перевода того, что было переведено ранее 5) значительно дешевле 6) можно доверить перевод конфеденциальной информации 7) упрощённый просмотр страниц в интернете

22. определение понятия "понимание текста компьютером". уровни автоматического понимания письменного текста. широкое применение пк во всех сферах чел. жизни привело к вырастанию объёма хранимой в них инф-и, представл. в текстовой и устно-речевой форме на естеств. языках. постепенно стал меняться и стиль общения человека с компьютером. стали преобл. черты естеств. коммуникации, в основе кот. лежит письм. и устн. речь чел. задачи автоматического понимания и порождения текста и речи очень сложны. для их реализации в пк в к. с-мы нужно вложить огромный объём знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, леж. в основе речемыслительной деятельности человека. всё это в полном объёме будет реализ. в будущем, а пока пк облад. возможностью обрабатыв. письм. тексты и уст. речь, имеют в своей памяти базу знаний, ограниченную конкретной предметной областью. комп. база знаний - определённым образом ограниченные лингвистические и нелингв. данные, а также правила их использования. речемыслительная деятельность чел. - очень сложный и до конца не изученный вид чел. деятельности, поэтому сегодня невозможно говорить о его полном моделировании на пк. существ-е в различных странах эксперименты и пром. с-мы обработки текста и речи созданы с учётом наложения ограничений на их функционирование. такие с-мы решают не общие, а частные задачи понимания и порождения текста и речи. важно, чтоб результаты решения такой задачи комп-ом были аналогичны результатам, полученным при решении той же задачи человеком. проблема понимания текста пк ещё находится на нач. стадии изучения. поэтому сущ. различные точки зрения на эту проблему, выд. различные уровни понимания, построены различные системы, способные понимать текст. наиболее сложными для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц (худ. лит-ра). более простыми являются тексты, содержащ. описание фрагментов статич. мира (науч. статьи и книги). понимание в таких с-х тракт. как извлечение из текста наиб. существенной инф-и с точки зрения пк. полученная в результате пнимания информация может пополнить базу знаний пк или может быть передана пользователю. под передачей понятого пользователю имеют в виду способность пк ответить на вопросы пользователя относительно событий, описанных в исходных текстах в виде связ. текста, а не отд. предл. или слов.

согласно современным теориям автоматического понимания текста, к-р понял текст, если он может: 1. кратко изложить его содержание 2. ответить на вопросы к этому тексту 3. на основе текста нарисовать картинку или схему 4. привед. в тексте сведения представить в иной форме (в виде таблицы, графика) 5. на основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом языке. 6. сравнить содержание двух разных текстов и выделить информацию о том, что в них общего и в чём различия. 7. путём анализа нескольких текстов извлечь такие знания, которые можно поместить в бз. уровни автоматического понимания письменного текста. соотнося уровни понимния текста пк с основными уровнями языка, можно выделить следующ. уровни автоматического понимания: 1) морфологический 2) синтаксический 3) семантический 4) гиперсин-й или прогматический (связ. с выяснением семантических отношений между предложениями текста) морф. понимание сводит. к автомат. приписыванию каждому слову предложения его морф. характеристик. это наиболее освоенный вид комп. понимания. в послед. годы такие операции легко реализ. в рамках автоматического лексико-грам. анализа текстов. суть синт. понимания текста заключ. в автомат. выделении в каждом предложении текста главных и второстепенных членов и установление между ними различных типов связи. в процессе семантического понимания текста автоматически устанавливаются значения выделенных на синтаксическом уровне составляющих предложения. пк определяет:

1)выражено ли подлежащее одуш./неодуш. существительным,

2)выражено ли сказуемое глаголом движения/чувствования;

3) обстоятельством является обстоятельство причины и т.д. подобные процедуры пров. с опрой на необход. окружие слова.

23. типы автоматического понимания текста комп.с-ма,поним. письм. текст,должна иметь в своей базе знаний след. инф-ю: 1. знания о языке, на котором написан текст 2. правила исп-я знаний на языке 3. знания о конкретной предметной области 4. правила исп-я знаний о предметной области 5. знание о пользователе с-мы, желающего получить от пк некотор. понимание текста в зависимости от этих знаний и их кол-ва различ. след. типы авт. понимания текста: 1. понимание-узнавание (при этом предпол., что комп. с-ма должна иметь знание лишь о языке; суть поним. сводится к тому, что пк узн. морф. структуры кадого слова предложения, проводит синтаксический анализ предложения; узн. в исходном тексте ключ. слова, словосочетания и предложения) 2. понимание-уподобление (комп. с-ма должна иметь знание о языке и правила их исп-я; счит., что эта с-ма понимает текст, если она может отв. на вопросы по этому тексту; при таком понимании пк просто находит готовые ответы в своей базе знаний, ранее занес. чел. 3. понимание-прогнозирование (эти комп. с-мы ориентир. на понимание текстов достаточно узкой предметной области; в данном случае в пк должно быть знание о языке, правила их исп-я и знания о конкр. предм. области; счит., что с-ма поним. текст, если она может определить, какой объект или событие прелметной области соотв. отд.фрагментам текста; но одним и тем же фрагментам могут соотв. различн. фрагменты, поэтому соотнос. их можно лишь с определённой степенью вероятности) 4. понимание-объединение (бз содерж. 4 вида знаний: знание о языке, о предм. области и правила исп-я этих знаний; объединяя эти виды знаний, комп. с-ма должна умть делать выводы по тексту, а также объясн., почему она сформулировала тот или иной вывод, это забота экспертных систем) 5. понимание-объяснение (в бз содерж. все 5 видов знаний, включая знания о целях, намерениях, проф. компетенции пользователей; комп. с-ма должна уметь объяснить пользователю, каким образом она поняла текст, т.к. своё объяснение она должна давать любому конкретному пользователю с учётом его образования и навыков; в таких с-мах исп. диалог комп. - пользователь; в ходе диалога с-ма может выяснить запросы и поставл. пользователем задчи, объяснить причины принимаемой с-мой решений) сегодня проблема авт. понимания реализ. в след. комп. с-мах , позвол. извлекать из текста опред. инф-ию. 1. с-мы автомат. индексирования, аннотирования, реферирования текста и машинный перевод 2. инф.-поисковые с-мы 3. эксперт. с-мы (выступ-е в роли высокопроф. специалиста в к-то предметной области)

24. автоматическое порождение письменного текста: определение, этапы, виды компьютерных систем проблемами порождения текста с помощью пк исследов. заним. с начала 70-х гг. xx в. успехи в этом направлении не так значит., как в понимании. сегодня не может быть создана единая теория порождения текста. осн. причина - неоднозначн. опр-е понятия текста. создатели диалог. систем (обуч. программы, диалог пользователя с пк) под текстом поним. любую реплику, сост. из нескольких слов или предложений. создатели с-м порождения метеосводок под текстом поним. некотор. таблицу. для создающих инструкции текст - несвязная цепочка несвязанных между собой предлож., относящ. к одному объекту. худ тексты (стихи, реклама...0 здесь необход. законы остроения текстов разных стилей и жанров. установлено, что процесс текстообразования состоит из 2 этапов: стратегического (должно быть принято решение, что писать) и тактического (как написать) результатом выполнения 1 этапа должно стать смысловое представление будущего текста результатом выполнения второго этапа должен стать сам текст в язык. форме. виды комп. с-м автомат. порождения текста делятся на 2 группы: 1) с-мы, раб. на основе шаблонных технологий. они строят буд. текст, манипулируя готов. предложениями и словосочетаиями как сторит. блоками. эти с-мы достаточно просты и надёжны, нах. шир. пром. применение (типы текстов: диалог. с-мы, с-мы, генерирующие отчёты, метеосводки; инструкции, характеристики) содержание порождаемого текста этими системами представляется в виде фрагментов текстов, созд. ранее людьми. они ыгл. естественно. эти с-мы раб. с очень жест. типами текстов. 2) комп. с-мы, раб. на основе лингвист. мотивир. технологии. в этом случае для создания текста с-ме необх. знания структуры содержния генерируемого текста, а также слож. лингв. знания, к. позв. выразить это содержние языковыми средствами (примеры порождения стихов, сказок, рекламы и т.д.) в наст. время лингв. мотив. технологии нах. на стадии исследования. пром. с-м нет, сущ. только эксперимент. с-мы.

25. общая структура системы порождения письменного текста в системе автоматического порождения письменного текста должно быть представлено 3 компонента: 1)оболочка 2) планировщик 3) лингв. реализатор оболочка опред. назначение порожд. с-мы (диалог. с-ма, с-ма генерации документов. в ней содерж. вся бз, к. сост. из 2 частей:

1)нелингвистической (понятия, связи и отношения между понятиями конкретных предметных областей) и

2)лингвистической (вкл. формализ. сведения о языке: списки морфем, словарь, синтексическая структура предл.) планировщик выполняет функции: 1. опред. ту инф-ю, к. должна быть представлена в тексте 2. устанавл. порядок следования абзацев в тексте и предложений в абзацах 3. осущ. языковое оформление связи предложений 4. осущ. построение синтаксической структуры предложений 5. осущ. выбор соотв. лексики. всё это он осуществл. с опорой на бз. лингвистический реализатор обеспечивает грамматическую правильность порождаемого текста и принимает все окончательные синтаксические и морфологические решения

26. автоматическое распознавание устной речи проблемами распознавания устной речи учёные занимаются более 80 лет. до сих пор они в полном объёме не решены. под распознаванием речи комп-ом в полн. объёме понимается то распознавание, к. подобно восприятию речи человеком в люб. условиях и при общении с люб. чел. механизм восприятия речи чел. обладает выс. степенью надёжности. при самых разнообразных помехах устная речь явл. самым надёжн. и универс. ср-вом коммуникации. решению проблемы распознавания речи в полн. объёме мешают следующие факторы: 1. в наст. время не сущ. чётких теоретич. представлений, к. бы описывали весь комплекс преобразований, осуществляемых нервной с-мой при переработке речевых сигналов. 2. слитно произнесённая речь облад. след. св-вами: а) границы слов размыты б) сосед. звуки влияют друг на друга в) если знамен. слова произн. в осн. отчётливо, то функцион. слова - нечётко и даже могут исчезать. 3. в голосе говорящего человека всегда присут. экстралингвист. инф-я, свидетельств. о эмоц. сост. человека., указ. на его пол, возраст, национальность, сост-е здоровья. 4. в процессе реч. общ-я кроме слов большое значение имеют паралингвистические ср-ва коммуникации: фонация (х-ки голоса), кинетика (мимика, жесты, позы), проксемика (расстояние между людьми). популярные с-мы по распознаванию речи: ibm viavoice исходя из вышеизложенного, сегодня авт. распознавание речи может существовать только приналожении опред. ограничений на процесс распознавания (распознавание изолир. произн. слов; расп-е речи с предвар. настройкой на голос конкретного пользоватля, расп-е речи с опорой на небольшой заранее определённый словарь) промышленно реализованные с-мы распознавания устной речи условно можно разделить на след. группы: 1) с-мы реч. управления (пк, быт. утр-ва, телефон) 2) ср-ва диктовки, позв. голосом вводить текст. инф-ю (речь должна быть с интервалом) 3) информац - справ. с-мы, работающ. в диалоговом режиме в качестве автоответчика 4) ср-ва идентификации чел. по образцу речи (голос. пароли) 5. пр-мы-транскрипторы, к. исп. для повыш-я скорости записи протоколов совещания, лекции.

27. синтез устной речи с помощью компьютера сегодня сущ. большое число синтезаторов, к. могут озвучить введённый в к-р тексты или произнести фразы, произнесённые ранее и записанные в память чел-ком. сущ. 3 метода авт. синтеза речи: 1) копирование реч. сигналов с их последующ. восстановлением. это один из самых элементарных. подходов к созданию говорящ. пк. по сущ-ву пк служ. устр-м для записи речи как магнитофон. слова и фразы запис. в пк заранее и в нужн. момент воспроиз. по командам. поступ. из соответств. программы. возможность сказать слово или фразу, к. не были заранее введены в память здесь отсутствует. ещё один недостаток для хранения реч. сигналов в их непоср. объёме - нужна память знач. объёма, поэтому этот метод исп., когда необход. словарь не слишком велик. 2) фонет. синтез речи. это синтезатор говорящ. голосом робота. фонетический синтез речи осущ. по орфогр. тексту, напис. чел-м. пк умеет преобр. буквы в фонемы, а фонемы - в их варианты (аллофоны), опред. слов. и фраз. ударения и синтезир. непрерыв. реч. сигнал с исп-м аллофонов конкретного диктора, выб. из бд. этот метод перспективен, т.к. речь генерир. самим пк и может быть о3вучен любой текст. 3) автом., матем. моделирование голос. чел. словарь в синтезаторах этого типа, как и в первом методе, созд. с участием гов. чел-ка. в данном случае в память запис. не слова и фразы, а произв. выдел. числ. характеристик звуков речи и интонации фраз. такой подход позв. значительно уменьш. объём необход. памяти - глав. достоинство метода. синтезируемая речь звучит естественно. для её генерации числ. хар-ки по спец. командам преобраз. обратно в звук. сигналы. наиболее перспективным является фонет. синтез речи. в наст. время специалисты работают над тем, чтобы синтезир-я комп-м речь по тексту звучала живо, естественно. решение этой проблемы позв. создавать комп. с-мы синхрон. перевода, активнее исп. пк для изучения языка и позволит исп. людьми с наруш. зрения.

28. базы данных: определение, модели. субд: определение, основные функции. бд - совокупность определ. образом упорядоченных свдений о некоторых объектах. объекты - это сведения, факты, процессы, события. объект может быть матер. (студент, машина) и нематер. (факт поступления в у-т, перевод текста).  кажд. объект облад. св-вами или атрибутами, к. присв. определ. значения. в бз атрибуты представл. просто данными, а их зн-я - зн-я данных. совокупность файлов, описывающих один и тот же объект, тоже назыв. бд. действия над данными: 1) ввод 2) редактирование 3) удаление 4) поиск инф-и субд (с-мы управления базами данных) - сов-ть прогр. средств, позв. создавать базу данных, вести и произв. поиск в ней инф-и. осн. ф-ии субд: 1. обеспечить создание структуры бд, чтобы эффективно хранить и обраб. инф-ю, необх. опр., к. инф-я будет хран., к. будут исп. атрибуты и типы данных. 2. модификация инф-и, наход. в бд (добавл., удаление, редакт.) 3. поиск инф. субд дел. на 2 типа: 1) настольные 2) серверные 1) настольные субд по степени сложности подраздел.: а) субд для обработки небольш. объёмов инф-и (ms outlook - огранайзер) б) субд для пользователей (ms excel) в) субд для профессионалов (ms access) 2) серверные субд исп. архитектуру улиент-сервер, т.е. происх. централизованное хранение и обработка данных (ms sql server)

29. лингвистические информационные ресурсы: определение, основные составляющие, письменный лексикон лир - одна из составляющих информационных ресурсов.

инф. ресурсы - некотор. интеллект. ресурс, результ. коллектив. твор-ва. к пассив. формам лир отн. книги, журналы, словари, энцилопедии, базы и банки данных, к активным формам - модели, алгоритмы, базы знаний. лир - мно-ство определ. образом организ. реч. и языковых данных, нах. на машин. носителях и используемых в различн. сферах практ. деят-сти (в образовании, экономике, издательстве) в самом общем виде лир - это своеобраз. лингв. бд, к. можно обновлять и в к. можно искать ту или иную информацию. лир необх. как пользователям пк, так и различн. комп. с-мам, связанным с автомат. обработкой текста и речи: - с-мы перевода текста - с-мы анализа, синтеза, распознавания речи и текста лир дел. на: 1) письм. лексикон 2) письм. текстов. массивы (корпусы т-в) 3. фонетич. ресурсы 1) письм. лексикон представлен однояз. и многояз. лексиконом (словарями) многояз. лексикон - электр. словари для поиска перевод. эквивалентов однояз. лексикон: - частотно-алфавит. словарь словоформ к-л текста - словоуказатель, в к. кроме абсолют. частоты употребления словоформы указ.номер страниц и строк, где встреч. словоформа - конкордансы - в них словоформа характериз. не только числ. показателем, но и некоторым контекстом, в к. она употреблена (как прав., это 3 предлож.) - словари-энциклопедии (содержат х-ки не слова как такового, а обознач. им. предмета, факта или явления, бз кирилла и мефодия, кругосвет, британика на англ. яз.) - тезаурус - словарь, в кот. указ. семант. связи между определ. частью его лексич. единиц; 1852 - первый словарь-тезаурус - терминологич. словарь (осн. единицей явл. термин - слова, словосочетание, имеющее спец. значение, выраж и формир-е проф. понятие и применяемое в процессе познания)

30. лингвистические информационные ресурсы: определение, основные составляющие: письменные текстовые массивы, фонетические ресурсы письменные текстовые массивы - это совокупность текстов, являющаяся достаточной для обеспечения надёжных выводов (научн.) о некотором языке, диалекте или ином подмножестве языка. создание таких корпусов - новое направление в лингвистике. суть его свод. к тому, что достовер. данные о морфол., синт. и семант. структуре языка могут быть получены из достаточно большого массива текстов. корпусы текстов исп.: 1. в лексикологии для составления различн. словарей, выделения терминов, определения значения многознач. слов. 2. в грамматике для определения частоты употребления грам. морфем, для выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов 3. в лингвистике для дифференир-я типов текстов, создания конкордансов; при машин. переводе для созд. прав. структуры предложений перевод. текста. как показ. результаты исп-я корпуса текста, многие лингв. задачи с их помощью не могут быть решены. во многих языках нельзя установить принадлежность слова к тому или иному грам. классу, что не позвол. определить частоту употребления грам. классов слов, прав. структуру предложения, а следовательнои употребляемость стр-ры, поэтому стали созд. тагированные корпусы текстов. слова т. корпуса получ. букв. и цифр. индексы, к. обознач. их грам., лексич., семант. структур. признаки. сущ. прог-мы, к. произв. автомат. тегирование текста. в послед. время стали созд. параллельные тегиров. корпусы текстов на 2 языках. фонетические ресурсы (корпусы устной речи) глав. трудность созд-я таких корпусов связ. с необходимостью транскрибирования устной речи. в наст. время общепринято, что для создания машиночит-х фонетич. корпусов или транскрипция на основе орфограф. представления звуков речи с дополнит. знаками, передающими (при необходимости) просодич., паралингвистич. и другие особенности произношения. в мире сущ. много фонет. корпусов текстов, к. широко исп. для: 1) сопоставит. изуч. устн. и письм. формы яз. 2. для изучения грам. и лекс. особенностей уст. речи. 3. для исследования фонетич. особенностей диалектов 4. для построения частот. списков фонем и их соч-й 5. для созд. комп. систем исп. с целью распознавания символов устной речи. напр., в сша создан корпус устной речи, сост. из 255 записей психоаналитич. сеансов (9 городов) в герм. - записи радиопередач (222 текста).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]