История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...
Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
Топ:
Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов...
Генеалогическое древо Султанов Османской империи: Османские правители, вначале, будучи еще бейлербеями Анатолии, женились на дочерях византийских императоров...
Устройство и оснащение процедурного кабинета: Решающая роль в обеспечении правильного лечения пациентов отводится процедурной медсестре...
Интересное:
Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...
Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...
Отражение на счетах бухгалтерского учета процесса приобретения: Процесс заготовления представляет систему экономических событий, включающих приобретение организацией у поставщиков сырья...
Дисциплины:
|
из
5.00
|
Заказать работу |
Содержание книги
Поиск на нашем сайте
|
|
|
|
Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С распространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией вовлекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое сообщество, в том числе и представителей различных этносов, наиболее актуальным в данном вопросе является внедрение национальных языков в компьютерные технологии.
Новые информационные технологии уже в 70-80 годах двадцатого века стали использоваться для реализации концепции машинного фонда национальных языков в различных странах. Фактически машинный фонд (корпус) представляет собой сложную иерархическую, разветвленную автоматизированную систему, способную решать как информационно-поисковые, так и исследовательские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.
В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки миллионов словоупотреблений. Накопленную таким образом информацию можно будет использовать для самых разнообразных целей.
К настоящему времени созданы языковые корпуса, включающие разнообразные языковые базы данных. Корпусная лингвистика – новое направление лингвистической науки, возникшее благодаря развитию компьютерных технологий и исследующее проблемы создания компьютерных баз данных. В России основные исследования в этой области еще впереди. За рубежом – в Великобритании, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих материал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, формирующей один из модулей (составляющие модули: словарный, документально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари составляются на основе корпусов этих языков. Таким образом, развивается новое направление в лексикографии – корпусная лексикография.
Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъемлемой частью понятия «корпус текстов» является система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер – это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Также важный параметр организации любого корпуса – аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням. Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка сегодня разработаны пять типов разметки: метатекстовая, морфологическая, акцентная, синтаксическая и семантическая.
Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в нашем государстве в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме.
Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотреблений. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса – в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка – это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.
В Машинном фонде русского языка хранится богатейший материал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Академии Наук по инициативе А.П. Ершова в 1985 г. Важным результатом работы отдела Машинного фонда явилось развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программные средства первичной обработки источников: программы создания и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словарных работ и др.
Информационные технологии Машинного фонда русского языка – это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественноязыковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.
ТЕКСТЫ ДЛЯ ПЕРЕВОДА
|
|
|
История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...
Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...
Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...
Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...
© cyberpediasu.com 2017-2026 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!