К основному контенту

Корпусная лингвистика. Языковой корпус.


В последнее время очень часто встречаются упоминания корпусной лингвистики и языковых корпусов. Предлагаю попробовать разобраться, что же это такое, если кто пока не знает. Если знаете, буде рада вашим комментариям, конструктивной критике и пояснениям.

Корпусную лингвистику часто упоминают в разговорах и статьях о лингвистических исследованиях, в статьях об изучении какого-либо языка и языков вообще. И, конечно, все лингвисты проверяют свои исследования на существующих и создаваемых ими специально языковых корпусах, приводят примеры и подтверждения из таких корпусов.

Корпусная лингвистика – это очень молодое направление лингвистики, которое возникло в 1960-е годы. А особенно бурно стало данное направление развиваться в 1980-е годы, в связи с развитием компьютерных технологий, позволяющих обрабатывать большие объемы информации.

До появления компьютеров корпуса создавали и обрабатывали вручную, что было очень трудоемким процессом и требовало много времени от исследователя. По сути, большая часть времени при проведении исследования уходила на сбор и обработку фактического материала. С появлением первых компьютеров этот процесс немного упростился, но, все же, введение текстов при помощи перфокарт все еще требовало больших затрат времени.

Современная корпусная лингвистика для создания корпусов использует программное обеспечение, которое позволяет разметить большие объемы текстов автоматически, практически, без участия человека. Кроме того, с развитием Интернет, появилось большое количество текстов в электронном варианте.

Языковой корпус – это собрание большого числа текстов самых разных жанров, тематик и стилей, которые размечены особым образом. Составляют одноязычные языковые корпусы, двуязычные или параллельные корпусы и многоязычные корпусы. Для создания языкового корпуса требуется большое число текстов в электронной форме. Наряду с письменными текстами, такими как газетные статьи, рассказы, личная переписка, в современные корпусы также включают аудио и видео материалы с транскриптами к ним. Эти материалы лингвисты используют для изучения устной речи.

Языковые корпусы могут включать тексты какого-либо одного типа, например, тексты газетных статей, тексты одного автора, жанра, тексты, созданные в определенный период времени. Это представительские корпусы. Кроме того, для многих языков созданы и развиваются национальные языковые корпусы. Общепризнанным эталоном национального языкового корпуса считают Британский национальный корпус.

Языковые корпусы используют в лингвистических исследованиях, при изучении родного и иностранного языка. Он может быть полезен писателям, журналистам, переводчикам и представителям других профессий, которые связаны с языком. Также его могут использовать и все остальные, все, кто хочет узнать о своем языке что-то новое и интересное, все, кто хочет проверить правильность употребления того или иного слова.

Корпус также используют в преподавании языков. Например, в английском языке наиболее часто используют всего 2-5 тысяч слов из всего словарного запаса языка. Более того, около половины любого текста – это 50-100 самых актуальных слов, хотя их состав может меняться в зависимости от стиля текста). Это имеет большое значение для преподавания английского языка, поскольку позволяет сосредоточиться на преподавании учащимся самой частотной лексики, что позволит им свободно общаться на языке.

Но наиболее часто языковые корпусы используют, все-таки, лингвисты для проведения своих исследований. Они изучают происхождение слов, частоту их употребления, контекст употребления и так далее.

В языковые корпусы входят самые разные тексты. И их увлекательность и полезность не самый главный критерий отбора. В языковые корпусы отбирают тексты представляющие интерес для изучения данного языка. В этом отношении для языкового корпуса пригодны и роман не самого искушенного писателя и самый обычный договор аренды, и записанные разговоры, сценарии фильмов и прочее.

Языковой корпус обязательно должен быть репрезентативным. Если это национальный корпус языка, то тексты из разных жанров и стилей должны быть представлены в нем пропорционально фактической ситуации. Ну, скажем, 10% текстов на русском языке (цифра взята просто для иллюстрации) представляют собой газетные статьи, то и корпус должен содержать 10% газетных статей, и т.д. Это требование применимо и к представительским корпусам, они должны содержать тексты, которые являются типичными представителями изучаемого материала.

Для русского языка также создан Национальный языковой корпус. Кроме него существует Открытый корпус русского языка, в создании которого может участвовать любой желающий. В целом, наличие национального языкового корпуса – это сегодня уже обязательный атрибут государства.


Ссылки:
1. Корпусная лингвистика. Статья в Википедии


Комментарии

Популярные сообщения из этого блога

Об истории перевода

Последнее время я заинтересовалась историей науки о переводе. На самом деле, мне очень интересно, когда появились первые переводчики и перевод. К сожалению, в программе высшего образования по подготовке специалистов-переводчиков не предусмотрено отдельно курса об истории возникновения науки о переводе. Следовательно, я начала искать информацию на просторах всемирной паутины. В настоящее время я нашла несколько статей, которые уже прочла и составила список авторов, занимавшихся данным вопросом. Даю обещание, что все книги, которые найду, я прочту и поделюсь впечатлением от прочитанного, по мере освоения материала. А пока хочу поделиться со всеми своими первыми выводами и списком авторов, на которые ссылаются статьи. Так вот, судя по прочитанным статьям перевод устный, вероятно, возник достаточно рано, как только люди начали осваивать планету и расселяться по континенту, соответственно, формируя племена. Эти племена вступали в различные отношения (обмен, война и т.д.), и требовали...

Экономические неологизмы

Всем привет, Давно я сюда не заглядывала! Извините, вдохновение брало отпуск без содержания :-) А сегодня попалась супер интересная статья на сайте Termination coordination от Европарламент...