Звуки и знаки - [7]

Шрифт
Интервал

и другие подобные ему умершие в социальном смысле слова. Да и методика обработки материала была несовершенной. Короче говоря, словарь этот не отражал реальной картины современного русского языка и был лишь первым опытом.

Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.

Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как пионер, штаб и т. п.

В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.

Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,

В словаре в алфавитном порядке от союза а до прилагательного ящичный приводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).

Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог в. Вместе со своим вариантом предлогом во он встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз и, он встретился более тридцати шести тысяч раз. Отрицание не — на третьем месте (около двадцати тысяч раз), на четвертом — предлог на (свыше семнадцати тысяч). Местоимение я занимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.

Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол мочь, числительное один, а на шестом десятке — существительное год и прилагательное большой. Зато потом эти части речи занимают львиную долю списка.

Текстообразовательная способность

Третья часть «Частотного словаря русского языка» посвящена статистическим данным. И статистика, приводимая в ней, нужна не только специалистам по математической лингвистике или теории вероятностей. Она имеет важное значение в практике, в отборе слов для изучения русского языка.

В текстах, объемом в миллион слов встретилось около сорока тысяч словоупотреблений. Но свыше тринадцати тысяч различных слов употреблены были всего лишь один раз, около шести тысяч — два раза. Ясно, что слова эти редкие, их нельзя включить в словари-минимумы. Столь же ясно, что слова, имеющие частоту в несколько тысяч, в эти словари должны быть включены обязательно. Легко провести черту между очень частыми и очень редкими словами. Но как провести ее между словами не очень частыми и скорее частыми, чем редкими? Сколько нужно слов для словаря-минимума?

Вопрос этот мы уже задавали в самом начале нашего рассказа. Теперь, когда вы узнали о частотных словарях, переформулируем его: какую часть слов из списка самых частых мы должны брать — сотню слов? тысячу? десять тысяч?

На помощь лингвистике вновь приходит статистика.

Обратимся к нашему «Частотному словарю русского языка». Первые десять слов (ничтожнейшая часть от общего числа различных слов) покрывают почти двадцать процентов всего текста. Первая сотня самых частых слов составляет лишь четверть процента словаря. Зато в тексте она покрывает свыше сорока процентов всех слов. Первая тысяча слов, два с половиной процента всех слов словаря, покрывает свыше шестидесяти семи процентов текста.

Около девяти тысяч слов встретилось в текстах десять и более раз. Слова эти составляют менее четверти всего словаря. Зато покрывают они более девяноста процентов текста. Остальные же тридцать тысяч слов не покрывают и восьми процентов всех текстов. Очевидно, заучивать эти тридцать тысяч слов нецелесообразно. Знание же слов с частотой «десять» и более позволит понимать практически весь текст.

Может быть, и в списке слов, имеющих частоты «десять» и выше, также можно сделать сокращения? Первая тысяча слов частотного словаря, будь то русский, испанский, английский, французский, немецкий или любой другой язык, покрывает значительную часть текста, Какую — зависит не только и не столько от конкретного языка, сколько от стиля, типа речи.


Еще от автора Александр Михайлович Кондратов
Книга о букве

О языкознании написано много интересных научно-популярных книг. О грамматологии — ни одной. «Книга о букве» — первая попытка рассказать об увлекательных и разнообразных проблемах, которые решает наука о письме. Рассказ о грамматологии строится как серия очерков, в которых излагаются основные проблемы этой науки. При этом главное внимание уделено наиболее важным темам — происхождению письма, его ранним этапам, типам письменности, их соотношению, общему направлению развития письма, а также методам дешифровки.


Земля людей — земля языков

В языках повсюду можно отыскать следы древнейшей истории и культурных контактов, первобытного мировоззрения и особенностей мышления данного народа. Конечно, в одной книге можно лишь приоткрыть дверь в увлекательный мир, который скрывается за такими, казалось бы, сухими и скучными страницами словарей и грамматик.В книге делается краткий обзор истории мировых языков, прослеживается связь между ними, взаимовлияния культур.


Загадка сфинкса

В 1972 году исполнится 150 лет со времени дешифровки французским ученым Франсуа Шампольоном египетских иероглифов, бывших главной загадкой древней культуры Египта.О титаническом труде Шампольона и других исследователей, о развитии египтологии, открывшей миру великую и древнюю цивилизацию планеты, о вкладе русских ученых в дешифровку иероглифов, о неразгаданных и по сей день египетских письменах рассказывается в этой книге.


Адрес — Лемурия?

Таинственные острова в Индийском океане, которых не найти на современной карте, но о которых повествуют древние источники… Дравидийские легенды о Южном материке, ушедшем на дно… Создатели древнейшей цивилизации Двуречья, прибывшие откуда-то с юга… Загадки происхождения других цивилизаций — Древнего Египта, Индостана, Элама… Прародина человечества, которую Энгельс и Геккель, Гексли и Вирхов помещали на материке, затонувшем в Индийском океане… Сухопутный «мост», соединявший Мадагаскар и другие острова с Индостаном… Не говорит ли все это о том, что некогда здесь была земля Лемурия, колыбель человеческого рода и древнейших цивилизаций?Загадку Лемурии предстоит решить будущим исследователям, прежде всего, океанографам и подводным археологам.


Загадки Великого океана

Когда-то Тихий океан открывали Кук, Лаперуз, Лисянский, Крузенштерн, Литке и другие. В наши дни идет новое открытие величайшего океана — открытие его дна, гигантской подводной страны, занимающей 1/3 поверхности нашей планеты. Исследование Тихого океана и его дна связано с решением вопроса, который вот уже около двухсот лет горячо обсуждается учеными всего мира: не существовала ли некогда в Тихом океане обширная страна (материк или группа архипелагов), ныне погруженная на дно? Гипотеза о затонувшей земле связана с целым рядом других гипотез: океанографических, археологических, лингвистических, зоологических, этнографических, геологических и т. д.Книга «Загадки Великого океана», рассчитанная на широкий круг читателей, продолжает цикл работ автора, посвященных загадкам океанов и затонувших земель.«Загадки Великого океана» — двадцать первая книга Александра Кондратова.


Была земля Арктида

Книга представляет собой вторую часть трилогии об исчезнувших землях — «магаданских Атлантидах». Известный популяризатор науки, автор более тридцати книг, рассказывает об арктическом, мосте суши, некогда соединявшем берега Евразии и Северной Америки.


Рекомендуем почитать
Легенда о Вавилоне

Петр Ильинский, уроженец С.-Петербурга, выпускник МГУ, много лет работал в Гарвардском университете, в настоящее время живет в Бостоне. Автор многочисленных научных статей, патентов, трех книг и нескольких десятков эссе на культурные, политические и исторические темы в печатной и интернет-прессе США, Европы и России. «Легенда о Вавилоне» — книга не только о более чем двухтысячелетней истории Вавилона и породившей его месопотамской цивилизации, но главным образом об отражении этой истории в библейских текстах и культурных образах, присущих как прошлому, так и настоящему.


Открытия и гипотезы, 2005 №11

Научно-популярный журнал «Открытия и гипотезы» представляет свежий взгляд на самые главные загадки вселенной и человечества, его проблемы и открытия. Никогда еще наука не была такой интересной. Представлены теоретические и практические материалы.


Жители планет

«Что такое на тех отдаленных светилах? Имеются ли достаточные основания предполагать, что и другие миры населены подобно нашему, и если жизнь есть на тех небесных землях, как на нашей подлунной, то похожа ли она на нашу жизнь? Одним словом, обитаемы ли другие миры, и, если обитаемы, жители их похожи ли на нас?».


Знание-сила, 2000 № 07 (877)

Ежемесячный научно-популярный и научно-художественный журнал.


Меч и Грааль

Взыскание Святого Грааля, — именно так, красиво и архаично, называют неповторимое явление средневековой духовной культуры Европы, породившее шедевры рыцарских романов и поэм о многовековых поисках чудесной лучезарной чаши, в которую, по преданию, ангелы собрали кровь, истекшую из ран Христа во время крестных мук на Голгофе. В некоторых преданиях Грааль — это ниспавший с неба волшебный камень… Рыцари Грааля ещё в старых текстах именуются храмовниками, тамплиерами. История этого католического ордена, основанного во времена Крестовых походов и уничтоженного в начале XIV века, овеяна легендами.


Популярно о микробиологии

В занимательной и доступной форме автор вводит читателя в удивительный мир микробиологии. Вы узнаете об истории открытия микроорганизмов и их жизнедеятельности. О том, что известно современной науке о морфологии, методах обнаружения, культивирования и хранения микробов, об их роли в поддержании жизни на нашей планете. О перспективах разработок новых технологий, применение которых может сыграть важную роль в решении многих глобальных проблем, стоящих перед человечеством.Книга предназначена широкому кругу читателей, всем, кто интересуется вопросами современной микробиологии и биотехнологии.


Научная фантастика

В сборник включены лучшие из тех произведений советских писателей-фантастов, которые впервые были опубликованы в издательстве «Знание». Это рассказы известных писателей, чей путь в научной фантастике начался в 50 — 60-е годы (Г. Альтова, Д. Биленкина, Е. Войскунского и И. Лукодьянова, Г. Гуревича, А. Днепрова, М. Емцева и Е. Парнова), а также произведения писателей младшего поколения (В. Колупаева, Г. Шаха и других). Книга рассчитана на широкий круг читателей.