C++. Сборник рецептов - [72]

Шрифт
Интервал

Пример 4.26. Подсчет статистики по текстовому файлу

>#include

>#include

>#include

>#include


>using namespace std;


>void countStuff(istream& in,

> int& chars, int& words, int& lines) {

> char cur = '\0';

> char last = '\0';

> chars = words = lines = 0;

> while (in.get(cur)) {

>  if (cur == '\n' ||

>   (cur == '\f' && last == '\r'))

>   lines++;

>  else chars++;

>  if (!std::isalnum(cur) && // Это конец

>   std::isalnum(last))      // слова

>   words++;

>  last = cur;

> }

> if (chars > 0) {         // Изменить значения слов

>  if (std::isalnum(last)) // и строк для специального

>   words++;               // случая

>  lines++;

> }

>}


>int main(int argc, char** argv) {

> if (argc < 2)

>  return(EXIT _FAILURE);

> ifstream in(argv[1]);

> if (!in)

>  exit(EXIT_FAILURE);

> int c, w, l;

> countStuff(in, c, w, l);

> cout << "символов: " << c << '\n';

> cout << "слов: " << w << '\n';

> cout << "строк: " << l << '\n';

>}

Обсуждение

Этот алгоритм очень прост. С символами все просто: увеличивайте счетчик символов при каждом вызове >get для входного потока. Со строками все не намного сложнее, так как способ представления концов строк зависит от операционной системы. К счастью, обычно это либо символ новой строки (>\n), либо последовательность из символов возврата каретки и перевода строки (>\r\n). Отслеживая текущий и предыдущий символы, можно легко обнаружить вхождения этой последовательности. Со словами все проще или сложнее, в зависимости от определения того, что такое «слово».

Для примера 4.26 я предположил, что слово это неразрывная последовательность буквенно-цифровых символов. В процессе просмотра каждого символа входного потока при обнаружении неалфавитно-цифрового символа я проверяю предыдущий символ — был ли он буквенно-цифровым или нет. Если был то это конец слова, и я увеличиваю счетчик слов. Определить, является ли символ буквенно-цифровым, можно с помощью функции >isalnum из >. Но это еще не все — с помощью аналогичных функций можно проверять символы на целый ряд других качеств. Функции, которые предназначены для проверки характеристик символов, приведены в табл. 4.3. Для широких символов используйте функции с такими же именами, но с буквой «w» после «is», например >iswSpace. Версии для широких символов объявлены в заголовочном файле >.


Табл. 4.3. Функции для проверки символов из и

ФункцияОписание
>isalpha iswalphaБуквенные символы: a-z, A-Z (верхний или нижний регистр)
>isupper iswupperБуквенные символы верхнего регистра: A-Z
>islower iswlowerБуквенные символы нижнего регистра: a-z
>isdigit iswdigitЧисловые символы: 0-9
>isxdigit iswxdigitШестнадцатеричные числовые символы: 0-9, a-f, A-F
>isspace iswspaceПробельные символы. ' ', \n, \t, \v, \r, \l
>iscntrl iswcntrlУправляющие символы: ASCII 0-31 и 127
>ispunct iswpunctСимволы пунктуации, не принадлежащие предыдущим группам
>isalnum iswalnum>isalpha или >isdigit равны true
>isprint iswprintПечатаемые символы ASCII
>isgraph iswgraph>isalpha, >isdigit или >ispunct равны true

После того как были прочтены все символы и достигнут конец файла, требуется сделать еще кое-что. Во-первых, строго говоря, цикл подсчитывает только переносы строк, а не сами строки. Следовательно, это значение будет на одну меньше, чем реальное число строк. Чтобы решить эту проблему, я, если файл содержит ненулевое число символов, просто увеличиваю счетчик строк на единицу. Во-вторых, если поток заканчивается на буквенно-цифровой символ, то поиск конца последнего слова не сработает, так как не будет следующего символа. Чтобы учесть это, я проверяю, является ли последний символ потока буквенно-цифровым (также только в том случае, если в файле содержится ненулевое число символов), и увеличиваю счетчик слов на единицу.

Методика использования потоков в примере 4.26 почти идентична той, которая описана в рецептах 4.14 и 4.15, но несколько проще, так как он только исследует файл, не внося никаких изменений.

Смотри также

Рецепты 4.14 и 4.15.

4.18. Подсчет вхождений каждого слова в текстовом файле

Проблема

Требуется подсчитать количество вхождений в текстовом файле каждого слова.

Решение

Для чтения из текстового файла непрерывных фрагментов текста используйте >operator>>, определенный в >, а для сохранения каждого слова и его частоты в файле используйте >map, определенный в >. Пример 4.27 демонстрирует, как это делается.

Пример 4.27. Подсчет частоты слов

>1  #include

>2  #include

>3  #include

>4  #include

>5

>6  typedef std::map StrIntMap;

>7

>8  void countWords(std::istream& in, StrIntMap& words) {

>9

>10  std::string s;

>11

>12  while (in >> s) {

>13   ++words[s];

>14  }

>15 }

>16

>17 int main(int argc, char** argv) {

>18

>19  if (argc < 2)

>20   return(EXIT_FAILURE);

>21

>22  std::ifstream in(argv[1]);

>23

>24  if (!in)

>25   exit(EXIT_FAILURE);

>26

>27  StrIntMap w;

>28  countWords(in, w);

>29

>30  for (StrIntMap::iterator p = w.begin();

>31   p != w.end(); ++p) {

>32   std::cout << p->first << " присутствует "

>33    << p->second << " раз.\n";

>34  }

>35 }

Обсуждение

Пример 4.27 кажется вполне простым, но в нем делается больше, чем кажется. Большая часть тонкостей связана с


Рекомендуем почитать
Изучаем Java EE 7

Java Enterprise Edition (Java EE) остается одной из ведущих технологий и платформ на основе Java. Данная книга представляет собой логичное пошаговое руководство, в котором подробно описаны многие спецификации и эталонные реализации Java EE 7. Работа с ними продемонстрирована на практических примерах. В этом фундаментальном издании также используется новейшая версия инструмента GlassFish, предназначенного для развертывания и администрирования примеров кода. Книга написана ведущим специалистом по обработке запросов на спецификацию Java EE, членом наблюдательного совета организации Java Community Process (JCP)


Pro Git

Разработчику часто требуется много сторонних инструментов, чтобы создавать и поддерживать проект. Система Git — один из таких инструментов и используется для контроля промежуточных версий вашего приложения, позволяя вам исправлять ошибки, откатывать к старой версии, разрабатывать проект в команде и сливать его потом. В книге вы узнаете об основах работы с Git: установка, ключевые команды, gitHub и многое другое.В книге рассматриваются следующие темы:основы Git;ветвление в Git;Git на сервере;распределённый Git;GitHub;инструменты Git;настройка Git;Git и другие системы контроля версий.


Java 7

Рассмотрено все необходимое для разработки, компиляции, отладки и запуска приложений Java. Изложены практические приемы использования как традиционных, так и новейших конструкций объектно-ориентированного языка Java, графической библиотеки классов Swing, расширенной библиотеки Java 2D, работа со звуком, печать, способы русификации программ. Приведено полное описание нововведений Java SE 7: двоичная запись чисел, строковые варианты разветвлений, "ромбовидный оператор", NIO2, новые средства многопоточности и др.


Фундаментальные алгоритмы и структуры данных в Delphi

Книга "Фундаментальные алгоритмы и структуры данных в Delphi" представляет собой уникальное учебное и справочное пособие по наиболее распространенным алгоритмам манипулирования данными, которые зарекомендовали себя как надежные и проверенные многими поколениями программистов. По данным журнала "Delphi Informant" за 2002 год, эта книга была признана сообществом разработчиков прикладных приложений на Delphi как «самая лучшая книга по практическому применению всех версий Delphi».В книге подробно рассматриваются базовые понятия алгоритмов и основополагающие структуры данных, алгоритмы сортировки, поиска, хеширования, синтаксического разбора, сжатия данных, а также многие другие темы, тесно связанные с прикладным программированием.


Питон — модули, пакеты, классы, экземпляры

Python - объектно-ориентированный язык сверхвысокого уровня. Python, в отличии от Java, не требует исключительно объектной ориентированности, но классы в Python так просто изучить и так удобно использовать, что даже новые и неискушенные пользователи быстро переходят на ОО-подход.


Как пасти котов. Наставление для программистов, руководящих другими программистами

«Как пасти котов» – это книга о лидерстве и руководстве, о том, как первое совмещать со вторым. Это, если хотите, словарь трудных случаев управления IT-проектами. Программист подобен кошке, которая гуляет сама по себе. Так уж исторически сложилось. Именно поэтому так непросто быть руководителем команды разработчиков. Даже если вы еще месяц назад были блестящим и дисциплинированным программистом и вдруг оказались в роли менеджера, вряд ли вы знаете, с чего надо начать, какой выбрать стиль руководства, как нанимать и увольнять сотрудников, проводить совещания, добиваться своевременного выполнения задач.