Программа на C++ состоит из одного или нескольких файлов (§R.3.3). С логической точки зрения файл транслируется за несколько проходов. Первый проход состоит в препроцессорной обработке (§R.16), на которой происходит включение файлов и макроподстановка. Работа препроцессора управляется с помощью команд, являющихся строками, первый символ которых отличный от пробела есть # ($$R2.1). Результат работы препроцессора есть последовательность лексем. Такую последовательность лексем, т.е. файл после препроцессорной обработки, называют единицей трансляции.
Существуют лексемы пяти видов: идентификаторы, служебные слова, литералы, операции и различные разделители. Пробелы, вертикальная и горизонтальная табуляция, конец строки, перевод строки и комментарии (все вместе "обобщенные" пробелы), как указано ниже, игнорируются, за исключением того, что они отделяют лексемы. Обобщенные пробелы нужны, чтобы разделить стоящие рядом идентификаторы, служебные слова и константы.
Если входной поток разобран на лексемы до данного символа, то следующей лексемой считается лексема с максимально возможной длиной, которая начинается с этого символа.
Перечисленные ниже идентификаторы фиксируются как служебные слова и в другом смысле не могут использоваться:
>asm continue float new signed try
>auto default for operator sizeof typedef
>break delete friend private static union
>case do goto protected struct unsigned
>catch double if public switch virtual
>char else inline register template void
>class enum int return this volatile
>const extern long short throw while
В дополнение к этому идентификаторы, содержащие двойное подчеркивание (__) резервируются для реализаций C++ и стандартных библиотек и пользователи не должны употреблять их.
В представлении программы на C++ в кодировке ASCII используются в качестве операций или разделителей следующие символы:
>! % ^ & * ( ) - + = {} | ~
>[ ] \ ; ': " ‹ › ? , . /
а следующие комбинации символов используются для задания операций:
>-› ++ -- .* -›* ‹‹ ›› ‹= ›= == != &&
>|| *= /= %= += -= ‹‹= ››= &= ^= |= ::
Каждая операция считается отдельной лексемой.
В дополнении к этому следующие символы резервируются для препроцессора:
># ##
Определенные, зависящие от реализации, свойства, такие как тип операции sizeof ($$R5.3.2) или диапазоны базовых типов (§R.3.6.1) определяются в стандартных заголовочных файлах (§R.16.4)
>‹float.h› ‹limits.h› ‹stddef.h›
Эти файлы являются частью ANSI стандарта для С. Кроме того заголовочные файлы