Том 33. Разум, машины и математика. Искусственный интеллект и его задачи - [22]

Шрифт
Интервал

* * *



В этом случае посещаемость не является определяющей переменной, поэтому не представлена в виде узла дерева. Существуют различные методологии, позволяющие определить, является ли переменная модели дискриминантной (иными словами, можно ли разделить выборку на группы в зависимости от значений этой переменной). В основе одной из самых популярных методологий лежит понятие энтропии Шеннона. В рамках этой методологии для каждого уровня дерева определяется переменная, порождающая меньше всего энтропии. Именно эта переменная и будет дискриминантной для рассматриваемого уровня. Рассмотрим метод подробнее.

Энтропия Шеннона S рассчитывается по следующей формуле:



Попробуем применить это понятие в нашей задаче об экзаменах. На первом уровне дерева необходимо проанализировать энтропию, порождаемую каждой переменной. Первая переменная — «оценка за предыдущий предмет». Если мы разделим выборки в зависимости от значений этой переменной, получим два подмножества выборок. Для первого подмножества энтропия Шеннона будет равна

S>Оценка за предыдущий предмет ниже средней = -0,75log(0,75)0,25log(0,25) = 0,56,

так как среди студентов, которые в прошлом году получили оценку ниже средней, не сдали экзамен 75 %, сдали — 25 %. Для второго множества энтропия Шеннона будет равна

S>Оценка за предыдущий предмет ниже средней = -0,33log(0,33) 0,67log(0,67) = 0,64,

так как треть студентов, которые в прошлом году получили оценку выше средней, не сдали экзамен, две трети студентов — сдали.

Подобные расчеты повторяются для каждой переменной. Следующая переменная — «посещаемость». Для простоты установим граничное значение посещаемости, равное 95 %. В этом случае

S>Посещаемость выше 95 %= -0,6log (0,6)0,4log(0,4)0,67;

S>Посещаемость выше 95 %= -0,5log (0,5)0,5log(0,5)0,69

Наконец, рассмотрим переменную «сданные задания» и вновь для простоты разобъем выборку на 2 группы, выделив тех, кто сдал больше и меньше 60 % заданий.

Имеем:

S>Сдано более 60 % заданий-0,75log(0,75)0,25log(0,25) = 0,56;

и

S>Сдано более 60 % заданий = -1log(1) = 0

Следовательно, наилучшей дискриминантной переменной будет последняя, так как энтропия подмножеств, выделенных на ее основе, равна 0,56 и 0.

В этом случае все представители обучающей выборки, сдавшие менее 60 % заданий, не сдали экзамен, следовательно, эту ветвь дерева можно не рассматривать.

Но другая ветвь содержит одинаковое число студентов, сдавших и не сдавших экзамен. Следовательно, необходимо продолжить анализ, не учитывая уже дискриминированные выборки.

Теперь остались только две переменные, которые могут повлиять на итоговое решение: «оценка за предыдущий предмет» и «посещаемость». Значения энтропии Шеннона для групп, выделенных в зависимости от значений первой дискриминантной переменной, таковы:

S>Оценка за предыдущий предмет ниже средней= -0,5log (0,5)0,5log (0,5) = 0,69;

S>Оценка за предыдущий предмет ниже средней-1log(1) = 0

Если мы рассмотрим переменную «посещаемость»,

S>Посещаемость выше 95 % = -0,33log (0,33)0,67log (0,67) = 0,64;

S>Посещаемость выше 95 % -1log(1) = 0

В качестве дискриминантной переменной мы выберем «посещаемость», так как для нее характерна меньшая энтропия.

Метод построения деревьев принятия решений и, следовательно, метод обучения деревьев прост и элегантен, однако обладает двумя значительными недостатками.

Первый из них состоит в том, что задачи с большим числом переменных решаются очень медленно. Второй, более серьезный, заключается в том, что результатом работы алгоритма будет не глобальный, а локальный оптимум. Иными словами, так как дерево всегда анализируется не полностью, а по отдельным уровням, возможно, что на каком-то этапе определенная переменная будет выбрана потому, что она снижает энтропию на своем уровне, однако при выборе другой переменной общее решение будет более оптимальным.

Чтобы повысить качество решений, получаемых с помощью деревьев, часто используются так называемые леса: с помощью различных методов производится обучение нескольких деревьев, а итоговый прогноз формируется с учетом результатов, полученных для каждого дерева..

В рамках этого подхода при обучении леса деревья принятия решений чаще всего строятся путем случайного выбора переменных. Иными словами, если мы хотим обучить 100 деревьев, составляющих лес, то для каждого дерева выберем пять случайных переменных и произведем обучение только с этими пятью переменными. Этот приближенный метод носит поэтическое название random forest («случайный лес»).

Глава 4. Автоматическое планирование и принятие решений

Описанные ниже события могли произойти в любой день.

14:32 — грузовик, двигавшийся по второстепенной дороге с превышением скорости, перевернулся. Водитель получил сильный ушиб головы.

14:53 — на место аварии прибыли пожарные и скорая помощь, которые за несколько минут извлекли из машины водителя в бессознательном состоянии и с серьезной черепно-мозговой травмой.

15:09 — машина скорой помощи прибыла в больницу, где реаниматологи диагностировали смерть мозга водителя.

15:28 — была установлена личность водителя, о его смерти сообщили родственникам.


Рекомендуем почитать
Таблица умножения. Как запомнить. Новый метод

Таблицу умножения перестроена, сделана новая картинка. Объём материала для запоминания сокращён примерно в 5 раз. Можно использовать самую сильную – зрительную память (в прежних картинках таблицы это невозможно). Ученики запоминали таблицу за один – полтора месяца. В ней всего 36 "домиков". Умножение и деление учаться одновременно. Книга обращена к детям, объяснение простое и понятное. Метод позволяет намного облегчить деление с остатком и сокращение дробей. Метод признан Министерством Просвещения России как полезная инновация (Муниципальное образование, инновации и эксперимент 2013/1)


Время переменных. Математический анализ в безумном мире

«Время переменных» – веселая книга о математике вокруг нас. Двадцать восемь увлекательных рассказов, посвященных разным аспектам математики, сопровождаются забавными авторскими рисунками. Математический анализ для Орлина – это универсальный язык, способный выразить все, с чем мы сталкиваемся каждый день, – любовь, риск, время и, самое главное, постоянные изменения. Тема движения времени находит отражение и в названиях частей книги – «Мгновения» и «Вечности», и в ее персонажах – от Шерлока Холмса до Марка Твена и Дэвида Фостера Уоллеса.


Значимые фигуры

Несмотря на загадочное происхождение отдельных своих элементов, математика не рождается в вакууме: ее создают люди. Некоторые из этих людей демонстрируют поразительную оригинальность и ясность ума. Именно им мы обязаны великими прорывными открытиями, именно их называем пионерами, первопроходцами, значимыми фигурами математики. Иэн Стюарт описывает открытия и раскрывает перед нами судьбы 25 величайших математиков в истории – от Архимеда до Уильяма Тёрстона. Каждый из этих потрясающих людей из разных уголков мира внес решающий вклад в развитие своей области математики.


Квантовый оптоэлектронный генератор

В книге развита теория квантового оптоэлектронного генератора (ОЭГ). Предложена модель ОЭГ на базе полуклассических уравнений лазера. При анализе доказано, что главным источником шума в ОЭГ является спонтанный шум лазера, обусловленный квантовой природой. Приводятся схемы и экспериментальные результаты исследования малошумящего ОЭГ, предназначенного для применения в различных областях военно-космической сферы.


Вначале была аксиома. Гильберт. Основания математики

Давид Гильберт намеревался привести математику из методологического хаоса, в который она погрузилась в конце XIX века, к порядку посредством аксиомы, обосновавшей ее непротиворечиво и полно. В итоге этот эпохальный проект провалился, но сама попытка навсегда изменила облик всей дисциплины. Чтобы избавить математику от противоречий, сделать ее «идеальной», Гильберт исследовал ее вдоль и поперек, даже углубился в физику, чтобы предоставить квантовой механике структуру, названную позже его именем, — гильбертово пространство.


Слово памяти (Владислав Игоревич Котюков)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.