Аналитическая культура. От сбора данных до бизнес-результатов - [12]

Шрифт
Интервал

Везде, где возможно, добавьте проверку значения каждого поля в свою электронную форму (рис. 2.1). То есть если данные четко структурированы и имеют установленный формат (например, почтовый индекс в США содержит от пяти до девяти цифр, а номер социальной страховки состоит из девяти цифр), проверяйте данные на соответствие этому формату, в противном случае предложите пользователю исправить возможные ошибки. Процесс проверки не ограничен только числовыми значениями. Например, можно проверять, чтобы дата или время вылета «обратно» были позже, чем вылета «туда». Иными словами, проверяйте все что можно, чтобы максимально избежать «мусора» в самом начале.


Рис. 2.1. Пример проверки значений в онлайновой регистрационной форме

Источник: http://www.jqwidgets.com


Если есть ограниченный набор допустимых значений, например аббревиатуры названий штатов в США, предложите пользователю выбрать нужный вариант из меню выпадающего списка. Автозаполнение может стать еще одним вариантом. В целом стремитесь к тому, чтобы пользователю пришлось вводить как можно меньше данных: лучше предложить варианты ответа на выбор, если, конечно, это позволяет формат требуемой информации.

В идеале постарайтесь максимально исключить человеческий фактор при сборе данных и по возможности автоматизируйте этот процесс.

Если вы располагаете временем и ресурсами, поручите двум сотрудникам независимо друг от друга расшифровывать данные (или пусть это дважды делает один сотрудник), сравнивать результаты и перепроверять данные в случае расхождений. Этот метод известен как «принцип двойной записи». Однажды я поручил стажеру расшифровать параметры из набора технических чертежей, он сделал это, а затем по собственной инициативе выполнил работу еще раз с последующей проверкой на различия. Мне как получателю данных это обеспечило уверенность в том, что точность данных максимально соответствует моим ожиданиям.

Интересный метод проверки применяется при передаче важных данных в цифровой форме, например номеров банковских счетов, номеров социальной страховки или даже номера ISBN этой книги. Этот метод называется контрольное число. После передаваемого номера добавляется число, которое представляет собой определенную функцию остальных цифр номера, и это число используется для проверки того, что предыдущие цифры были переданы из системы в систему без ошибок. Предположим, вам нужно передать индекс 94121. Воспользуемся самой простой схемой. Последовательно сложим все цифры, составляющие наш индекс, и получим 17. Сложим и эти цифры, получим 8. Передаем число 941218. Принимающая система выполняет все те же самые операции, но в обратной последовательности. Она отсекает последнюю цифру: 94121 → 17 → 8. Проверяет сумму цифр и получает в итоге 8. Почтовый индекс передан верно. В случае ошибки при передаче данных, например если бы вы передали почтовый индекс 841218, система обнаружила бы ошибку при проверке: 84121 → 16 → 7 ≠ 8.

Эта схема не отличается надежностью: 93221 (случайное повторение символа) или 94211 (перестановка символов местами) эту проверку пройдут. В случае необходимости контрольного числа в реальной жизни применяются более сложные математические функции, которые способны выявить в том числе и две указанные выше ошибки. Маршрутный номер (код банка, присваиваемый Американской банковской ассоциацией) — уникальное девятизначное число, стоящее в нижней части чека перед номером счета, — один из таких примеров[26]. Контрольное число маршрутного номера — функция

3 × (d>1 + d>4 + d>7) + 7 × (d>2 + d>5 + d>8) + d>3 + d>6 + d>9 mod 10 = 0

(mod означает получение остатка от целочисленного деления. Так, 32 mod 10 = 2, поскольку 32 = 3 × 10 + 2), которая проверяется простым кодом на языке Python:


routing_number = "122187238"

d = [int(c) for c in routing_number]

checksum = (# do the math!

      7 * (d [0] + d [3] + d [6]) +

      3 * (d [1] + d [4] + d [7]) +

      9 * (d [2] + d [5])

      ) % 10

print(d [8] == checksum)


Как видите, есть ряд способов, позволяющих сохранить высокое качество данных на стадии ввода информации. Но, к сожалению, и их нельзя считать абсолютно надежными. Итак, у вас в системе есть данные, которые переходят на стадию анализа. Что дальше?

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

При получении любой информации аналитику в первую очередь следует в той или иной форме провести разведочный анализ данных (глава 5) для оценки их качества. Простой способ проверки на вопиющие ошибки, как в приведенном выше примере с людьми пятидюймового роста, — сделать сводку из данных. Для каждого показателя можно составить пятичисловую сводку: два крайних значения (максимальное и минимальное значение), нижний (25-й процентиль) и верхний (75-й процентиль) квартили и медиану. Посмотрите на крайние значения. Насколько они адекватны? Они выше или ниже значений, которые вы могли бы ожидать? Пять дюймов — это очевидно слишком мало.

Вот пример того, как выглядит классификация набора данных по ирисам, представленная с помощью R — бесплатной и открытой программной среды для статистических вычислений и построения графиков, которой часто пользуются специалисты по статистике и работе с данными


Рекомендуем почитать
Мультипотенциалы. Руководство для тех, кто уже вырос, но так и не решил, кем хочет стать

Кем ты хочешь стать, когда вырастешь? Каждый из нас отвечал на этот вопрос в детстве. Удивительно, но ответ всегда предполагал одну-единственную возможность. Один-единственный вектор развития. Помните, как взрослые не понимали и даже сердились, если вы хотели освоить сразу несколько профессий? В нашем обществе не принято быть мультипотенциалом – человеком, совмещающим в своей деятельности множество интересов и творческих устремлений. Эксперименты воспринимаются как неразборчивость и непостоянство. Однако Эмили Вапник убеждена, что не обязательно концентрировать все свои силы и способности, чтобы реализоваться лишь в одной сфере.


От батутов до попкорна – 2. 100 дел ФАС России против малого и среднего бизнеса

Эта книга – продолжение первой части, вышедшей в 2015 г. Во второй части анализируются 100 дел ФАС России против малого и среднего бизнеса за 2016—2018 гг. Несмотря на принятие 3.07.2016 закона об «иммунитетах» для малого бизнеса от антимонопольного контроля, подходы ФАС изменились незначительно. По основным объектом преследования остаются н самые крупные игроки на рынке. В книге предлагается реформа антимонопольного регулирования, предусматривающая полное прекращение преследования МСП.


Планирование привычек

Патрик Эдблад показывает, как можно формировать стойкие привычки, не обливаясь потом от напряжения. Когда вы освоите эти навыки, в вашем распоряжении окажется секретный рецепт, позволяющий добиваться целей, не испытывая разочарований и желания махнуть на все рукой. Для широкого круга читателей.


Несведущий маэстро. Принципы управления шести великих дирижеров XX века

Что общего между дирижером оркестра и руководителем компании? Хороший дирижер, как и хороший руководитель, знает, как добиться правильного взаимодействия членов команды и их блестящей игры. Но что именно делает настоящий маэстро, чтобы его оркестр создавал великолепную и незабываемую музыку? «Несведущий маэстро» – это рассказ о стилях лидерства шести великих дирижеров XX века, о шести подходах к решению вопроса, как совмещать контроль и творческую свободу. Идеи Итая Талгама помогут вам по-новому взглянуть на самые распространенные проблемы, с которыми сталкиваются все руководители, научиться слышать звучание бизнес-процессов и стать лучшим лидером для своей команды. На русском языке публикуется впервые.


Как управлять интеллектуалами. Я, нерды и гики

Проект-менеджерам (и тем, кто мечтает стать начальником) посвящается.Писать тонны кода сложно, а управлять людьми еще сложнее! Так что вам просто необходима эта книга, чтобы научиться делать и то, и другое. Можно ли объединить прикольные истории и серьезные уроки? Майклу Лоппу (также известному в узких кругах как Рэндс) это удалось. Вас ждут выдуманные истории о выдуманных людях, обладающих невероятно полезным (хотя и выдуманным) опытом. Именно так Рэндс делится своим разнообразным, порой странным опытом, полученным за годы работы в крупных IT-корпорациях: Apple, Pinterest, Palantir, Netscape, Symantec и др.


Менеджер Мафии. Руководство для корпоративного Макиавелли

Старейший в мире и лучше всего организованный конгломерат раскрывает свои тайны менеджмента перед всеми, кто готов ими воспользоваться. В отличие от других бизнес-пособий, данная книга избавлена от теоретического пустословия и представляет вниманию читателей философию лидерства, на которой основана и в соответствии с которой на протяжении многих веков успешно управляется Империя мафии, неуклонно раздвигающая свои границы. Для широкого круга читателей.