Работа с данными в любой сфере - [16]

Шрифт
Интервал

Наука о данных обходит стороной этот трудоемкий процесс. Даже если вы изучите только самые основные «гаммы» – например, первые несколько алгоритмов, приведенных в главе 6 «Анализ данных» (часть I), – вы все равно значительно продвинетесь на пути к работе с очень сложным материалом. И как любой, кто имеет доступ к компьютеру, также сможете познакомиться с множеством бесплатных онлайн-программ и презентаций, касающихся анализа данных (а также курсов по науке о данных). Вы почти сразу сможете начать совершенствовать вашу технику, позволив программному обеспечению выполнить за вас подготовительную часть, пока вы сосредоточены на творческой составляющей своего проекта.

Хотя я всегда призываю тех, кто планирует заниматься наукой о данных, читать и узнавать как можно больше о ней, чтобы добраться до вершин своей профессии, я должен также подчеркнуть, что первое вхождение в предмет не должно быть ошеломляющим. Хотя и существуют некоторые предпосылки к тому, чтобы стать аналитиком данных (их мы рассмотрим более подробно в главе 10), я выбрал пять ключевых атрибутов для соответствующей настройки вашего мышления. Они позволят вам прямо сейчас приступить к освоению этой дисциплины.

1. Выберите правильное место, чтобы начать

Аналитикам данных не нужно знать всех тонкостей каждой части программного обеспечения и каждого алгоритма, чтобы разбираться в этой области. Существует огромное множество доступных программ, а алгоритмы варьируются от простейших, способных классифицировать данные, до самых сложных, использующихся в искусственном интеллекте. Когда вы в самом начале пути, то, прежде чем погрузиться в определенную область, нужно потратить время и выяснить, в какой сфере лежат ваши интересы, будь то визуализация или машинное обучение. Воздержитесь от спонтанного ответа – он не только ограничит вас на начальном этапе изучения науки о данных, но и может лишить вдохновения, если вы совершите ошибку при выборе. Многим визуализация может показаться интереснее, чем анализ, но вы должны не жалеть времени на то, чтобы понять, что требуется в каждом случае. Хорошая новость заключается в том, что к тому моменту, когда закончите читать эту книгу, вы будете гораздо яснее представлять, какая область интересует вас больше всего.

Давайте также уточним, что мы имеем в виду, говоря об ориентации на конкретную область; существует большая разница между выбором ниши, из которой вы можете совершить прыжок в своей карьере, и специализацией в ней. Последнее – опасный шаг, делать который я бы никогда не посоветовал. В конце концов, наука о данных – динамичный предмет и требует от своих практиков быть столь же динамичными в исследовании того, как решать новые проблемы в этой области. Алгоритмы меняются, программное обеспечение – тоже, и специализация в том, что в будущем перестанет существовать, не является конструктивным способом практиковать рассматриваемую дисциплину. Как мы обсуждали в главе 1, аналитики данных должны быть хорошо осведомлены о росте и переменах. Это особенно верно, если учесть, что скорость технологического развития непосредственно влияет на их работу, как это определено законом нашего старого друга Мура.

Закон Мура 2.0

Обобщим то, что мы узнали в главе 1: закон Мура является проекцией экспоненциального роста и основан на первоначальном наблюдении, что количество транзисторов в интегральной схеме будет удваиваться каждые два года. С тех пор этот закон используется для учета темпов развития (и обратно пропорциональных затрат) в области технологии и для прогнозирования того, как скоро будущие достижения могут стать реальностью. Тот факт, что каждый год у нас появляется новый iPhone с процессором примерно на 50 % быстрее, чем у предыдущей модели, служит одним из таких примеров действия закона Мура.

В отличие от ситуации 30-летней давности, когда доступ к средствам обработки данных имели только сотрудники разведывательных служб и правительственных органов безопасности, сегодня даже детям дошкольного возраста доступен широкий спектр данных с лежащих в их заднем кармане ручных устройств. Закон Мура позволяет нам получить доступ к данным, исследовать и использовать их потенциал через этот взрыв технических достижений.

Одним из моих любимых примеров действия закона Мура на практике является проект «Геном человека», который был запущен в 1990 г.[16] Участники проекта поставили перед собой задачу определить последовательность пар оснований нуклеотидов, составляющих ДНК человека. Медленные темпы в первые годы реализации проекта вызывали обеспокоенность у тех, кто наблюдал за его развитием извне. По прошествии первых семи лет прогнозисты подвели итог – в какой части генома последовательность установлена – и предсказали, что для завершения работы потребуется еще 300 лет. Однако в этих прогнозах они не учли закон Мура. Конечно же, следующие семь лет проекта ознаменовались полным и успешным секвенированием генома – примерно на 294 года раньше запланированного срока, если принять во внимание линейную прогрессию.

2. Напрягите творческие мышцы

Как мы узнали, массив данных будет полезен не меньше, чем аналитик данных. Для любого проекта требуется высокая степень креативности, чтобы получить максимальную отдачу от имеющихся данных. Аналитики данных должны проникнуться мышлением, позволяющим задавать правильные вопросы об интересующих их данных, и я хочу подчеркнуть здесь, что вы должны думать творчески и нестандартно – определяя далекоидущие последствия проекта через его массивы данных. В конце концов, применение данных способно дать удивительные результаты – высветить проблемы, нюансы и пробелы, о которых мы, возможно, не узнали бы без тщательного анализа данных. Это актуально для всех дисциплин и отраслей, которые используют данные для управления практикой: креативность – вклад аналитиков данных в наилучшее решение проблемы – значительно повлияет на качество выполнения задания.


Рекомендуем почитать
Записки парасистемного программиста

Методический материал для разработчика ПО. Статьи полезные с исторической точки зрения для всех любителей современных теорий организации программного производства, так еще и актуальность до сих пор не потеряна. Правда примеры основаны на реалиях тех времен (1984 год или около того), но это почти не помеха — аналоги в современной практике находятся без труда. В общем, приобщайтесь к истокам!


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку.


Flat Assembler 1.64. Мануал программера

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.


Firebird. Руководство разработчика баз данных

Рассмотрены вопросы, необходимые разработчику для создания клиент-серверных приложений с использованием СУБД Firebird, явившейся развитием СУБД Borland Interbase 6. Содержится обзор концепций и моделей архитектуры клиент/сервер, а также практические рекомендации по работе с клиентскими библиотеками Firebird. Детально описаны особенности типов данных SQL, язык манипулирования данными (Data Manipulation Language, DML), а также синтаксис и операторы языка определения данных ( Data Definition Language, DDL)