Петербургская социология сегодня – 2015. Сборник научных трудов Социологического института РАН - [138]

Шрифт
Интервал

Отечественные разработки для анализа смешанных и качественных данных: Vega и TextAnalyst

Компьютерная программа «Vega» вышла в свет в 2007 году. Это совместная отечественная разработка СИ РАН и ЭМИ РАН. Разработчиками являются Г. И. Саганенко, Е. А. Каневский и К. К. Боярский. По сути, это усовершенствованная и адаптированная под операционную систему Windows программа «ДИСКАНТ» («Диалоговая система контент-анализа текстов»), которая была выпущена еще в 1994 году. Программу «Vega» отличает дружелюбный интерфейс и некоторые усовершенствования, которых не доставало в «ДИСКАНТЕ».

«Vega» ― это диалоговая система классификации и анализа текстов, использующая принципы контент-анализа текстов, словари и классификаторы. Система в основном предназначена для обработки структурированной, прежде всего анкетной, информации, представляющей собой ответы респондентов на открытые и полузакрытые вопросы социологических анкет. Кроме того, система позволяет выполнять некоторые элементы анализа текста: составление словарей, подсчет встречаемости слов, поиск слов по словарю и по тексту и т. д. Система обеспечивает статистический анализ ответов на закрытые и полузакрытые вопросы.

Программа «Vega» ― это инструмент не только качественного, но и количественного статистического анализа. Это в выгодную сторону отличает данную разработку от аналогов. В меню программы находится блок, названный статистическим анализом. Этот блок является достаточно мощным инструментом для программ текстового анализа.

С помощью данного блока пользователь может получать:

–одномерный статистический анализ;

– двухмерный статистический анализ;

– трехмерный статистический анализ;

– таблицу;

– многоальтернативный статистический анализ;

– шкалирование (что очень удобно, например, при работе с ответами о возрасте и уровне доходов).

В окне статистического анализа автоматически выводится среднее по полю, хи-квадрат, коэффициент Пирсона и коэффициент корреляции.

Основное же назначение данного программного продукта ― анализ текстовой информации. Работа со словарями представляет начальный ресурс для анализа текстовых полей. В «Веге» можно получать разнообразные словари, при этом в качестве текстовых единиц могут выступать слова, ключевые слова, фразы и полные ответы на один вопрос. Наиболее полезный ресурс ― это частотный словарь, который выводит все слова, встречающиеся в поле, с указанием их частоты встречаемости. Этот инструмент позволяет найти основные темы, на которые приходится фокус внимания респондентов. Словари могут быть получены по одному текстовому полю, по нескольким или по всем текстовым полям исследования. При этом словари могут быть получены на весь массив анкет или на сформированный по одному или нескольким значениям признаков конкретный подмассив.

При пермутационном выводе текста дается полный перебор всех фраз из заданного текстового массива в алфавитном порядке по каждому слову, содержащемуся в соответствующем словаре. Пермутационный словарь очень полезен для получения исследователем начальных представлений, о чем же говорят респонденты в своих ответах, при поиске тематических классов для процедуры классификации массивов ответов на открытые вопросы.

После первичного ознакомления с текстом с помощью разного вида словарей, как правило, следующая задача исследователя ― классификация суждений для выхода на более высокий уровень обобщений. При этой процедуре основная аналитическая нагрузка лежит на исследователе, программа же становится надежным партнером. В нашем исследовании ценностных ориентаций молодежи респондентов просили написать свои ценности, и обычно получаемые ответы были достаточно короткими ― не более пяти слов на описание одной ценности (Гегер 2010; Саганенко 2011). Это обстоятельство помогло нам применить процедуру автоклассификации текста. При этой операции машина «складывает» все однокоренные слова в одну папку, а исследователь затем группирует эти папки по смыслу. Так, в нашем случае был выделен класс «Семья», в который в качестве подклассов были введены категории «родители» и «дети». После окончания процедуры классификации можно получать различные статистики (распределения и пересечения) по выбранным классификаторам.

TextAnalyst ― программа, созданная отечественными разработчиками. В 1990-х годах российской компанией MegaputerIntelligence, образованной исследовательской группой искусственного интеллекта из МГУ и МГТУ им. Баумана, была создана система PolyAnalyst, на основе которой уже в 1996 году вышла в свет программа TextAnalyst. Несмотря на то что ее интерфейс полностью на русском языке и она проста в использовании, по количеству команд она значительно уступает «Веге» и для анализа текста применяет совершенно другие принципы.

Суть программы ― позволить в кратчайшие сроки ознакомиться с большим текстовым массивом, чтобы исследователь смог быстрее и лучше в нем сориентироваться. При загрузке файла TextAnalyst автоматически проводит реферирование текста и выделяет ключевые слова, выстраивая при этом семантическую сеть и формируя смысловой портрет материала. На выходе получается древовидная структура с ключевыми словами, которые проранжированы с учетом семантического веса слова и частоты встречаемости.


Еще от автора Коллектив Авторов
Диетология

Третье издание руководства (предыдущие вышли в 2001, 2006 гг.) переработано и дополнено. В книге приведены основополагающие принципы современной клинической диетологии в сочетании с изложением клинических особенностей течения заболеваний и патологических процессов. В основу книги положен собственный опыт авторского коллектива, а также последние достижения отечественной и зарубежной диетологии. Содержание издания объединяет научные аспекты питания больного человека и практические рекомендации по использованию диетотерапии в конкретных ситуациях организации лечебного питания не только в стационаре, но и в амбулаторных условиях.Для диетологов, гастроэнтерологов, терапевтов и студентов старших курсов медицинских вузов.


Психология человека от рождения до смерти

Этот учебник дает полное представление о современных знаниях в области психологии развития человека. Книга разделена на восемь частей и описывает особенности психологии разных возрастных периодов по следующим векторам: когнитивные особенности, аффективная сфера, мотивационная сфера, поведенческие особенности, особенности «Я-концепции». Особое внимание в книге уделено вопросам возрастной периодизации, детской и подростковой агрессии.Состав авторского коллектива учебника уникален. В работе над ним принимали участие девять докторов и пять кандидатов психологических наук.


Семейное право: Шпаргалка

В шпаргалке в краткой и удобной форме приведены ответы на все основные вопросы, предусмотренные государственным образовательным стандартом и учебной программой по дисциплине «Семейное право».Рекомендуется всем изучающим и сдающим дисциплину «Семейное право».


Налоговое право: Шпаргалка

В шпаргалке в краткой и удобной форме приведены ответы на все основные вопросы, предусмотренные государственным образовательным стандартом и учебной программой по дисциплине «Налоговое право».Книга позволит быстро получить основные знания по предмету, повторить пройденный материал, а также качественно подготовиться и успешно сдать зачет и экзамен.Рекомендуется всем изучающим и сдающим дисциплину «Налоговое право» в высших и средних учебных заведениях.


Трудовое право: Шпаргалка

В шпаргалке в краткой и удобной форме приведены ответы на все основные вопросы, предусмотренные государственным образовательным стандартом и учебной программой по дисциплине «Трудовое право».Книга позволит быстро получить основные знания по предмету, повторить пройденный материал, а также качественно подготовиться и успешно сдать зачет и экзамен.Рекомендуется всем изучающим и сдающим дисциплину «Трудовое право».


Международные экономические отношения: Шпаргалка

В шпаргалке в краткой и удобной форме приведены ответы на все основные вопросы, предусмотренные государственным образовательным стандартом и учебной программой по дисциплине «Международные экономические отношения».Книга позволит быстро получить основные знания по предмету повторить пройденный материал, а также качественно подготовиться и успешно сдать зачет и экзамен.Рекомендуется всем изучающим и сдающим дисциплину «Международные экономические отношения» в высших и средних учебных заведениях.


Рекомендуем почитать
Старший брат следит за тобой. Как защитить себя в цифровом мире

В эпоху тотальной цифровизации сложно представить свою жизнь без интернета и умных устройств. Но даже люди, осторожно ведущие себя в реальном мире, часто недостаточно внимательно относятся к своей цифровой безопасности. Между тем с последствиями такой беспечности можно столкнуться в любой момент: злоумышленник может перехватить управление автомобилем, а телевизор – записывать разговоры зрителей, с помощью игрушек преступники могут похищать детей, а к видеокамерам можно подключиться и шпионить за владельцами.


Продолжим наши игры+Кандибобер

Виктор Пронин пишет о героях, которые решают острые нравственные проблемы. В конфликтных ситуациях им приходится делать выбор между добром и злом, отстаивать свои убеждения или изменять им — тогда человек неизбежно теряет многое.


Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет

История машинного обучения, от теоретических исследований 50-х годов до наших дней, в изложении ведущего мирового специалиста по изучению нейросетей и искусственного интеллекта Терренса Сейновски. Автор рассказывает обо всех ключевых исследованиях и событиях, повлиявших на развитие этой технологии, начиная с первых конгрессов, посвященных искусственному разуму, и заканчивая глубоким обучением и возможностями, которые оно предоставляет разработчикам ИИ. В формате PDF A4 сохранен издательский макет.


Десять самых красивых экспериментов в истории науки

В наше время научные открытия совершатся большими коллективами ученых, но не так давно все было иначе. В истории навсегда остались звездные часы, когда ученые, задавая вопросы природе, получали ответы, ставя эксперимент в одиночку.Джордж Джонсон, замечательный популяризатор науки, рассказывает, как во время опытов по гравитации Галилео Галилей пел песни, отмеряя промежутки времени, Уильям Гарвей перевязывал руку, наблюдая ход крови по артериям и венам, а Иван Павлов заставлял подопытных собак истекать слюной при ударе тока.Перевод опубликован с согласия Alfred A, Knopf, филиала издательской группы Random House, Inc.


Безопасность жизнедеятельности. Шпаргалка

Настоящее издание поможет систематизировать полученные ранее знания, а также подготовиться к экзамену или зачету и успешно их сдать. Пособие предназначено для студентов высших и средних образовательных учреждений.