Современное программное обеспечение для проведения статистической обработки результатов научных исследований

Развитие компьютерных технологий позволило автоматизировать многие отрасли, в которых информационный анализ занимает важное место. Анализ данных как раз является наиболее затратным по вычислительным ресурсам. Поэтому, внедрение систем автоматизированной обработки больших объемов информации привело к революции в этой области.

 

В начале 60-х годов прошлого века стремительное развитие быстродействия и памяти компьютеров, а также внедрение вычислительных средст в науку и бизнес привело к необходимости создания универсальных языков программирования, которые не зависели бы от аппаратных характеристик электронных вычислительных машин (ЭВМ). В результате появилось целое семейство языков программирования, которые позволяли эффективно решать задачи анализа данных. Среди них были Cobol, Fortran, PL/1 и ряд других. Основу этих языков составляли операторы, которые последовательно описывали данные, операции с ними и выдачу их конечному пользователю.

 

Несколько позднее появился язык Basic. Этот популярный язык программирования был написан сотрудниками математического факультета Дармутского колледжа Джоном Кемени и Томасом Куру. По стечению обстоятельств первый персональный компьютер "Альтаир", который был ориентирован на продажу частным пользователям, имел интерпретатор языка basic, написанный первокурсником Гарвардского университета Билом Гейтсом и его другом молодым программистом Полом Аленом. Впоследствии практически все персональные компьютеры того времени были оснащены интерпретатором этого языка, который выполнял также функции операционной системы. Благодаря своей простоте и широкому распространению программирование вышло из самостоятельной сферы и стремительно проникло во все сферы деятельности человека. После basic появилось большое число других языков программирования, однако именно он оказал влияние на развитие целого поколения людей, которые выполняли анализ данных на основе построения программ.

 

Некоторая хаотичность развития технологий в этот период времени приводила к тому, что как таковых пакетов программ анализа данных не существовало. Как правило, исследователи сами писали программы, которые использовали в своей деятельности. Чем выше была квалификация программиста, тем адекватнее он мог решать поставленные задачи. Но уже на данном этапе было ясно, что внедрение машинных методов обработки информации повышает эффективность этого процесса в сотни и даже в тысячи раз. Пример программы для расчета средней арифметической на языке basic представлен в таблице 10.1.

Таблица 1 - Программа на языке basic для расчета средней арифметической и суммы чисел.

Текст программы

Комментарий

10

dim x(50)

резервирование массива для данных

20

input "число переменных", n

ввод данных

30

for i=1 to n

40

input "введите переменную", x(i)

50

next i

60

for i=1 to n

расчет суммы

70

s=s+x(i)

80

next i

90

a=s/n

расчет средней арифметической

100

print "сумма чисел", s

вывод результатов

110

print "средняя арифметическая", a

 

Как правило, исследователям приходилось писать большое число программ, каждая из которых позволяла рассчитывать и решать очень узкий круг задач.

Ситуация резко изменилась в начале 80-х годов, когда создание программ превратилось в коммерческую отрасль и появился рынок программного обеспечения. В одном из сегментов этого рынка были представлены профессиональные средства для анализа данных. Эти программы писались на машинном языке, что увеличивало их быстродействие, имели целый набор средств для анализа данных, что делало их гибкими и универсальными. Кроме этого в разработке пакетов программ участвовало большое число специалистов, что улучшало качество этих программ. Среди них были Statistica (dos), Statgraphics (dos), SAS и др. Неотъемлемым атрибутом программ явился интерфейс пользователя, который определял процесс взаимодействия между программой и конечным пользователем. Разделения процесса разработки статистических программ и их использования привело к значительному увеличению их универсальности и в конечном итоге числа их пользователей, которые использовали их как инструмент для решения различных задач в области бизнеса, науки и медицины.

За последние 20 лет западный рынок программного обеспечения претерпел сильные изменения. Если с начала 80-х годов на рынке было представлено более 100 основных программных продуктов, обладающих сходными характеристиками, то на настоящий момент эта цифра намного меньше. Большое количество мелких компаний предлагавших свои программные продукты были поглощены более крупными, как например BMDP Statistical Software. Учитывая высокую стоимость коммерческих пакетов на рынке появилось большое число свободного программного обеспечения, для статистических расчетов. Однако вследствие отсутствия технической поддержки и финансирования, большинство из них не развивается. Несмотря на некоторый спад развития в области классического статистического анализа, на настоящий момент идет бурное развитие программного обеспечения в других областях, связанных с анализом данных, как например, в области data mining или OLAP систем.

Российский рынок программного обеспечения также сильно изменился за последние 10 - 15 лет. В начале 90-х годов в России было представлено около десятка отечественных программных пакетов. Среди них Класс-Мастер, Квазар, Мезозавр и ряд других. Однако с появлением на отечественном рынке таких гигантов как SPSS, SAS и Statistica большинство из них прекратили свою деятельность.

На настоящий момент на российском рынке представлен относительно небольшой набор программного обеспечения производимого зарубежными компаниями. Учитывая стоимость и сложность освоения каждой из них, выбор программы для статистического анализа становится не простым делом, поэтому остановимся на отдельных моментах их использования.

MS Excel. Несмотря на частое цитирование этой программы в научной литературе, программой для статистического анализа она не является. Excel представляет собой электронную таблицу, которая позволяет рассчитывать, трансформировать и сортировать двухмерные массивы информации. Для выполнения этих задач в программе имеются большое число функций, которые позволяют проводить вычисления на основе данных из разнородного множества ячеек. Для статистического анализа имеется набор функций, позволяющий вычислять основные характеристики распределений. Ограниченность этого набора делают его не пригодным для серьезных вычислений.

В состав пакета входят средства для построения различных графиков, однако при решении ряда задач пользователь сталкивается с недостаточным количеством настроек и отсутствием некоторых специфических типов статистических графиков, например box-plot (коробчатый график).

Вместе с тем, интеграция Excel с Visual Basic for Applications превращает пакет в среду разработки и позволяет значительно расширить функциональность пакета. Следует отметить, имеющийся в виде надстройки пакет инженерного анализа, включающий около десяти наиболее часто используемых статистических критериев. Имеется также несколько коммерческих дополнений, которые содержат набор критериев для статистического анализа и значительно расширяют возможности программы по анализу данных. Среди них можно отметить Analysis-it (www.analyse-it.com), Palisade StatTools (www.palisade.com) и xlstat-pro (www.xlstat.com). С указанных сайтов можно взять пробные версии программ, имеющих ограничение по времени.

Написано большое число книг, посвященных использованию Excel для анализа данных [45, 87, 88]. В книге "Статистические методы в медико-биологических исследованиях" С.Н.Лапач с соавт. описано большое число листингов программ, которые позволяют самостоятельно ввести в пакет большое число новых статистических функций и инструментов [45].

Подобная гибкость в ряде случаев позволяет значительно снизить трудоемкость ручных операций. В частности, при исследовании качества жизни требуется перевод данных анкеты в значения восьми шкал качества жизни. Эта операция требует значительного числа вычислительных операций при ручных манипуляциях. Написание макроса на visual basic for application (VBA) позволило избежать этих ручных вычислений и снизить вероятность ошибки. Удобство Excel связано также с его тесной интеграцией в состав пакета MS OFFIS, что, несомненно, увеличивает удобство при переносе готовых данных в текст или презентацию.

Подводя итог можно указать, что Excel является неотъемлемой частью при статистическом анализе медико – биологических данных при предварительном сравнении, разведочном анализе и поиске простых закономерностей. С его помощью значительно сокращаются сроки разработки базы данных для последующего анализа в статистических пакетах.

SAS. (www.sas.com) Данная программа является продуктом одной из старейших и общепризнанных компаний. SAS была разработана как система для статистического анализа в начале 60-х годов прошлого столетия в Университете северной Каролины. В 1967 году был основан институт SAS, который развивает этот программный продукт до настоящего времени.  В состав пакета входят компоненты, которые дают значительные преимущества перед остальными системами. Среди них следует отметить системы управления большими базами данных, статистический анализ временных последовательностей, инструменты для проведения классификации, построение различных типов моделей и.т.д. Система поддерживает как PC, так и UNIX платформы. Немаловажным отличием ее от других программ, является также и то, что она поддерживает мейнфреймы.

Среди всех достоинств программы аналитики отмечают значительные ее возможности при операциях с базами данных. Можно трансформировать, объединять данные, делать из них выборки с помощью языка запросов. Пользователь может писать свои собственные функции. Для программирования операций существует PL/1 (С) подобный язык. Однако необходимость в нем возникает при решении сложных задач по трансформации данных. В простых случаях пользователь оперирует системой меню как и при использовании других программ.

Развитые средства импорта/экспорта позволяют обмениваться с данными большинства коммерческих программ. Для этого существует SAS/ACCESS компонент. Компонент SAS/STAT позволяет решать практически все задачи по анализу данных. Развитые графические возможности компонента SAS/GRAPH позволяют строить различные типы графиков. Имеются средства для работы с географическими данными.

На настоящий момент SAS является индустриальным стандартом программного обеспечения для анализа корпоративных данных. Среди его недостатков следует отметить дороговизну пакета, делающую ее малодоступной для российских пользователей. Относительно мало и русскоязычной литературы, описывающей работу с системой.

Таким образом, данная программа является профессиональной системой, которая может использоваться в больших организациях.

STATA. (http://www.stata.com). Также как и SAS этот программный продукт имеет развитую систему для управления данными, а также интерактивный язык описывающий трансформацию и анализ данных. Практически эта программа является одной из распространенных программ статистического анализа в академической среде.

Как и в случае с SAS наличие языка привело к тому, что различными исследователями было написано большое число дополнений, расширяющих функциональность пакета. Наличие официального журнала программы и большого количества документации облегчают работу с системой.

Программа относится к разряду профессиональных и дорогих пакетов. В России пакет также не получил широкого распространения.

SPSS (Statistical Package for Social Science) (http://www.spss.ru/). Наряду с пакетом STATA имеет широкое распространение в академической среде.  В отличие от предыдущих пакетов отличается оконным интерфейсом, хотя для написания процедур имеется встроенный язык макросов.

Программный пакет русифицирован и существует несколько Российских руководств, позволяющих обучится работе с этим пакетом. Данный программный продукт относится к достаточно мощным системам.

Развитые средства импорта - экспорта облегчают возможность получения данных из внешних источников, включая SQL серверы. Имеются средства для работы с данными, благодаря которым пользователь может проводить преобразование, слияние, расщепление и агрегирование данных, сортировку и ранжирование наблюдений. Практически это делает ее эквивалентной электронной таблице.

  Для статистического анализа и моделирования в программе имеется около двухсот различных процедур, включая многомерные методы исследования и построение моделей. Отмечается также, что программа оснащена очень гибкими инструментами ввода - вывода. Имеется возможность построения различных видов графиков. Полученные результаты можно экспортировать на сервер в виде HTML страниц или презентаций.

Кроме базового модуля системы существует несколько дополнений, которые расширяют возможности программы при решении специфических задач. Например, SPSS Answer Tree, который представляет собой модуль для построения деревьев решений.

При работе с пакетом бросается в глаза тот факт, что программа рассчитана для работы с большими массивами данных и выборками. Поэтому в ее составе отсутствуют развитые средства для исследования распределений и непараметрического анализа. Использование данной программы оптимально для проведения обработки данных клинических, экономических и социологических исследований. Для анализа данных из базисной фармакологии использование данной программы не является оптимальным.

STATISTICA (http://www.statsoft.com/). Программа имеет оконный интерфейс, хотя для программирования рутинных операций в последних версиях появился встроенный язык программирования. Она относится к достаточно мощным и содержит практически все средства для статистического анализа.

Пакет не сложен в освоении и имеется русскоязычная версия. Написано большое число руководств, что облегчает освоение пакета [89, 90]. Развитый набор критериев для проведения одномерного и многомерного анализа данных и мощная система для построения графиков способна удовлетворить пользователя при решении любого типа задач.

NCSS. (http://www.ncss.com/) Программа основана на оконном интерфейсе и содержит достаточно большой набор критериев для статистического анализа.

Особенностью пакета является развитая система справки и подсказок, облегчающие работу с программой для начинающих пользователей. В NCSS имеется большое количество критериев для работы с одномерной статистикой. В частности в этой программе реализован расчет пяти критериев на нормальность. Другой полезной особенностью программы является то, что программа проводит расчет не только основных статистических критериев, но условий их выполнения. Например, при сравнении средних проверяется не только их различие, но и нормальность распределения, равенство дисперсий и т.д.

По сравнению с остальными в программе очень удобно реализован алгоритм проведения пробит анализа, что делает ее незаменимым при оценке фармакологической активности новых соединений.

В целом данная программа достаточно удобна для анализа данных при проведении медико-биологических исследований. Кроме того, с сайта можно скачать 30 дневную версию.

STATGRAPHICS PLUS (http://www.statgraphics.com) Некоторое время назад программа была широко распространена среди исследователей. Интерфейс, система подсказок, документация сходна с таковой у NCSS. Содержит достаточно большое количество статистических функций. Однако, построение и настройка графиков в программе ограничена. В целом программа очень удобна при обработке небольших по размеру массивов информации.

JMP. (http://www.jmp.com/) Данный программный пакет развивается под эгидой SAS Institute. Считается достаточно мощной программой и содержит обширный набор статистических критериев. Программа была ориентирована на визуализацию данных. 

SYSTAT (http://systat.com/) Данная компания выпускает сразу несколько программных продуктов для статистического анализа: SYSTAT, SigmaStat и SigmaPlot. По мнению зарубежных аналитиков, программа обладает значительными возможностями при анализе данных. Последняя 11 версия программы SYSTAT лишена недостатков предыдущих версий. По набору критериев и принципам работы программа приближается к пакету Statistica.

Из недостатков следует отметить отсутствие русифицированного пакета и документации на русском языке, что вероятнее всего и является фактором низкой популярности пакета среди пользователей.

MINITAB 14 (http://www.minitab.com/) По набору статистических критериев и удобству программа близка к пакету Statgraphics. Этот пакет хорошо подходит для расчетов базовой статистики. Имеются развитые средства для построения графиков. Развитая справочная система помогает в проведении и интерпретации результатов анализа.

PRISM. (www.graphpad.com). По выполняемой функции эту программу можно отнести к специализированному программному обеспечению. Основная задача этого пакета расчет базовых статистических критериев и исследование взаимосвязи между переменными. Основным достоинством этого пакета является развитый набор средств для исследования нелинейных взаимосвязей. Развитый набор моделей позволяет проводить анализ выживаемости, оценку токсичности веществ и сравнения их между собой.

Для расчета статистических критериев мощности пакета недостаточно, что ограничивает применение исключительно для моделирования.

Таким образом, при выборе пакета можно дать следующие рекомендации. Разведочный анализ, трансформацию данных оптимально проводить в среде Excel, используя различные макросы и дополнения. Если цель анализа требует базового набора одномерных статистических критериев, то в дальнейшем оптимально воспользоваться пакетами Statgraphics, SYSTAT, MINITAB. При необходимости проведения многомерного анализа требуются более мощные пакеты, как Statistica и NCSS. Профессионалы в области анализа данных и статистической обработки, скорее всего, остановят свой выбор на SAS, SPSS или STATA.

В ряде случаев возникают ситуации при которых несмотря на универсальность пакета для анализа он не содержит средства для решения поставленной задачи. В таком случае можно попытаться провести поиск программ для решения возникшей проблемы в интернете. Как правило, исследователи при разработке собственных программ выкладывают их в интернете. Например, коммерческие программы не имеют в своем составе инструментов для проведения метаанализа. Поиск в интернете выявил, что существует более трех различных бесплатных программ, которые позволяют проводить подобный вид анализа. Одним из таких средств является макрос MIX для MS Excel (http://www.mix-for-meta-analysis.info).



Источник: http://pharmdoc.narod.ru/index/matematicheskaja_statistika_v_ehksperimentalnoj_i_klinicheskoj_farmakologii/0-12
Категория: Математическое моделирование | Добавил: pharmdoc (03.09.2013)
Просмотров: 9680 | Теги: статистический анализ | Рейтинг: 5.0/1
Всего комментариев: 0
ComForm">
avatar