Экономическое моделирование и прогнозирование на компьютере. 1.4. Моделируем распределение доходов: MATHEMATICA + STATISTICA. Э.Ю.Лернер, О.А.Кашина

"Экономическое моделирование и прогнозирование на компьютере"
1.4. Моделируем распределение доходов: MATHEMATICA + STATISTICA.
Э.Ю.Лернер, О.А.Кашина

Вернуться на страницу <Методические разработки>
Архив параграфа 1.4 (580 Кб, формат RTF)

- Ой, Вань, гляди, какие клоуны!
- Рот - хоть завязочки пришей...
- Ой, до чего, Вань, размалеваны,
- И голос…

В.Высоцкий “Диалог у телевизора”

Не удивляйтесь, читатель, столь несерьезному и, на первый взгляд, неуместному эпиграфу, предваряющему раздел, где впервые говорится о пакете STATISTICA. Дело в том, что интерфейс, посредством которого осуществляется диалог пользователя с этой системой, ассоциируется у нас с марионеткой, кукольным паяцем. Подобно тому, как Вы заставляете паяца плясать, дергая его за нужные ниточки, Вы получаете желаемую реакцию системы, нажимая те или кнопки на панели инструментов пакета. Сам механизм управления при этом остается за кадром – и в том, и в другом случае вам нужно знать лишь результат каждого вашего действия.

STATISTICA – специализированный пакет для обработки статистической информации; в нем имеются удобные средства для работы с данными разных типов. Возможности визуализации и первичной обработки данных, реализованные в STATISTICе, отличают ее от других пакетов. В следующем разделе мы рассмотрим эти возможности более подробно. Пока же “прощупаем” ситуацию, “проиграем” модель, используя лишь основные функции STATISTICи. Но не торопитесь закрывать пакет MATHEMATICA! При решении экономических статистических задач (конечно, если это не тривиальные примеры, а исследовательские проблемы) нельзя обойтись без фундаментального математического аппарата. STATISTICA соотносится с MATHEMATICой точно так же, как статистика соотносится с математикой. Экономическое моделирование требует совместного применения как общих аналитических математических методов, так и специфических статистических приемов. Лучшие помощники здесь – STATISTICA и MATHEMATICA.

О распределении доходов…

Вы слышите по местному радио, как мэр Вашего городка утверждает, что средний доход его жителей составляет 1 000 условных единиц. Вы возмущены! Самым “популярным” среди Ваших многочисленных родственников, знакомых, знакомых ваших родственников и родственников Ваших знакомых является доход в 500 у.е. Хотя, чуть поразмыслив, Вы понимаете, что такое возможно. Если представители высшего света (т.е. 1% населения) получают, скажем, по 100 000 у.е., то даже при нулевом доходе остального населения (99%) среднее будет составлять: 0.01100 000=1 000 (у.е.). Говоря языком математической статистики, наиболее распространенное значение дохода – мода, – не совпадает со средним его значением, или математическое ожиданием.

Через некоторое время Вы получаете повышение по службе, и Ваш доход вырастает аж до 800 у.е. Вы замечаете, что половина Ваших сослуживцев Вам завидует, а половина смотрит свысока. Значит, Вы – типичный представитель среднего класса! Но доход-то у Вас гораздо ниже среднего! Это Вам не дает покоя, и Вы достаете учебники, где излагаются основные сведения из теории вероятностей и математической статистике (хорошо если у Вас есть книги по прикладной статистике, например, Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. // М.: “ИНФРА–М”, 1998, – прочитайте для начала первые две главы. Если же Вы одолеете главы 9 и 10 книги Феллер В. Введение в теорию вероятностей и ее приложения. Т.1. // М., Мир, 1984, то следующие две страницы этого пособия, вплоть до формулы (1.4.1), можете вообще пропустить.) Теперь мы уверены в том, что Вы владеете основными понятиями из теории вероятностей (непрерывные и дискретные случайные величины, плотность и функция распределения, числовые характеристики с.в.: среднее, дисперсия, среднее квадратическое отклонение, квантили), а также из математической статистики (выборка, генеральная совокупность, выборочные оценки параметров распределения).

Итак, 800 у.е. – это медиана распределения дохода, или 50% квантиль. Перед нами три (!) различные характеристики с.в., причем все они в некотором смысле характеризуют средний ее уровень. (Аналогичная ситуация описана в Гарднер М. А ну-ка, догадайся! М.: Мир, 1984, с.146). Это все понятно. Но среднее значение дохода в обществе – это все равно, что средняя температура пациентов в больнице. Чтобы оценить состояние общества, нужно знать закон распределения дохода, а не только его отдельные параметры.

Построим закон распределения дохода для Вашего городка и проанализируем его взаимосвязь с модой, медианой и математическим ожиданием с помощью пакета STATISTICA.

Будем считать, что STATISTICA уже установлена на Вашем компьютере.

Если ее фирменного значка еще нет на Вашем рабочем столе, найдите файл Sta_win.exe с соответствующей пиктограммой и перетащите ее на рабочий стол. Двойной щелчок по пиктограмме запускает пакет. На экране появляется следующая картинка:

Рисунок 1.4.1. Главное меню пакета STATISTICA.

STATISTICA, в отличие от пакета MATHEMATICA, состоит из отдельных модулей, перечисленных в главном меню. Выбор модуля осуществляется двойным щелчком мыши.

Для начала посмотрим на графики плотностей известных распределений. В первую очередь полюбуемся “колокольчиком” Гаусса. Его популярность в статистической литературе обусловлена тем, что по нормальному закону распределены многие с.в., совершенно разные по своей физической сути. Такая “информационная компактность” объясняется центральной предельной теоремой (см., например, Захаров В.К., Севастьянов Б.А., Чистяков В.П. Теория вероятностей. //М.: “Наука”, 1983.). Напомним, что ЦПТ устанавливает нормальность распределения для суммы большого числа независимых случайных величин.

Выберем в главном меню опцию Basic Statistics and Tables, а в меню этой опции – Probability calculator (см. рис. 1.4.2).

Рисунок 1.4.2. Опции Basic Statistics and Tables.

Перед нами – очередное меню со списком известных законов распределения. Выберем нормальное распределение (последнее в списке) и зададим его параметы: среднее значение (mean = 0) и среднее квадратическое отклонение (standard deviation = 1). (Традиционными обозначениями параметров нормального распределения являются a и s). Введем в поле с надписью p уровень квантиля – положив p=0,5, мы узнаем значение медианы этого распределения (оно отобразится в поле Z). Нажав кнопку Compute, получаем следующую картинку:

Рисунок 1.4.3. Меню Probability Distribution Calculator.

Закрашенная часть графика соответствует значениям, меньше заданного квантиля (медианы).

Еще более красивый график плотности и функции распределения будет построен (в новом окне), если выбрать опцию Create Graph – убедитесь в этом сами.

Как нетрудно видеть, стандартное нормальное распределение симметрично, для него мат. ожидание, мода и медиана равны нулю. Ясно, что этот закон для описания нашего дохода не подходит, – вероятность получения отрицательного дохода не может быть равна 0,5!

Изменим параметры нормального распределения, положив, например, mean=1000, st.dev.=300. Снимем отметку фиксированного масштаба (Fixed Scaling) в нижнем левом углу панели. Получим график плотности, симметричный относительно прямой, проходящей вертикально через значение среднего (mean=1000) на оси абсцисс. На первый взгляд график выглядит так же, как и график стандартного нормального распределения, разве что стал чуть более пологим. (Если бы не изменение масштаба, которое STATISTICA осуществляет автоматически для улучшения внешнего вида графика, “колокольчик” с таким s просто расплющился бы!) Значение медианы в поле Z теперь равно 1 000.

Теоретическое доказательство того, что в случае любого распределения, имеющего ось симметрии, мат. ожидание, мода и медиана совпадают с координатой этой оси – хорошее упражнение для начинающего исследователя. Для нашего же случая мат. ожидание, мода и медиана дохода различны. Значит, доход в нашем городе явно распределен ненормально! Не будем призывать к перераспределению доходов, а займемся лучше исследованием свойств других распределений.

Как уже было сказано, нормальным является распределение суммы большого числа независимых факторов, – в этом случае говорят об аддитивном характере их воздействия на результирующую с.в. В экономике же характер совместного действия многочисленных случайных факторов нередко является не аддитивным, а мультипликативным: значение результирующего признака h , достигнутое за счет действия случайного фактора x , пропорционально текущему значению h с коэффициентом (1+x ). (Так, в примере из §1.3, сумма вклада в банке “Золотые горы” на 1 февраля 2000 года пропорциональна сумме вклада на 1 января 2000 года с коэффициентом (1+x ), где x равна 1/12 ставки процента на 2000 год.) Если число случайных факторов достаточно велико, воздействие каждого из них незначительно и имеет мультипликативный характер, то результат будет иметь не нормальное, а так называемое логарифмически-нормальное (логнормальное) распределение (Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. // М.: “Юнити”, 1998.).

Плотность логнормального распределения имеет вид:

(1.4.1)

Функция распределения:

(1.4.2)

Упражнение 1.4.1. Докажите, что логарифм с.в., распределенной по логнормальному закону с параметрами (a, s), имеет нормальное распределение с параметрами (ln a, s). Кроме того, покажите с помощью пакета MATHEMATICA, что плотность логнормального распределения есть производная функции (1.4.2).

Указание: для операций дифференцирования и интегрирования используйте соответственно функции:

D[дифференцируемая функция, аргумент],

Integrate[подинтегральная функция, {аргумент, нижний предел, верхний предел}].

Замечание. Необходимые шаблоны можно найти в панели: 2 Basic Calculations (см. рис. 1.3.2). Вписывать формулы в квадратики шаблона – работа почти ювелирная. Облегчить ее можно за счет “внедрения” подынтегральной функции в placeholder. Для этого нужно выделить формулу и нажать шаблон интеграла. Перемещение курсора между нижним и верхним пределами интегрирования осуществляется с помощью клавиш: Ctrl+% (Ctrl+5).

Другие характеристики логнормального распределения:

Среднее значение (математическое ожидание):

Мода:

Медиана:

(1.4.3)

Из перечисленных выше формул видно, что куб медианы логнормального распределения равен произведению квадрата среднего на моду. В нашем примере это равенство выполняется приблизительно: .

Чтобы построить график плотности и функции логнормального распределения для нашего примера, найдем значения параметров а и sigma. Будем считать, что значения параметров совпадают с их точечными оценками. Для нашего примера число 800 является оценкой для моды, то есть параметра а. Значение параметра sigma найдем из условия: . Получаем: sigma=0,685568.

Следует иметь в виду, что в качестве параметра mu в пакете STATISTICA следует взять lna, то есть приблизительно 6,6846.

Построенный график изображен на рисунке 1.4.4.

st5.gif (36031 bytes)

Рисунок 1.4.4. График плотности (слева) и функции логнормального распределения (справа).

Зная плотность, мы можем ответить на многие вопросы. Например, нас интересует, какой процент населения имеет доход выше среднего. Так как средний доход равен 1 000 у.е., введем число 1 000 в поле L (аргумент функции логнормального распределения) и нажмем кнопку Compute. В поле p мы увидим вероятность того, что с.в. принимает значение, меньшее 1 000 у.е. (0,6276). Следовательно, доход выше среднего имеют 37,24% жителей города. А сколько человек имеют очень маленький доход, скажем, не превышающий 400 у.е.? Оказывается, почти 16%. Выясним теперь, какой процент населения имеет доход свыше 10 000. Получается, лишь чуть больше 0,1%. Это противоречит Вашим представлениям о высшем свете, – в него, по-вашему, входит каждый сотый житель, и половина из них имеет доход свыше 10 000. Какой же доход является “проходным баллом” в высшее общество? Эта задача обратна предыдущей. Введем в поле p число 0,99 (т.к. 99% этого балла не набрали), нажмем Compute, и в поле L увидим число 3 942 “с хвостиком”. Вам же кажется, что “проходной балл” должен быть существенно выше.

Попробуем разобраться. Мы видим, что распределение дохода в Вашем городке, возможно, подчинено логнормальному закону. По крайней мере, если рассматривать лишь ту категорию населения, доход которой расположен левее медианы (условимся называть их бедными), то все результаты, полученные с помощью пакета STATISTICA, неплохо согласуются с Вашими представлениями. Что же касается людей, чей доход превышает медиану (их будем называть богатыми), то здесь дело обстоит несколько иначе, чем Вам представляется. Богатым, похоже, логнормальный “закон не писан”. Отметим, что согласно нашему определению бедные (как и богатые) составляют половину населения.

Считать чужие деньги – занятие интересное, и не только для нас с Вами. Еще в конце прошлого века итальянский экономист Вильфредо Парето рассматривал распределение дохода налогоплательщиков. (Ланге О. Введение в эконометрику. М.: “Прогресс”, 1964.) Поскольку часть населения налогов не платит (ввиду того что их доход не превышает установленного значения), Парето имел дело лишь с теми значениями, которые превышают этот порог. (Позднее такие распределения были названы усеченными.) Парето обнаружил, что закон распределения высоких доходов описывается формулой:

(1.4.4)

Здесь параметр с обозначает минимальное значение с.в., а параметр a характеризует кривизну функции.

Итак, мы хотим описать распределение дохода среди богатого населения. Значение параметра с плотности распределения Парето, таким образом, равно медиане (800 у.е.), а значение параметра a нам нужно оценить. Получить необходимые для этого промежуточные результаты Вы можете, сделав следующие упражнения:

Упражнение 1.4.2. Найдите вручную формулы мат. ожидания и функции распределения Парето и проверьте результат с помощью пакета MATHEMATICA.

Упражнение 1.4.3. Для данных нашего примера убедитесь с помощью пакета MATHEMATICA в том, что средний доход бедной части населения примерно равен моде.

Указание: плотность логнормального распределения нужно умножить на 2х (т.к. бедное население составляет лишь половину общей численности) и взять от нее интеграл в пределах: 0 – 800.

Оценим значение параметра a , исходя из среднего дохода богатой части населения. Поскольку бедная часть населения имеет средний доход, примерно равный 500 у.е. (см. упражнение 1.4.3), общий средний доход равен 1 000 у.е., численность богатого и бедного населения одинакова, то средний доход богатых равен 1 500 у.е. Формула для мат. ожидания распределения Парето (см. упражнение 1.4.2) имеет вид:

(1.4.5)

Отсюда получаем: .

Построим график плотности распределения Парето в пакете STATISTICA. (Если Вы уже закрыли предыдущие окна, то можете возобновить работу с помощью опции Analysis – Resume Analysis или же Analysis – Probability Calculator.) Выбрав Pareto в уже знакомом нам окне Probability Distribution Calculator, введем значение параметра a , равное 2,1486 в поле shape.

Замечание. Для ввода параметра с, как мы видим, поля не предусмотрено – предполагается, что с=1. Если распределение с.в. имеет другое значение параметра с, то произведем “деноминацию”, выбрав с в качестве новой “денежной единицы”. Статистики называют эту процедуру нормированием с.в.

Выберем опцию Create Graph и нажмем Compute. Получим график плотности и функции распределения Парето для с=1. Читать полученный график не слишком удобно – разметка оси не соответствует исходным единицам; чтобы вернуться к ним, нужно каждый раз умножать значения абсциссы на 800 у.е.

Пакет MATHEMATICA содержит более гибкие средства построения графиков. Построим в нем плотности распределения Парето для наших параметров и выясним, как “стыкуются” распределения дохода для бедного и богатого населения.

В пакете MATHEMATICA есть отдельные модули (packages) для выполнения различных специальных вычислений. Чтобы выполнить статистические расчеты, подключим “мастера”, который будет сам осуществлять поиск нужного модуля: <<Statistics ґMasterґ. (Обратите внимание, что здесь используются обратные апострофы – они расположены на клавиатуре под знаком “тильда”.)

Замечание. Чтобы избежать синтаксических ошибок при вводе названий законов распределений, лучше использовать Help и копировать оттуда целые выражения. Удобно также не набирать длинные ключевые слова целиком – после нескольких введенных символов нажмите Ctrl+K и выберете нужный пункт из возникающего при этом списка. Однако это не срабатывает для ключевых слов отдельных модулей.

Выберем нужное нам распределение из общего списка понятных STATISTICе законов: Help – Help – Add-ons – Standard packages – Statistics – ContiniousDistributions. Запомним выбранный закон (Парето) с указанными параметрами как значение некоторой переменной (назовем ее MyPareto). Эта переменная пригодится нам для последующего обращения к распределению Парето:

MyPareto=ParetoDistribution[800,2.1486].

Попытаемся произвести “стыковку” законов распределения дохода бедного и богатого населения. Напомним, что по нашей классификации бедных и богатых поровну, а потому графики плотностей распределения дохода должны совпасть в медиане.

Важное замечание. Как известно, плотность любого распределения ограничивает на плоскости фигуру единичной площади. Мы используем “половину” логнормальной кривой для описания распределения доходов бедного населения. Плотность же распределения Парето перед “стыковкой” необходимо уполовинить, то есть домножить его на долю богатого населения. Тогда результирующая кривая будет ограничивать фигуру площадью Ѕ+Ѕ=1.

Вычислим значение плотности распределения Парето в медиане (x=800): PDF[MyPareto,800]/2. Получаем число 0.00134288. Используя график плотности логнормального распределения, полученный с помощью пакета STATISTICA (рис.1.4.4), (а еще лучше – построив график с лучшей разметкой оси ординат с помощью пакета MATHEMATICA), убеждаемся, что вычисленное значение превышает даже модальное значение плотности логнормального распределения, а тем более, значение плотности при x=800. Таким образом, ожидаемой стыковки не происходит.

Чем же это объяснить? Напомним, что у нас нет реальных данных, и все выводы о параметрах распределения дохода мы делаем на основании известного математического ожидания (мы не смеем подвергать сомнению правильность утверждений мэра), приблизительного значения моды (полученного по Вашим оценкам) и еще гораздо более приблизительной оценки медианы (основанной не на реальных данных, а лишь на эмоциональной окраске Ваших контактов с сослуживцами). Похоже, Вы не совсем точны в своих оценках – медиана, видимо, расположена левее, (то есть по нашей двоичной классификации Вы уже относитесь к категории богатых).

Отыщем медиану распределения дохода.

Напомним, что бедняки подчиняются логнормальному закону, а богачи живут по закону Парето. В качестве исходных данных будем использовать моду и математическое ожидание. Из формул (1.4.3) получим выражение для медианы логнормального распределения: .

Для обозначения моды, математического ожидания, медианы и параметра s будем использовать соответственно переменные mod, mean, med, sig. Для чистоты эксперимента очистим их от возможных прежних значений: Clear[mod, mean, med, sig].

Замечание. Очистить сразу все переменные можно, закрыв ядро (Kernel) пакета MATHEMATICA.

Выполним присвоения:

mod=500; mean=1000; med=mod E^sig^2.

Напомним, что в точке med графики плотностей, описывающих доход бедного (логнормальный закон) и богатого населения (половина от плотности распределения Парето) должны сомкнуться. Мы отказались от предположения, что медиана составляет 800 у.е. и пытаемся найти ее численное значение. Очевидно, что для этого достаточно найти значение переменной sig. Но сначала нужно исключить переменную a.. Приравняем значения плотности (1.4.1) и уполовиненной плотности (1.4.4) при x, равном значению медианы. (x=a для (1.4.1) и x=c для (1.4.4)). Получим уравнение: , которое решим относительно a.:

sol=Solve[1/(Sqrt[2 Pi] sig)==al/2,al].

Замечание. Мы могли не выписывать вручную формулы для плотностей, а найти точку сопряжения плотностей в пакете MATHEMATICA следующим образом: подключить модуль статистики: <<Statistics`Master`; ввести переменные для логнормального распределения и распределения Парето: mylog=LogNormalDistribution[Log[med],sig] myPar=ParetoDistribution[med,al]

и решить уравнение относительно al:

sol=Solve[PDF[mylog,med]==0.5 PDF[myPar,med],al], записав решение в переменную sol.

Еще одно замечание. MATHEMATICA позволяет использовать традиционное обозначение для греческих букв: a (Esc–a–Esc), b (Esc–b–Esc),…, p (Esc-p-Esc),…. Символ p обозначает известную константу (3.14….), остальные буквы могут использоваться для обозначения переменных.

Решение получается не численное (так как sig неизвестно), а в виде подстановки, точнее – списка, хотя и состоящего из единственного элемента. Дело в том, что MATHEMATICA не знала заранее, сколько корней будет получено. Запомним решение в переменной sol. Напомним, что al – величина переменная, поэтому при дальнейших обращениях к ней найденное только что значение будет утрачено. Чтобы зафиксировать его, введем новую переменную (alpha), в которую запишем первый элемент списка решений. Синтаксис этой операции имеет вид: alpha=al/.sol[[1]].

Вычислим средний доход богатой части населения (как функцию от sig). Введем переменную:

mylog=LogNormalDistribution[Log[med],sig].

Вычислим средний доход бедной части населения (см. указание к упражнению 1.4.3):

Замечание. Для ввода с помощью шаблона нужно задать стиль ячейки как Standard, а не Input.

Средний доход богатого населения отличается от общего среднего дохода на разность между последним и доходом бедного населения: meanrich=mean+(mean-meanpoor).

Таким образом, мы получили для среднего дохода богатого населения сложное выражение от sig. Вместе с тем, этот же средний доход может быть найден по формуле мат. ожидания распределения Парето (1.4.5), где параметр с совпадает со значением переменной med: cPareto=med; meanPareto=alpha/(alpha-1)cPareto.

Итак, мы нашли две разные формулы для выражения среднего дохода богатого населения. Рассмотрим их разность и найдем значения переменной sig, при которых она обращается в 0. Пакет MATHEMATICA позволяет визуально определить количество нулей функции с помощью графика. Положим f=meanPareto–meanrich.

Прежде чем строить график этой функции, найдем область ее определения. Построим систему ограничений на значения переменной sig, исходя из экономического смысла параметров. Подключаем модуль для решения алгебраических неравенств:

<<Algebra`InequalitySolve`

и записываем функцию для решения неравенств:

InequalitySolve[mod<=med&&med<=mean&&sig>0&&alpha>1,sig].

Здесь значок && означает “логическое и”, то есть одновременное выполнение условий. Решением этого неравенства является интервал: . Построим на нем (исключая границы) график функции f Plot[f,{sig,0.1,Sqrt[2/Pi]-0.1}].

Рисунок 1.4.5. График функции f.

Очевидно, что уравнение f=0 имеет единственный корень.

На графике видно, что единственный ноль функции f близок к 0.5 – возьмем эту точку в качестве начального приближения к решению: solution=FindRoot[f==0,{sig,0.5}]. В отличие от функции Solve, действующей по принципу “огласите весь список, пожалуйста”, то есть выдающей весь набор найденных решений, функция FindRoot находит только один корень, к которому сходится итерационный процесс, начатый в указанной точке. Получаем значение sig, равное 0.476 011. Вычислим теперь значения параметра alpha и медианы (точки сопряжения плотностей) с помощью найденного значения sig:

{alpha,med}={alpha,med}/.solution. Они соответственно равны 1.676 19 и 627.155.

Замечание. Запомните полученное значение a =1.676 19. Позднее мы еще вернемся к нему.

Построим графики обоих распределений с найденными параметрами:

Mylog=mylog/.solution, g1=Plot[PDF[Mylog,x],{x,0,med}].

Рисунок 1.4.6. График плотности логнормального распределения. Описывает распределение дохода бедной части населения.

myPareto=ParetoDistribution[med, alpha],

g2=Plot[0.5 PDF[myPareto,x],{x,med,1500}]

Рисунок 1.4.7. График плотности распределения. Парето. Описывает распределение дохода богатой части населения.

Теперь – самый ответственный момент. Объединим графики: Show[g1,g2].

Рисунок 1.4.8. График плотности распределения дохода всего населения Вашего города.

Ура! Графики сомкнулись (рисунок 1.4.8), причем линия получилась достаточно гладкой, – это означает, что производные обеих функций мало различаются.

Последнее и самое приятное замечание. Построение закона распределения дохода жителей Вашего города опирается на нахождение корня уравнения f=0. Без пакета MATHEMATICA доказательства существования и единственности решения было бы делом весьма непростым. Мы же поступили подобно древним египтянам, которые вместо математического доказательства рисовали на своих папирусах чертеж (рис. 1.4.5) и писали “смотри!”.

Итак, мы описали распределение дохода. Это позволит нам ответить на многие вопросы – причем не только математические, но и социально-экономические.

Напомним, что в начале нашего небольшого исследования мы уже пытались оценить долю населения с фиксированным диапазоном дохода. При этом мы опирались на предположения о логнормальном распределении дохода для всего населения и о том, что медиана распределения составляет 800 у.е. Поскольку полученные результаты нас не вполне удовлетворили (они противоречили нашим наблюдениям в отношении богатого населения), мы уточнили математическую модель – построили плотность распределения дохода как функцию, состоящую из двух “кусков”: до медианы она совпадает с плотностью логнормального распределения, а после – с плотностью распределения Парето. Посмотрим, как согласуется с реальностью наша уточненная модель.

Для начала выясним, сколько жителей городка беднее Вас. Понятно, что это все, кто относится к категории бедных (50%) плюс некоторая часть богатого населения. Имеем:

(1.4.6)

Здесь – плотность распределения Парето, – функция этого распределения (с только что вычисленными значениями параметров).

Вычислим последнее слагаемое суммы (1.4.6) в пакете MATHEMATICA: CDF[myPareto,800]/2. Получаем 0.167 515. Таким образом, беднее Вас 50%+16.7%, то бишь две трети населения Вашего городка!

Теперь уточним процент населения, имеющий доход выше среднего. Для удобства изложения введем функцию f(x), равную вероятности получения дохода, не меньшего x: f(x)=p(h>=x).

(1.4.7)

Для x=1 000 вычислим: 0.5–0.5 CDF[myPareto, 1000]. Получаем: 0.228 735. Таким образом, доход выше среднего имеют 22,87% горожан (но никак не 37,24%, как предполагалось ранее).

Сколько же человек имеют очень маленький доход, не превышающий 400 у.е.? CDF[Mylog,400] составляет 17,24%, что мало отличается от результата, полученного в начале нашего исследования (16%).

Какой процент населения имеет доход свыше 10 000? Согласно (1.4.7) получаем: 0.5–0.5 CDF[myPareto,10000], что составляет примерно 0,48%, то есть почти в 5 раз выше предыдущего значения. Вы были абсолютно правы в своих оценках высшего света!

Ну и наконец, выясним, какой же доход является “проходным баллом” в высшее общество? Найдем его (как значение переменной x) из условия: . Получаем:

Корень этого уравнения является 98%-ым квантилем распределения Парето. Quantile[myPareto,0.98] есть 6 470.91, что чуть ли не вдвое выше предыдущего значения, в истинности которого Вы сильно сомневались.

Итак, 1% населения (составляющий высшее общество Вашего городка) имеет доход не ниже 6 470 у.е.; подняв планку до 10 000 у.е., мы “отсеем” 0,52% всего населения, то есть 52% высшего света (составляющего, как уже было сказано, 1% общества). Проверим высший свет на прочность. Посмотрим, что от него останется, если поднять планку еще во столько же раз (то есть примерно в 1.55).

Выведем формулу “отсева” при изменении минимального дохода с величины x на y. Согласно (1.4.7) “отсев” составляет . Таким образом, относительная величина “отсева” равна . Проделаем вычисления в пакете MATHEMATICA:

z=0.5-0.5 CDF[myPareto,10000];

w=0.5-0.5 CDF[myPareto,15500];

(z-w)/z

Получаем те же самые 52%: 0.520 32.

Упражнение 1.4.4. Убедитесь, с помощью пакета MATHEMATICA, что относительная величина “отсева” при увеличении суммы дохода на 1% постоянна и равна параметруa распределения Парето.

Указание. Положите переменную x равной некоторому значению дохода, например, 1 000. Тогда y составит 1,01 x, то есть 1 010. Проведите эксперименты для разных значений x.

Пусть N(x) – количество людей с доходом, не меньшим x. Ясно, что =. Таким образом, параметр a характеризует эластичность N(x) по доходу x. Подробнее понятие эластичности будет рассмотрено в главе 2.

Нетрудно показать, что

(1.4.8)

где n –общее число жителей.

Упражнение 1.4.5. С помощью формулы для функции распределения Парето (см. упражнение 1.4.2) докажите равенство (1.4.8).

Итак, абсолютная величина “отсева” пропорциональна N(x), а значит, обратно пропорциональна . Вспомним, что x – это доход, а a =1.676 19. Значит, при поднятии планки на 1% “отсеяно” будет тем меньше людей, чем больше x. Такая “непотопляемость” богатых подтверждает известную народную мудрость “деньги к деньгам”, причем при больших значениях a эта тенденция проявляется ярче.

По мнению последователей Парето, значение a, близкое к 1,5, характеризует состояние социального равновесия; увеличение a свидетельствует о социальной нестабильности (вследствие большой поляризации общества). Таким образом, как поется в популярной некогда песне, “городок наш ничего”, хотя некоторое превышение a над идеальным значением все же заставляет задуматься …

Заметьте, все началось с праздного, казалось бы, любопытства относительно чужих доходов, а в итоге мы получили инструмент для экономического и социологического анализа. Те же вопросы, что мы с Вами задавали друг другу (типа “сколько у нас совсем бедных, с доходом, ниже 400 у.е.”, “доход какой части населения превышает средний” и т.п.), неизбежно возникают у представителей деловых кругов – потенциальных инвесторов, банкиров, руководителей страховых компаний, служб социального обеспечения. Им, должно быть, будут интересны наши результаты, но главное – они теперь смогут сами ответить на любой такой вопрос и принять правильное решение в сфере своей деятельности.

Вернуться на страницу <Методические разработки>