8 (343) 367-67-60 -61, -62

Офис в Екатеринбурге

8 922 030-23-51

Офис в Москве

МЕТОДЫ ОБРАБОТКИ ДАННЫХ

4.1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Такие важные для анализа рынка недвижимости величины, как цена группы объектов, время экспозиции и др., называют случайными величинами. Методами изучения случайных величин занимается теория вероятностей и математическая статистика. Некоторые основополагающие понятия и простейшие методы этих научных дисциплин будут в упрощенном виде изложены ниже.

Определение. Случайная величина (СВ) — это такая величина, которая может принимать различные значения под воздействием случайных (неконтролируемых, нерегулируемых) факторов.

Случайная величина может изменяться также под воздействием неслучайных факторов. Например, цена объекта недвижимости изменяется в зависимости от его размера или удаления от центра города. Однако, в ряде случаев закономерность таких изменений неизвестна, или конкретная задача не требует ее учета. Тогда и эти факторы относят к разряду случайных.

Определение. Генеральная совокупность значений СВ — это совокупность всех значений, которые она может принять под воздействием случайных факторов.

Например, стоимость всех квартир жилого фонда города в определенный момент времени, или все цены сделок в городе за определенный период времени.

Генеральная совокупность может разделяться на группы (подсовокупности) по определенному признаку (неслучайному фактору). Например, жилой фонд и сделки — по районам (зонам) города, типам домов, числу комнат и т.д. Доля подсовокупностей каждого типа характеризует структуру генеральной совокупности.

Определение. Структура генеральной совокупности — это доля (процентный состав) в ней подсовокупностей, выделенных по одному или нескольким признакам.

структура спроса и предложения аренды нежилых площадей в Москве в мае 1998 года
(по данным информационного агентства RWAY)


ТЕРРИТОРИАЛЬНАЯ СТРУКТУРА ОФИСНЫХ ПЛОЩАДЕЙ ЗАПАДНОГО СТАНДАРТА В МОСКВЕ в 1999 году
(по данным фирмы Aengevelt-Research)

Генеральная совокупность может также разделяться на выборки.

Определение. Выборка — это несколько значений СВ, выбранных из генеральной совокупности по случайному признаку.

Например, все проданные за определенный период квартиры в городе являются выборкой из жилфонда; квартиры, проданные той или иной фирмой, являются выборкой из жилфонда и также из всех квартир, проданных в городе.

Выборка по своей структуре может отличаться от генеральной совокупности. В этом случае говорят, что она нерепрезентативна относительно генеральной совокупности.

Определение. Репрезентативность (представительность) выборки — это ее достаточно близкое соответствие генеральной совокупности по основным характеристикам (прежде всего структуре).

Случайная величина (как ее генеральная совокупность, так и выборка) описывается различными способами. Первый из них — это построение функции распределения, например, в виде гистограммы.

Определение. Гистограмма — это представление СВ в виде столбчатого графика, отражающего долю (количество) попаданий СВ в различные диапазоны ее значений.

Другой способ описания СВ — это определение ее параметров , характеризующих среднее значение и разброс СВ вокруг среднего .

Значения средних и рассеяния, определенные для выборки и для генеральной совокупности, могут отличаться. Это отличие трактуется как ошибка в определении параметров генеральной совокупности по параметрам выборки .

Ошибка складывается из двух частей. Первая — это систематическая ошибка, зависящая от степени репрезентативности выборки. Вторая — это случайная ошибка, зависящая от объема выборки.

Для различения параметров генеральной совокупности и выборки им иногда присваивают различные имена.

В качестве среднего значения СВ могут использоваться различные величины, например, медиана, мода, среднее арифметическое выборки (математическое ожидание генеральной совокупности).

Определение. Медианное значение СВ — это одно из ее значений в выборке, относительно которого половина значений превышает медианное, а другая половина не превышает.

Определение. Модальное значение СВ — это такое значение на гистограмме, которое соответствует средине диапазона с наибольшей высотой (наиболее вероятное значение).

Определение. Среднее арифметическое значение (математическое ожидание) СВ — это расчетная величина, определяемая по специальной формуле и соответствующая центру тяжести гистограммы.

Применение того или иного среднего зависит от свойств распределения СВ и определяется специальными правилами. В практике риэлторов мы рекомендуем применять среднюю арифметическую величину.

Разброс (рассеяние) СВ может оцениваться различными величинами, например, размахом (диапазоном разброса), дисперсией или среднеквадратическим отклонением, доверительным интервалом.

Определение. Размах СВ — это разность между максимальным и минимальным ее значением.

Определение. Дисперсия (среднеквадратическое отклонение — СКО) СВ — это расчетная величина, определяемая по специальной формуле и характеризующая степень отклонения каждого из значений СВ от среднего. Среднеквадратическое отклонение генеральной совокупности обозначается греческой буквой «сигма», выборки — латинской «s».

Определение. Доверительный интервал — это размах СВ, определенный не по всем ее значениям, а по заданной доле значений, примыкающих к среднему. Доля значений, по которой определяется доверительный интервал, называется доверительной вероятностью.

Выбор того или иного показателя определяется решаемой задачей. На практике может потребоваться любая из них.

4.2 Расчет среднего значения

Простейшей задачей, которую можно решать с использованием данных о ценах на единичные квартиры Ц1 , Ц2 и т.д., накопленных за определенный промежуток времени, является определение средней цены Цср . по формуле среднего арифметического:

Цср. = (Ц1+Ц2+…+Цn) / n ,
где n — число накопленных значений цен (объем выборки).

Для перехода к расчету средней цены 1 кв. м необходимо учесть, что применяемый на практике способ расчета через деление средней цены квартиры Цср. на среднюю площадь квартиры Пср. может дать существенную ошибку (до 5-7%). Поэтому следующее правило обязывает вычислять эту величину по формуле

Сср. = (Ц1+Ц2+…+Цn) / (П1+П2+…+Пn).

Иногда удобнее применять равноценную формулу

Сср. = (С1+С2+…+Сn) / n,

где С1 , С2 и т.д. — цена 1 кв. м общей площади квартиры;
С1=Ц1/П1 и т. д.;
П1 и т.д. — общая площадь квартиры.

Аналогично рассчитываются среднемесячные значения времени экспозиции и другие средние величины.

Выделение подвыборок цен для отдельных категорий квартир и зон города позволяет сузить разброс цен в выборке и создает предпосылки для изучения влияния параметров квартир одной категории на их цену.

4.3.ОБОБЩЕНИЕ ДАННЫХ ПО СОВОКУПНОСТИ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ФОРМУЛЫ СРЕДНЕВЗВЕШЕННОГО АРИФМЕТИЧЕСКОГО

Наличие нескольких выборок объемом nj , выделенных по признаку типа жилья (хрущевки, стандартные квартиры, улучшенной планировки и т.д.), либо размера (однокомнатные, двухкомнатные и т.д.), либо района расположения (Центр, вблизи Центра, окраины), либо по сочетанию признаков, позволяет получить среднее значение цены 1 кв. м для каждой категории квартир, а затем осреднить его по совокупности квартир города по формуле средневзвешенного арифметического:

Сср. = (Сср.1*n1+Сср.2*n2+…+Сср.j*nj+…+Сср.m*nm) / n,
где m — число выборок (выделенных категорий жилья).

Применение формулы не только облегчает расчеты при определении средней цены продажи или покупки квартир в городе, но и позволяет расширить круг решаемых задач.

Набор значений объемов выборок ( n1 , …, nj , …, nm ) характеризует структуру оцениваемой генеральной совокупности. Если известна структура таких совокупностей, как жилой фонд города, или приватизированный жилой фонд, или вновь строящийся жилой фонд, то при наличии данных о средней цене сделок в каждой категории квартир и структуре фонда можно рассчитать среднюю цену 1 кв. м в соответствующем фонде, а также общую стоимость жилого фонда, потенциальный объем рынка (стоимость приватизированного и нового фонда) и др.

Другой пример проанализирован экспертами Агентства ТИТАН (Тверь) в отчете за 1995 год. Обнаружив парадоксальный факт превышения средней цены сделок над средней ценой предложения (при равенстве либо обратном соотношении индивидуальных цен), они правильно его объяснили различием в структуре совокупностей предлагаемых к продаже и проданных квартир.

4.4. ОЦЕНКА ДИСПЕРСИИ И ИСКЛЮЧЕНИЕ ВЫСКАКИВАЮЩИХ ЗНАЧЕНИЙ

Оценка дисперсии и среднеквадратического отклонения выборки производится по формулам

После определения дисперсии необходимо исключить из выборки крайние (справа и слева) «выскакивающие» значения, и заново рассчитать параметры выборки. При этом используется «правило трех сигм»: исключаются значения, лежащие за пределами доверительного интервала в плюс/минус три среднеквадратических отклонения. Это соответствует доверительной вероятности 0,98 (т.е. исключаются из рассмотрения примерно 2% крайних значений). Применяются и более жесткие критерии, например, две сигмы (доверительная вероятность 0,95).

4.5. ОЦЕНКА ПОГРЕШНОСТИ В ОПРЕДЕЛЕНИИ СРЕДНИХ

Среднее значение случайной величины по данным репрезентативной выборки ее случайных значений всегда рассчитывается с погрешностью, величина которой зависит от двух факторов: собственного разброса значений в выборке и ее объема. Если разброс измерен величиной среднеквадратического отклонения s , то приближенная оценка погрешности в определении средневыборочного при доверительной вероятности 0,95 равна

Из формулы следует, что погрешность в определении среднего обратно пропорциональна корню квадратному из объема выборки и пропорциональна ее собственному разбросу.

Наличие данных о погрешности в определении средних цен позволяет при сравнении двух выборок (например, по двум различным районам, или категориям квартир, или за два различных месяца) использовать следующее правило : выборки считаются различающимися незначимо , если разность их средних меньше суммы половины погрешностей. Например, при разнице средних в феврале и январе на 3,5% и погрешности в их определении +/- 4% нельзя говорить о росте цен в феврале.

4.6. ПРИВЯЗКА ДАННЫХ К МОМЕНТУ ВРЕМЕНИ

На практике используются два способа привязки данных к моменту времени: «на заданный момент времени» и «за определенный период времени». Общее правило состоит в том, что применение того или иного способа должно строго увязываться с характером данных. Так, данные о структуре жилфонда требуют первого способа, а данные о средней цене сделки — второго.

Существуют и данные, которые могут описываться обоими способами, но при этом меняется их трактовка. Так, выражение «средняя цена предложения на 1.01.99» означает, что при расчете этой величины использовались все предложения, содержащиеся в листинге фирмы на эту дату, а выражение «средняя цена предложения за декабрь 98» — только предложения, поступившие за декабрь.

Исходя из изложенного, часто встречающееся в публикациях выражение «средняя цена квартир в городе N на 1.01.99» не имеет смысла, т.к.:
в нем нарушено правило об уточнении понятия цены (следует писать «средняя цена предложения квартир»);
если же имелись ввиду цены сделок, то следует писать «средняя цена сделок за 31.12.98» (если усреднялись сделки за один день), или «за 12.98» (если усреднялась выборка за месяц).
Первый вариант вряд ли реален, поскольку выборка сделок за один день слишком мала.

Таким образом, следующее правило требует фиксировать (пояснять) используемый способ привязки средних данных к определенному моменту времени.

4.7. АБСОЛЮТНЫЕ И ОТНОСИТЕЛЬНЫЕ ПОКАЗАТЕЛИ (ДОЛИ). ИНДЕКСЫ РОСТА И ТЕМПЫ ПРИРОСТА

Все используемые показатели можно разделить на две категории. Первая категория — абсолютные (именованные) показатели: цена в рублях, время экспозиции в днях, объем сделок в штуках и др. Вторая — относительные (безразмерные) показатели, выраженные в долях единицы или в процентах:

— доли (например, доля предложений однокомнатных квартир в общем объеме предложения);
— индексы роста (например, отношение средней цены 1 кв. м за февраль и январь 1999г. — месячный индекс роста цен; отношение средней цены за декабрь 1998г. и декабрь 1997 г. — годовой индекс роста цен);
— темпы прироста (например, разность месячных индексов роста за февраль и январь дает темп прироста в феврале; разность годовых индексов за два смежных года дает темп прироста в последнем году).

Индексы роста больше единицы или 100% отражают рост цен, меньше единицы или 100% — снижение цен. Темпы прироста положительные отражают рост цен, отрицательные — снижение.

Динамический ряд месячных темпов прироста цен отражает динамику их ежемесячного изменения, динамический ряд месячных индексов роста цен — жинамику накопленного изменения их величины.

Увеличение доли одной категории квартир в общей совокупности предложения и уменьшение их доли в общей совокупности спроса не означает увеличение предложения и уменьшение спроса этих квартир (возможно, при этом резко снизилось общее предложение и вырос спрос).

4.8. ПОСТРОЕНИЕ ДИНАМИЧЕСКОГО РЯДА. СГЛАЖИВАНИЕ И АППРОКСИМАЦИЯ

Наличие достаточно большой последовательности ежемесячных (еженедельных) данных о средних значениях изучаемых показателей ( динамический ряд ) позволяет построить график изменения показателя во времени. Первым шагом при этом является построение столбчатой диаграммы либо ломанной линии, проходящей через отмеченные точки на графике. Столбчатая диаграмма подчеркивает, что случайная величина усреднена в пределах каждого периода времени (не путать с гистограммой!), а ломаная линия нагляднее демонстрирует тенденции.

ДИНАМИКА ЦЕН ПРЕДЛОЖЕНИЯ И СДЕЛОК НА ВТОРИЧНОМ РЫНКЕ ЖИЛЬЯ БАРНАУЛА, тыс. руб. / кв. м
(по данным АН «Дом»)

Однако, останавливаться на этом шаге и делать выводы об изменении показателя за месяц, квартал, год по разности значений точек можно лишь при достаточно большом объеме выборок, когда для каждой пары точек всего ряда соблюдается следующее правило :

С2C1+D ,
где С2 , С1 — большее и меньшее значения показателя.

В противном случае необходимо сделать второй шаг — сглаживание ряда. Правило сглаживания состоит в том, что следует провести (хотя бы от руки) плавную линию так, чтобы близкие точки отклонялись от нее примерно на равные расстояния. Желательно выполнить эту операцию более строго, проведя аппроксимацию полученной кривой одной из простейших функций (например, полиномом невысокого порядка) и определив ее коэффициенты специальными методами математической статистики, например, методом наименьших квадратов. В настоящее время имеются удобные прикладные программы для ПК, выполняющие эту работу автоматически.

Дальнейшее правило состоит в том, что проценты прироста или снижения показателей за определенный период вычисляются по точкам кривой, а не по фактическим значениям, и точность их при этом повышается.

ИССЛЕДОВАНИЕ ФАКТОРА СЕЗОННОСТИ НА РЫНКЕ ЖИЛЬЯ ЯКУТСКА

4.9. ПОСТРОЕНИЕ МАТЕМАТИСТИЧЕСКОЙ МОДЕЛИ ПРОЦЕССА. СТАТИСТИЧЕСКОЕ И ЭВРИСТИЧЕСКОЕ ПРОГНОЗИРОВАНИЕ

Полученная аппроксимационная кривая представляет собой простейшую модель исследуемого процесса. Однако использовать ее для целей прогнозирования возможно лишь на коротком участке (один-два месяца), и лишь когда изменения тенденций не ожидается.

Более глубокий анализ и прогноз возможен, когда математическая модель процесса построена на основе выявленных закономерностей протекания исследуемого процесса. Результаты таких исследований и порядок их использования при прогнозировании приведен в следующем разделе.

Эвристический подход к прогнозированию цен на объекты недвижимости состоит в логическом, использующем как количественные, так и качественные данные, анализе факторов, формирующих тенденции изменения цен, и выявлении результирующей тенденции.

Методика, основанная на эвристическом подходе, включает следующие этапы:

анализ состояния рынка недвижимости в данном городе, определение достигнутой стадии его развития и основной долгосрочной тенденции изменения цен; анализ прогнозов изменения макроэкономических показателей в стране и корректировка прогноза;

анализ специфических характеристик и социально-экономических условий города, региона и определение среднесрочных тенденций отклонения темпов роста цен от основной тенденции; анализ внутренних факторов и внешних условий, способных изменить ситуацию на рынке, и определение краткосрочных тенденций колебания цен;

сопоставление результатов предыдущих этапов и определение результирующей тенденции.