Можно ли использовать список домохозяйств от раиса махалли как основу выборки?

Только с открытыми глазами. Список раиса систематически пропускает трудовых мигрантов, арендаторов и незарегистрированных жителей, поэтому он смещён в сторону оседлого прописанного населения. Для изучения именно этой группы он годится, но для репрезентативной выборки всех взрослых жителей он выкинет самых мобильных. Безопаснее использовать махаллю как кластер и отбирать домохозяйства маршрутным методом.

Как перепись 2026 года меняет работу с выборкой в Узбекистане?

Перепись (15 января — 28 февраля 2026, Агентство по статистике) — первая полная за эпоху независимости. Она впервые даёт исследователям авторитетную основу выборки и эталонные распределения по полу, возрасту, региону и типу поселения для пост-стратификации и взвешивания. Учтите, что результаты публикуются постепенно: проверяйте, какие таблицы уже вышли, прежде чем строить на них квоты.

Как трудовая миграция влияет на выборку?

Из-за выезда на заработки (особенно из Ферганской долины) в момент опроса дома непропорционально много женщин, пожилых и молодёжи, а мужчин 25–45 лет систематически не хватает. Любая выборка «кто открыл дверь» из-за этого смещается. Компенсируют комбинацией: квоты с целевым добором мужчин по вечерам и выходным, правила отбора внутри домохозяйства и взвешивание по переписи.

Чем квотная выборка отличается от стратифицированной?

В стратифицированной отбор внутри групп случайный — это вероятностный метод, к нему применимы доверительные интервалы. В квотной интервьюер сам решает, кого опросить, лишь бы сошлись квоты, — это невероятностный метод, и он не контролирует скрытое смещение внутри квоты. Поэтому стратифицированная статистически корректнее, хотя квотная быстрее и дешевле.

Спасёт ли взвешивание плохую выборку?

Нет. Взвешивание корректирует известные и измеренные перекосы (пол, возраст, регион) по эталону переписи, но не возвращает тех, кого в выборке вообще не было. Если оставшиеся в поле мужчины систематически не похожи на уехавших, увеличение их веса усилит смещение, а не исправит. Взвешивание — это финишная донастройка хорошего отбора, а не замена ему.

Методология

Методы выборки, которые работают в Узбекистане

Вероятностная и невероятностная выборка в реальном узбекском поле: основа выборки, перепись-2026, махалля как кластер, миграция, квоты и взвешивание.

МИМетодология AISurvey21 мая 2026 г.12 мин чтения

Учебник по выборке предполагает, что у вас есть полный список генеральной совокупности и вы тянете из него случайные номера. В узбекском поле такого списка чаще всего нет, адресов в привычном смысле тоже, а половина взрослых мужчин из ферганской махалли в момент опроса работает в России. Поэтому вопрос не в том, какой метод выборки «самый правильный», а в том, какой выживает в реальных условиях — и как при этом не получить смещение, которое потом не вытянешь никаким взвешиванием.

Вероятностная и невероятностная выборка: где проходит граница

Все методы делятся на две группы, и от того, в какой из них вы работаете, зависит, что вы вообще имеете право написать в отчёте.

В вероятностной выборке у каждого человека есть известный ненулевой шанс попасть в опрос. Только такие выборки позволяют корректно переносить выводы на всю совокупность, считать доверительные интервалы и говорить «с погрешностью ±3%». В невероятностной выборке отбор зависит от доступности респондента или решения интервьюера — строгие статистические оценки к ней неприменимы, как бы красиво ни выглядела итоговая таблица.

Граница важна вот почему. В Узбекистане соблазн сползти в невероятностный отбор огромен: нет основы выборки, дороги дальние, в Каракалпакстан ехать сутки. Но если вы продаёте клиенту «репрезентативный национальный опрос», а по факту интервьюеры опросили тех, кто оказался дома днём, — это уже не вероятностная выборка, и честный отчёт обязан это признать.

На практике эта развилка определяет и язык вашего отчёта. Для вероятностной выборки вы законно пишете «по данным опроса, доля составляет 42% ± 3%»; для невероятностной — корректнее «среди опрошенных доля составила 42%», без переноса на всё население. Заказчик в Узбекистане часто не различает эти формулировки, и именно поэтому ответственность за честность лежит на исследователе, а не на клиенте.

Размер выборки влияет на точность. Метод отбора влияет на то, имеет ли эта точность вообще смысл. Тысяча правильно отобранных анкет бьёт десять тысяч собранных «как получилось».

Главная проблема узбекского поля: основа выборки

Основа выборки (sampling frame) — это список, из которого вы тянете респондентов. В странах с регистром населения это решённый вопрос. В Узбекистане исторически такого общедоступного списка для исследователей не было: адресные реестры неполны, прописка не совпадает с фактическим проживанием, а готового списка домохозяйств никто вам не выдаст.

Именно поэтому ключевое событие последних лет — перепись населения и сельского хозяйства, прошедшая с 15 января по 28 февраля 2026 года (Агентство по статистике, бывший Госкомстат). Это первая полная перепись за всю эпоху независимости. Для нас, исследователей, её практический смысл огромен: впервые появляется авторитетная основа выборки и эталонные распределения для пост-стратификации — по полу, возрасту, региону, типу поселения. Население страны — примерно 37,9 млн человек, и теперь это не оценка «на глаз», а пересчитанная база.

Важная оговорка: результаты переписи выходят постепенно, а не одним файлом в день окончания. Поэтому в 2026 году разумная тактика — закладывать перепись как новый золотой стандарт для бенчмарков и взвешивания, но сверяться с тем, какие именно таблицы уже опубликованы, прежде чем строить на них квоты.

Что делать, пока полные данные переписи не вышли? Использовать промежуточные опоры: текущие оценки постоянного населения от Агентства по статистике (по регионам, полу и возрасту), результаты крупных программ вроде обследований UNICEF MICS, материалы Центра «Ижтимоий фикр» и ЦЭИР. Это не заменяет перепись, но даёт защитимые контрольные цифры для построения квот и проверки итоговой структуры выборки. Главное — фиксируйте в методологическом приложении к отчёту, на какой именно источник и какого года вы опирались: это часть профессиональной прозрачности, которую ценит грамотный заказчик.

Махалля как естественная единица отбора

Раз сплошного списка людей нет, на помощь приходит структура страны. Узбекистан разделён на 9 000–10 000 махаллей — это готовая сетка первичных единиц отбора (PSU). Махалля компактна, имеет границы, председателя (раиса) и офис. Для кластерной выборки это почти идеальный кирпич: вы отбираете махалли, а внутри них — домохозяйства.

Но здесь же спрятана главная ловушка. У раиса есть список домохозяйств махалли, и его страшно хочется взять как готовую основу выборки. Не берите его вслепую. Этот список систематически пропускает:

трудовых мигрантов, формально выписавшихся или просто не учтённых;
арендаторов и приезжих, снимающих жильё;
незарегистрированных жителей и тех, кто «по бумагам» живёт в другом месте.

В итоге список раиса смещён в сторону «оседлого, прописанного, лояльного» населения. Если вы изучаете именно такую группу — он годится. Если вам нужна вся совокупность взрослых жителей — он систематически выкинет самых мобильных. О том, как договариваться с раисом, не превращая его в источник смещения, мы подробно писали в материале про доступ к полю и местные власти.

Простая случайная выборка: красиво в теории

Каждый элемент совокупности имеет равные шансы быть отобранным, как при жеребьёвке. Метод прозрачен, даёт несмещённую оценку и не требует от вас никаких допущений. Проблема одна, зато фатальная: ему нужна полная основа выборки — тот самый список, которого в узбекском поле обычно нет.

На практике «чистая» простая случайная выборка по стране у нас почти не встречается на этапе отбора домохозяйств. Зато она отлично работает на других уровнях: случайно выбрать махалли из списка по региону, случайно выбрать стартовые точки маршрута, случайно выбрать респондента внутри домохозяйства. То есть случайность вы вносите не одним большим жребием, а на каждом шаге многоступенчатого плана.

Есть и узбекская хитрость, частично спасающая ситуацию: махалли как структуры известны и перечислимы, поэтому на верхнем уровне у вас всё-таки есть подобие полного списка единиц. Это позволяет начать схему с честного случайного отбора кластеров, даже когда списка отдельных людей нет нигде. Иными словами, отсутствие основы выборки на уровне человека не приговор — оно лишь сдвигает случайность на уровень территории.

Стратифицированная выборка: без неё в Узбекистане нельзя

Совокупность сначала делят на однородные группы — страты, а затем отбирают внутри каждой. Это гарантирует, что все важные группы попадут в выборку, и повышает точность при том же объёме. Для Узбекистана стратификация — не роскошь, а необходимость, потому что страна крайне неоднородна.

Какие страты реально имеют значение

Ташкент — самый русифицированный, городской и цифровой; отдельный мир по доходам и поведению.
Ферганская долина (Андижан, Фергана, Наманган) — плотно населённая, более традиционная, узбекоязычная, с высоким уровнем выезда на заработки.
Каракалпакстан — отдельный язык и идентичность, низкая плотность, огромные расстояния, особый контекст; полноценный опрос здесь требует версии анкеты на каракалпакском.
Самарканд и Бухара — значимая доля таджикоязычных респондентов, которым комфортнее отвечать на таджикском.

Если не стратифицировать по региону и типу поселения (город/село — а село это примерно половина страны), любая «общенациональная» выборка незаметно перекосится в сторону того, куда было дешевле и проще доехать. Стратификация заставляет вас заранее распределить нагрузку честно.

Пропорциональное и непропорциональное размещение

Есть тонкость, о которую спотыкаются даже опытные команды. Если вы хотите оценки по стране в целом, объём по стратам распределяют пропорционально их доле в населении — Ферганская долина получит много интервью, малонаселённый Каракалпакстан мало. Но если вам нужны надёжные оценки внутри каждого региона по отдельности, малые страты придётся переборщить (взять больше, чем по доле), иначе по Каракалпакстану вы получите 30 анкет и никакой статистики. Тогда на финальном этапе пропорции восстанавливают взвешиванием. Решение о размещении принимают до поля, исходя из того, что заказчику нужно: общенациональная цифра или разрезы по регионам.

Кластерная выборка: как реально работает узбекское поле

Совокупность делят на естественные группы — кластеры (махалли, дома), случайно отбирают часть кластеров и работают внутри них. Это резко дешевле: вместо того чтобы гнать интервьюера на один адрес в дальнем районе, вы сажаете его в отобранную махаллю на 15–20 интервью.

На практике почти все национальные исследования у нас — это многоступенчатая стратифицированная кластерная выборка: страна делится на страты (регион × город/село), внутри страт случайно отбираются махалли как PSU, внутри махалли отбираются домохозяйства (маршрутным методом или по списку), а внутри домохозяйства — конкретный респондент. Именно так устроены и крупные международные программы вроде обследований UNICEF MICS, на которые удобно опираться как на методологический ориентир.

Плата за дешевизну — кластерный эффект: люди внутри одной махалли похожи друг на друга (доход, язык, уклад), поэтому каждое следующее интервью в том же кластере добавляет меньше новой информации. Чтобы получить ту же точность, что и при простой случайной выборке, кластерной нужен больший объём. Практическое правило — не выжимать слишком много интервью из одной махалли, а брать больше махаллей по чуть-чуть.

Квотная выборка: любимый инструмент рынка и его ловушка

Интервьюеры набирают респондентов так, чтобы доли по заданным признакам (пол, возраст, регион) совпали с совокупностью. Метод быстрый и недорогой, поэтому в узбекском маркетинговом исследовании он встречается чаще всех остальных вместе взятых. И это нормально — для многих коммерческих задач его достаточно.

Но честно назовём вещи своими именами: это невероятностный метод. Квоты следят за тем, чтобы итоговая структура сошлась по нескольким видимым признакам, но не контролируют, кого именно интервьюер выбрал внутри квоты. А выбирает он, естественно, удобных: тех, кто на улице, кто открыл дверь, кто согласился. Скрытое смещение прячется именно здесь.

Классический узбекский пример: квота «мужчины 30–45 лет» формально заполняется, но из-за трудовой миграции дома таких мужчин почти нет — и интервьюер добирает квоту за счёт нетипичных «оставшихся» (безработных, работающих по сменам, вернувшихся по болезни). Структура по полу и возрасту сойдётся, а скрытый портрет группы будет смещён. Квота прикрыла дыру цифрой, но не закрыла её по сути.

Когда квота допустима, а когда нет

Не выбрасывайте квоты — просто применяйте их там, где они уместны. Квотная выборка разумна, когда изучаемый признак слабо связан с тем, как интервьюер выбирает респондента: тесты упаковки, узнаваемость бренда, реакция на рекламу в ташкентском ритейле. Здесь скрытое смещение по «удобности» мало влияет на результат. Квота опасна, когда измеряемая величина напрямую связана с доступностью человека: занятость, доходы, миграционные планы, политические настроения — всё, что отличает «оставшегося дома» от «уехавшего». Простое правило: чем сильнее тема пересекается с тем, кто вообще оказывается дома и готов говорить, тем меньше доверия квоте и тем нужнее вероятностный отбор.

Миграция, которая ломает любую выборку «кто дома»

Это та узбекская реальность, которую нельзя обойти. Миллионы трудоспособных узбеков, преимущественно мужчин, работают за рубежом — в основном в России и Казахстане, и сильнее всего отток из Ферганской долины. Следствие для полевика простое и жёсткое: в момент визита дома непропорционально много женщин, пожилых и молодёжи, а взрослых мужчин рабочего возраста систематически не хватает.

Любая выборка «опрашиваем того, кто открыл дверь» из-за этого заваливается. Бороться можно тремя инструментами, и лучше всеми сразу:

Стратификация и квоты с трезвым пониманием, что мужчин 25–45 придётся целенаправленно «ловить» — вечерами, в выходные, повторными визитами.
Правила отбора внутри домохозяйства (см. ниже), чтобы интервьюер не сваливался на «кто удобнее».
Взвешивание на финальном этапе по половозрастной структуре из переписи — но как донастройка, а не индульгенция.

К миграционному перекосу добавляется гендерный. В консервативных и сельских домохозяйствах мужчина-чужак может вообще не быть принят, а женщина — не выйти к опросу без главы семьи. Поэтому достижимость взрослых мужчин и достижимость женщин — две разные задачи, и решаются они в том числе составом полевой команды: на «женские» темы (здоровье, семья, дети) часто незаменимы интервьюеры-женщины. Сетка отбора, не подкреплённая правильным гендерным составом бригады, остаётся теорией: формально вы должны опросить жену главы семьи, а реально к ней некого послать.

Отбор респондента внутри домохозяйства

В Узбекистане распространены большие многопоколенческие семьи: под одной крышей бабушка, родители, женатые сыновья, внуки. Если вы не зададите явное правило отбора, интервьюер опросит того, кто удобнее, — обычно того, кто открыл дверь и согласился. Это тихое, но мощное смещение.

Поэтому в инструкцию интервьюеру встраивают формальный отбор:

Сетка Киша (Kish grid) — заранее заданная таблица, которая по числу взрослых в домохозяйстве однозначно указывает, кого опрашивать. Объективно, но требует дисциплины.
Метод последнего дня рождения — опрашивают того взрослого, у кого день рождения был последним. Проще объяснить, легче применять в реальном дворе.

В цифровом CAPI это правило можно зашить прямо в анкету: приложение само спрашивает состав домохозяйства и называет, кого опрашивать, не оставляя интервьюеру свободы для удобного выбора. Как закладывать такую логику в инструмент, мы разбираем в руководстве по проектированию анкеты, а проверку того, что интервьюер реально следовал правилу, — в материале про контроль качества поля.

Взвешивание: донастройка, а не спасательный круг

После поля выборку взвешивают: придают наблюдениям веса так, чтобы итоговая структура совпала с эталоном — теперь это распределения переписи-2026 по полу, возрасту, региону и типу поселения. Это правильный и нужный шаг. Но у него есть жёсткая граница.

Взвешивание чинит известные и измеренные перекосы. Если у вас в выборке мало мужчин 25–45 — взвешивание поднимет вес тех, кто есть. Но если эти немногие мужчины систематически не похожи на отсутствующих (а при миграции так и есть — остались именно нетипичные), то увеличенный вес лишь усилит смещение, а не исправит его. Взвешивание не вернёт в выборку тех, кого там никогда не было.

Отсюда практический вывод: взвешивание — это финишная шлифовка хорошего отбора, а не замена плохого. Сначала вы честно строите вероятностную, стратифицированную, кластерную схему с правилами отбора в домохозяйстве, и только потом донастраиваете остаток по переписи.

Как выбрать метод под свою задачу

Короткая навигация по типичным ситуациям узбекского поля:

Национальный репрезентативный опрос населения. Многоступенчатая стратифицированная кластерная выборка: страты регион × город/село, махалли как PSU, маршрутный отбор домохозяйств, Киша/последний день рождения внутри, взвешивание по переписи.
Быстрое маркетинговое исследование в Ташкенте. Квоты по полу/возрасту/району допустимы, но осознавайте скрытое смещение и не выдавайте результат за вероятностную выборку.
Изучение конкретной группы (например, домохозяйств мигрантов в Фергане). Стратификация по статусу миграции плюс целевой отбор; готовьтесь, что «кто дома» вас подведёт.
Чувствительный регион вроде Каракалпакстана. Закладывайте версию на каракалпакском, большие расстояния в бюджет и осторожность в формулировках.

Готовы перевести этот план в работающий инструмент? Соберите анкету с логикой отбора домохозяйства и квотами прямо в конструкторе AISurvey, а если вы только начинаете — посмотрите пошаговое введение в платформу. Другие разборы по методологии и полю собраны в нашем блоге.

Частые вопросы

Можно ли использовать список домохозяйств от раиса махалли как основу выборки?: Только с открытыми глазами. Список раиса систематически пропускает трудовых мигрантов, арендаторов и незарегистрированных жителей, поэтому он смещён в сторону оседлого прописанного населения. Для изучения именно этой группы он годится, но для репрезентативной выборки всех взрослых жителей он выкинет самых мобильных. Безопаснее использовать махаллю как кластер и отбирать домохозяйства маршрутным методом.
Как перепись 2026 года меняет работу с выборкой в Узбекистане?: Перепись (15 января — 28 февраля 2026, Агентство по статистике) — первая полная за эпоху независимости. Она впервые даёт исследователям авторитетную основу выборки и эталонные распределения по полу, возрасту, региону и типу поселения для пост-стратификации и взвешивания. Учтите, что результаты публикуются постепенно: проверяйте, какие таблицы уже вышли, прежде чем строить на них квоты.
Как трудовая миграция влияет на выборку?: Из-за выезда на заработки (особенно из Ферганской долины) в момент опроса дома непропорционально много женщин, пожилых и молодёжи, а мужчин 25–45 лет систематически не хватает. Любая выборка «кто открыл дверь» из-за этого смещается. Компенсируют комбинацией: квоты с целевым добором мужчин по вечерам и выходным, правила отбора внутри домохозяйства и взвешивание по переписи.
Чем квотная выборка отличается от стратифицированной?: В стратифицированной отбор внутри групп случайный — это вероятностный метод, к нему применимы доверительные интервалы. В квотной интервьюер сам решает, кого опросить, лишь бы сошлись квоты, — это невероятностный метод, и он не контролирует скрытое смещение внутри квоты. Поэтому стратифицированная статистически корректнее, хотя квотная быстрее и дешевле.
Спасёт ли взвешивание плохую выборку?: Нет. Взвешивание корректирует известные и измеренные перекосы (пол, возраст, регион) по эталону переписи, но не возвращает тех, кого в выборке вообще не было. Если оставшиеся в поле мужчины систематически не похожи на уехавших, увеличение их веса усилит смещение, а не исправит. Взвешивание — это финишная донастройка хорошего отбора, а не замена ему.

#выборка в узбекистане#репрезентативность#методология#махалля#перепись 2026#стратификация

Поделиться:Telegram

Об авторе

МИ

Методология AISurvey

Методологи AISurvey — о выборках, формулировках вопросов и качестве данных в социальных и маркетинговых исследованиях.