КОНФОРМНОЕ ПРОГНОЗИРОВАНИЕ ДЛЯ ОЦЕНКИ РИСКОВ КРАУДФАНДИНГОВЫХ ПРОЕКТОВ: КЛАСТЕРНЫЙ АНАЛИЗ НЕОПРЕДЕЛЁННОСТИ

CONFORMAL PREDICTION FOR CROWDFUNDING RISK ASSESSMENT: A CLUSTER-BASED UNCERTAINTY ANALYSIS

Джаханов С.С. Тураров Ж.М.

28.04.2026 211

4(145)

10. Информатика, вычислительная техника и управление

Цитировать:

Джаханов С.С., Тураров Ж.М. КОНФОРМНОЕ ПРОГНОЗИРОВАНИЕ ДЛЯ ОЦЕНКИ РИСКОВ КРАУДФАНДИНГОВЫХ ПРОЕКТОВ: КЛАСТЕРНЫЙ АНАЛИЗ НЕОПРЕДЕЛЁННОСТИ // Universum: технические науки : электрон. научн. журн. 2026. 4(145). URL: https://7universum.com/ru/tech/archive/item/22533 (дата обращения: 28.07.2026).

Прочитать статью:

Статья поступила в редакцию: 09.04.2026

Принята к публикации: 14.04.2026

Опубликована: 28.04.2026

АННОТАЦИЯ

В данной работе представлен подход к оценке рисков краудфандинговых проектов на основе конформного прогнозирования — метода, обеспечивающего статистически гарантированные множества прогнозов без предположений о распределении данных. В отличие от традиционных моделей машинного обучения, которые выдают точечные прогнозы без оценки надёжности, конформное прогнозирование генерирует множества возможных исходов с заданным уровнем покрытия. На датасете из 187 788 проектов Kickstarter с 14 признаками продемонстрировано, что при уровне доверия 90% метод обеспечивает эмпирическое покрытие 90,3% и достигает точности 84,7% на уверенных предсказаниях (63,7% выборки) за счёт эффекта отбора — отделения надёжных прогнозов от неопределённых. Предложена система из трёх категорий риска (НИЗКИЙ РИСК, ВЫСОКИЙ РИСК, НЕОПРЕДЕЛЁННЫЙ), обеспечивающая практическое руководство для инвесторов. Дополнительно проведён кластерный анализ проектов (K-means, k=4), который выявил различия в структуре неопределённости между сегментами: проекты с низким бюджетом демонстрируют более высокую долю уверенных прогнозов (до 65,4%), тогда как высокобюджетные проекты распределяются равномернее между категориями риска. Показано, что глобальная калибровка конформного предиктора обеспечивает стабильное покрытие (~90%) во всех кластерах, что свидетельствует о хорошей обобщающей способности метода для краудфандинговых данных.

ABSTRACT

This paper presents an approach to crowdfunding risk assessment based on conformal prediction — a method that provides statistically guaranteed prediction sets without distributional assumptions. Unlike traditional machine learning models that produce point predictions without reliability estimates, conformal prediction generates sets of possible outcomes with a specified coverage level. Using a dataset of 187,788 Kickstarter projects with 14 features, we demonstrate that at a 90% confidence level, the method achieves 90.3% empirical coverage and 84.7% accuracy on certain predictions (63.7% of the sample) through a selection effect — separating reliable predictions from uncertain ones. We propose a three-tier risk category framework (LOW RISK, HIGH RISK, UNCERTAIN) that provides practical guidance for backers. Additionally, we perform cluster analysis (K-means, k=4) revealing differences in uncertainty structure across project segments: low-budget projects show a higher proportion of certain predictions (up to 65.4%), while high-budget projects are more evenly distributed across risk categories. We show that global calibration of the conformal predictor maintains stable coverage (~90%) across all clusters, indicating strong generalization of the method for crowdfunding data.

Ключевые слова: конформное прогнозирование, краудфандинг, оценка рисков, квантификация неопределённости, машинное обучение, кластерный анализ.

Keywords: conformal prediction, crowdfunding, risk assessment, uncertainty quantification, machine learning, cluster analysis.

Введение

Краудфандинг стал одним из ключевых механизмов альтернативного финансирования, позволяющим предпринимателям, авторам и инноваторам привлекать средства напрямую от широкой аудитории. Платформы Kickstarter, Indiegogo и GoFundMe суммарно привлекли миллиарды долларов, демократизируя доступ к капиталу [1]. Однако при доле успешных проектов около 60% краудфандинг представляет значительные риски для инвесторов (бэкеров), которым необходимо принимать решения на основе ограниченной информации, доступной на момент запуска кампании [2].

Задача прогнозирования успеха краудфандинговых проектов привлекла значительное внимание исследователей. Greenberg et al. [3] одними из первых применили методы машинного обучения, достигнув точности 68% на основе признаков проекта. Mitra и Gilbert [8] показали значимость лингвистических признаков описания для предсказания успеха. Yu et al. [9] применили глубокое обучение, а Wang et al. [6] провели сравнительный анализ нескольких архитектур глубоких нейронных сетей, достигнув точности до 93%. Однако все эти работы предоставляют точечные прогнозы без квантификации неопределённости. Прогноз «85% вероятности успеха» может быть как высоконадёжным, так и крайне неопределённым, но это различие остаётся невидимым для конечного пользователя.

Проблема квантификации неопределённости (uncertainty quantification, UQ) активно исследуется в других прикладных областях. Конформное прогнозирование [5] — метод, обеспечивающий distribution-free гарантии покрытия [18] — успешно применяется в медицинской диагностике [12, 13], адаптивных системах под сдвигом распределения [14] и количественной регрессии [10]. Однако, насколько нам известно, применение конформного прогнозирования к краудфандинговым данным ранее не исследовалось. Существующие модели краудфандинга [3, 6, 8, 9] не предоставляют статистических гарантий покрытия, что ограничивает их применимость в системах поддержки решений.

Конформное прогнозирование возвращает множество возможных исходов, которое гарантированно содержит истинную метку с заданной вероятностью (например, 90%). Эта гарантия выполняется вне зависимости от распределения данных [7], что делает метод особенно ценным для реальных приложений, где параметрические предположения могут нарушаться.

Целью данной работы является: (1) применение конформного прогнозирования к задаче оценки рисков краудфандинга — насколько нам известно, первое в данной области; (2) создание практической системы категорий риска для инвесторов; (3) кластерный анализ структуры неопределённости в различных сегментах проектов.

Материалы и методы

Набор данных. Используется датасет проектов Kickstarter [19], содержащий 196 298 проектов. После фильтрации (исключение отменённых проектов) остаётся 187 788 проектов, из которых 113 084 (60,2%) успешных и 74 704 (39,8%) провальных. Извлечены 14 признаков, доступных на момент запуска кампании (табл. 1), с исключением признаков, вызывающих утечку данных (количество спонсоров, сумма пожертвований). Категориальные признаки (Category — 15 категорий, Country — 22 страны) закодированы порядковыми метками (ordinal encoding). Данный выбор обусловлен использованием ансамблей деревьев решений: деревья выполняют пороговые разбиения по отдельным значениям, поэтому навязанный порядок не влияет на результат. При этом ordinal encoding сохраняет компактность признакового пространства (14 признаков вместо 51 при one-hot encoding), что снижает риск переобучения. Данные разделены: 60% обучение (112 672), 20% калибровка (37 558), 20% тест (37 558) со стратификацией по целевой переменной.

Таблица 1.

Описание признаков

Признак	Описание
Category	Категория проекта (15 категорий)
Country	Страна создателя (22 страны)
Funding Duration	Длительность кампании в днях
Pre-funding Duration	Дни от создания проекта до запуска
Launch Month	Месяц запуска кампании
Deadline Month	Месяц окончания кампании
Staff Pick	Выбор редакции Kickstarter
Creator Has Slug	Полнота профиля создателя
Blurb Length	Длина описания (символы)
Blurb Word Count	Количество слов описания
Name Length	Длина названия (символы)
Name Word Count	Количество слов названия
Log Goal	Логарифм цели финансирования (USD)
Goal per Day	Цель финансирования / длительность

Базовые модели. Для бинарной классификации (успех/провал) обучены три модели: логистическая регрессия, случайный лес (200 деревьев, max_depth=10) и градиентный бустинг с подбором гиперпараметров через GridSearchCV (5-fold stratified CV, оптимизация по AUC-ROC).

Конформное прогнозирование. Используется метод split conformal prediction [4] с калибровочным множеством. Для каждого примера из калибровочного множества вычисляются конформные оценки по методу LAC (Least Ambiguous set-valued Classifiers) [11]. Порог определяется как (1−α)-квантиль оценок. Множество прогнозов для нового примера содержит все классы, вероятность которых превышает порог.

Результаты интерпретируются через три категории риска: НИЗКИЙ РИСК — модель уверенно предсказывает успех (множество содержит только класс «успех»); ВЫСОКИЙ РИСК — модель уверенно предсказывает провал (только класс «провал»); НЕОПРЕДЕЛЁННЫЙ — недостаточная уверенность (множество содержит оба класса).

Кластерный анализ. Для исследования структуры неопределённости применяется кластеризация K-means [15] (k=4) по трём признакам: логарифм цели финансирования, длительность кампании, категория проекта. Цель кластерного анализа — выявить сегменты с различной структурой неопределённости.

Результаты

Базовые модели. Результаты сравнения представлены в таблице 2. Градиентный бустинг с оптимизированными параметрами (learning_rate=0,05, max_depth=6, n_estimators=300, subsample=0,8) показал лучшие результаты.

Таблица 2.

Сравнение базовых моделей

Модель	Accuracy	Precision	Recall	F1	AUC-ROC
Логистическая регрессия	0,702	0,725	0,815	0,767	0,758
Случайный лес	0,737	0,732	0,889	0,803	0,796
Градиентный бустинг (оптим.)	0,762	0,768	0,865	0,814	0,824

Рисунок 1. Важность признаков (Gradient Boosting)

Анализ важности признаков (рис. 1) показал, что логарифм цели финансирования (0,272) и выбор редакции (0,178) являются двумя наиболее предсказательными признаками, суммарно объясняя 45,0% важности.

Рисунок 2. ROC-кривая (Gradient Boosting)

Конформное прогнозирование. Результаты при различных уровнях доверия представлены в таблице 3.

Таблица 3.

Конформное прогнозирование при различных уровнях доверия

Уровень доверия	Покрытие	Уверенные прогнозы	Точность	Улучшение
80%	80,6%	90,3%	78,6%	+2,4 п.п.
85%	85,4%	78,5%	81,3%	+5,2 п.п.
90%	90,3%	63,7%	84,7%	+8,5 п.п.
95%	95,0%	44,9%	88,8%	+12,7 п.п.
98%	98,0%	28,0%	93,0%	+16,8 п.п.

При уровне доверия 90% метод обеспечивает покрытие 90,3%, при этом 63,7% предсказаний (23 907 из 37 558) являются уверенными. Точность на уверенных предсказаниях составляет 84,7%, что на 8,5 процентных пунктов выше базовой модели (76,2% на всей тестовой выборке).

Важно отметить, что данное улучшение является результатом эффекта отбора (selection effect), а не повышения качества самой модели: конформное прогнозирование не изменяет базовый классификатор, а идентифицирует подмножество примеров, на которых модель демонстрирует высокую уверенность, и отделяет их от сложных случаев (категория НЕОПРЕДЕЛЁННЫЙ). Ценность метода — не в «улучшении модели», а в предоставлении калиброванных гарантий и явном разделении надёжных и ненадёжных прогнозов.

Рисунок 3. Компромисс: уровень доверия vs прогнозы

Наблюдается устойчивая закономерность (рис. 3, табл. 3): с повышением уровня доверия доля уверенных прогнозов снижается, но их точность растёт. При 98% доверии точность достигает 93,0%, однако только 28,0% прогнозов являются уверенными. Этот контролируемый компромисс позволяет пользователю выбирать баланс между охватом и надёжностью в зависимости от задачи.

Категории риска. Распределение категорий при 90% уровне доверия представлено в таблице 4.

Таблица 4.

Категории риска (90% доверие)

Категория	Количество	Доля	Точность
НИЗКИЙ РИСК	17 201	45,8%	84,0%
ВЫСОКИЙ РИСК	6 706	17,9%	86,5%
НЕОПРЕДЕЛЁННЫЙ	13 651	36,3%	61,2%

Рисунок 4. Категории риска (90% доверие)

Кластерный анализ. K-means кластеризация выявила четыре сегмента проектов (табл. 5).

Таблица 5.

Характеристики кластеров

Кластер	Размер	Ср. цель (USD)	Доля успешных	Ср. длительность
1	52 940	$2 579	67,6%	28 дн.
2	53 307	$3 800	68,4%	28 дн.
3	25 924	$28 010	50,7%	59 дн.
4	55 617	$103 666	49,8%	32 дн.

Кластеры 1 и 2 объединяют низкобюджетные проекты с более высокой долей успеха (~68%), тогда как кластеры 3 и 4 содержат проекты с более высокими целями финансирования и долей успеха около 50%.

Анализ распределения категорий риска по кластерам (табл. 6) выявил значительные различия.

Таблица 6.

Категории риска по кластерам (Global CP, 90%)

Кластер	n (тест)	Покрытие	Уверен.	Точность	Улучш.	LOW	HIGH	UNC
1	10 572	89,0%	65,4%	83,2%	+6,8	57,0%	8,5%	34,6%
2	10 543	89,7%	62,4%	83,4%	+8,6	55,7%	6,6%	37,6%
3	5 263	91,2%	63,4%	86,1%	+9,5	33,2%	30,2%	36,6%
4	11 180	91,6%	63,3%	86,7%	+9,7	31,8%	31,5%	36,7%

Рисунок 5. Кластерный анализ проектов

Ключевые наблюдения: (1) покрытие стабильно во всех кластерах (89,0–91,6%), что подтверждает надёжность глобальной калибровки; (2) низкобюджетные проекты (кластеры 1–2) имеют более высокую долю категории НИЗКИЙ РИСК (55–57%) и низкую долю ВЫСОКИЙ РИСК (7–9%); (3) высокобюджетные проекты (кластеры 3–4) демонстрируют более сбалансированное распределение (~32% каждый); (4) наибольшее улучшение точности наблюдается в кластерах 3–4 (+9,5–9,7 п.п.).

Сравнение глобальной и кластер-специфичной калибровки (табл. 7) показало, что адаптивный подход не даёт статистически значимого улучшения.

Таблица 7.

Глобальная vs кластерная калибровка

Метод	Покрытие	Уверенные	Точность	vs базовая
Базовая модель	—	100%	76,2%	—
Глобальное CP	90,3%	63,7%	84,7%	+8,5 п.п.
Кластерное CP	90,1%	63,7%	84,5%	+8,3 п.п.

Разница между глобальным и кластерным подходами составляет менее 0,2 процентного пункта. В отличие от подходов, где специализация по сегментам (mixture of experts [16]) даёт значительное улучшение, в данном случае глобальная калибровка уже обеспечивает хорошую адаптацию — конформные оценки, основанные на вероятностях модели, неявно учитывают характеристики сегментов.

Обсуждение

Практическая ценность. Система категорий риска предоставляет инвесторам конкретное руководство: проекты категории НИЗКИЙ РИСК имеют 84,0% точность предсказания успеха, а проекты категории ВЫСОКИЙ РИСК — 86,5% точность предсказания провала. Категория НЕОПРЕДЕЛЁННЫЙ (36,3% проектов) честно сигнализирует о случаях, требующих дополнительного анализа.

Компромисс точность–охват. Конформное прогнозирование реализует контролируемый компромисс: повышение уровня доверия увеличивает точность уверенных прогнозов, но снижает их долю. При 90% доверии достигается баланс: 63,7% проектов получают уверенный прогноз с точностью 84,7%.

Кластерный анализ. Хотя кластер-специфичная калибровка не улучшила общую точность, кластерный анализ выявил важные структурные различия: низкобюджетные проекты чаще получают категорию НИЗКИЙ РИСК (57% vs 32% для высокобюджетных), что соответствует их объективно более высокой успешности. Данный результат ценен для краудфандинговых платформ при разработке систем рекомендаций.

Робастность глобальной калибровки. Устойчивое покрытие (~90%) во всех кластерах свидетельствует о том, что глобальная калибровка достаточна для краудфандинговых данных. Это положительный результат с практической точки зрения, поскольку он упрощает развёртывание системы.

Ограничения. Следует отметить несколько существенных ограничений. Во-первых, используются только статические признаки, доступные при запуске кампании, без учёта динамических сигналов (темп привлечения средств, социальная активность), которые могут значительно повысить точность прогнозов [8]. Во-вторых, датасет опубликован в 2018 г. и может не отражать текущих тенденций платформы Kickstarter: с тех пор изменились политики модерации, появились новые категории, выросла конкуренция — это влияет на обобщаемость результатов на современные данные. В-третьих, конформное прогнозирование обеспечивает маргинальное покрытие, которое гарантируется в среднем по всей выборке, но может варьироваться для конкретных подгрупп [17]. Наконец, улучшение точности на уверенных прогнозах является эффектом отбора: конформное прогнозирование не улучшает саму модель, а идентифицирует подмножество надёжных предсказаний.

Заключение

В данной работе представлено применение конформного прогнозирования к задаче оценки рисков краудфандинговых проектов — насколько нам известно, первое в данной области.

Методологический вклад. Показано, что split conformal prediction с оценками LAC [11] обеспечивает distribution-free гарантии покрытия (90,3% при целевом уровне 90%) для краудфандинговых данных с 14 признаками. Метод не требует параметрических предположений и совместим с любым базовым классификатором.

Практический вклад. Предложена система из трёх категорий риска (НИЗКИЙ РИСК, ВЫСОКИЙ РИСК, НЕОПРЕДЕЛЁННЫЙ), обеспечивающая явное разделение надёжных и ненадёжных прогнозов. На уверенных предсказаниях (63,7% выборки) точность составляет 84,7% — за счёт эффекта отбора, а не изменения модели. Категория НЕОПРЕДЕЛЁННЫЙ (36,3%) честно маркирует случаи, требующие дополнительного анализа.

Аналитический вклад. Кластерный анализ (K-means, k=4) выявил структурные различия в неопределённости: низкобюджетные проекты чаще получают категорию НИЗКИЙ РИСК (57% vs 32% для высокобюджетных). При этом глобальная калибровка конформного предиктора обеспечивает стабильное покрытие (~90%) во всех сегментах, что упрощает практическое развёртывание без необходимости сегментации.

Ограничения включают использование статических признаков (без динамики кампании), датасет 2018 г. (ограниченная обобщаемость на современные данные) и маргинальный характер гарантий покрытия.

Направления дальнейших исследований: (1) применение онлайн-конформного прогнозирования [14] для учёта динамических сигналов по ходу кампании (темп привлечения средств, социальная активность); (2) интеграция текстовых признаков описания проекта [8] и визуальных признаков (изображения кампании) для расширения признакового пространства; (3) исследование локализованного конформного прогнозирования [17] для обеспечения условных (а не только маргинальных) гарантий покрытия для различных подгрупп проектов; (4) валидация на современных данных других краудфандинговых платформ (Indiegogo, GoFundMe).

Список литературы:

Mollick E. The Dynamics of Crowdfunding: An Exploratory Study // Journal of Business Venturing. — 2014. — Т. 29. — № 1. — С. 1–16.
Kickstarter. Kickstarter Stats [Электронный ресурс]. — Режим доступа: https://www.kickstarter.com/help/stats (дата обращения: 10.01.2025).
Greenberg M.D., Pardo B., Hariharan K., Gerber E. Crowdfunding Support Tools: Predicting Success & Failure // CHI'13 Extended Abstracts on Human Factors in Computing Systems. — ACM, 2013. — С. 1815–1820.
Papadopoulos H., Proedrou K., Vovk V., Gammerman A. Inductive Confidence Machines for Regression // European Conference on Machine Learning. — Springer, 2002. — С. 345–356.
Vovk V., Gammerman A., Shafer G. Algorithmic Learning in a Random World. — New York: Springer, 2005. — 324 с.
Wang W., Zheng H., Wu Y.J. Prediction of Fundraising Outcomes for Crowdfunding Projects Based on Deep Learning: A Multimodel Comparative Study // Soft Computing. — 2020. — Т. 24. — № 11. — С. 8323–8341.
Angelopoulos A.N., Bates S. Conformal Prediction: A Gentle Introduction // Foundations and Trends in Machine Learning. — 2023. — Т. 16. — № 4. — С. 494–591.
Mitra T., Gilbert E. The Language That Gets People to Give: Phrases That Predict Success on Kickstarter // Proceedings of the 17th ACM CSCW. — ACM, 2014. — С. 49–61.
Yu P.-F., Huang F.-M., Yang C. et al. Prediction of Crowdfunding Project Success with Deep Learning // IEEE International Conference on e-Business Engineering (ICEBE). — IEEE, 2018. — С. 1–8.
Romano Y., Patterson E., Candès E. Conformalized Quantile Regression // Advances in Neural Information Processing Systems. — 2019. — Т. 32. — С. 3538–3548.
Sadinle M., Lei J., Wasserman L. Least Ambiguous Set-Valued Classifiers with Bounded Error Levels // Journal of the American Statistical Association. — 2019. — Т. 114. — № 525. — С. 223–234.
Olsson H., Kartasalo K., Wählby C. et al. Estimating diagnostic uncertainty in artificial intelligence assisted pathology using conformal prediction // Nature Communications. — 2022. — Т. 13. — С. 7761.
Vazquez J., Facelli J.C. Conformal Prediction in Clinical Medical Sciences // Journal of Healthcare Informatics Research. — 2022. — Т. 6. — С. 241–252.
Gibbs I., Candès E. Adaptive Conformal Inference Under Distribution Shift // Advances in Neural Information Processing Systems. — 2021. — Т. 34. — С. 1660–1672.
Lloyd S.P. Least Squares Quantization in PCM // IEEE Transactions on Information Theory. — 1982. — Т. 28. — № 2. — С. 129–136.
Jacobs R.A., Jordan M.I., Nowlan S.J., Hinton G.E. Adaptive Mixtures of Local Experts // Neural Computation. — 1991. — Т. 3. — № 1. — С. 79–87.
Guan L. Localized Conformal Prediction: A Generalized Inference Framework for Conformal Prediction // Biometrika. — 2023. — Т. 110. — № 1. — С. 33–50.
Lei J., Wasserman L. Distribution-Free Prediction Bands for Non-parametric Regression // Journal of the Royal Statistical Society: Series B. — 2014. — Т. 76. — № 1. — С. 71–96.
Mouillé M. Kickstarter Projects [Электронный ресурс] // Kaggle. — 2018. — Режим доступа: https://www.kaggle.com/datasets/kemical/kickstarter-projects (дата обращения: 15.12.2024).