магистрант, Казахско-Британский технический университет, Республика Казахстан, г. Алматы
КОНФОРМНОЕ ПРОГНОЗИРОВАНИЕ ДЛЯ ОЦЕНКИ РИСКОВ КРАУДФАНДИНГОВЫХ ПРОЕКТОВ: КЛАСТЕРНЫЙ АНАЛИЗ НЕОПРЕДЕЛЁННОСТИ
АННОТАЦИЯ
В данной работе представлен подход к оценке рисков краудфандинговых проектов на основе конформного прогнозирования — метода, обеспечивающего статистически гарантированные множества прогнозов без предположений о распределении данных. В отличие от традиционных моделей машинного обучения, которые выдают точечные прогнозы без оценки надёжности, конформное прогнозирование генерирует множества возможных исходов с заданным уровнем покрытия. На датасете из 187 788 проектов Kickstarter с 14 признаками продемонстрировано, что при уровне доверия 90% метод обеспечивает эмпирическое покрытие 90,3% и достигает точности 84,7% на уверенных предсказаниях (63,7% выборки) за счёт эффекта отбора — отделения надёжных прогнозов от неопределённых. Предложена система из трёх категорий риска (НИЗКИЙ РИСК, ВЫСОКИЙ РИСК, НЕОПРЕДЕЛЁННЫЙ), обеспечивающая практическое руководство для инвесторов. Дополнительно проведён кластерный анализ проектов (K-means, k=4), который выявил различия в структуре неопределённости между сегментами: проекты с низким бюджетом демонстрируют более высокую долю уверенных прогнозов (до 65,4%), тогда как высокобюджетные проекты распределяются равномернее между категориями риска. Показано, что глобальная калибровка конформного предиктора обеспечивает стабильное покрытие (~90%) во всех кластерах, что свидетельствует о хорошей обобщающей способности метода для краудфандинговых данных.
ABSTRACT
This paper presents an approach to crowdfunding risk assessment based on conformal prediction — a method that provides statistically guaranteed prediction sets without distributional assumptions. Unlike traditional machine learning models that produce point predictions without reliability estimates, conformal prediction generates sets of possible outcomes with a specified coverage level. Using a dataset of 187,788 Kickstarter projects with 14 features, we demonstrate that at a 90% confidence level, the method achieves 90.3% empirical coverage and 84.7% accuracy on certain predictions (63.7% of the sample) through a selection effect — separating reliable predictions from uncertain ones. We propose a three-tier risk category framework (LOW RISK, HIGH RISK, UNCERTAIN) that provides practical guidance for backers. Additionally, we perform cluster analysis (K-means, k=4) revealing differences in uncertainty structure across project segments: low-budget projects show a higher proportion of certain predictions (up to 65.4%), while high-budget projects are more evenly distributed across risk categories. We show that global calibration of the conformal predictor maintains stable coverage (~90%) across all clusters, indicating strong generalization of the method for crowdfunding data.
Ключевые слова: конформное прогнозирование, краудфандинг, оценка рисков, квантификация неопределённости, машинное обучение, кластерный анализ.
Keywords: conformal prediction, crowdfunding, risk assessment, uncertainty quantification, machine learning, cluster analysis.
Введение
Краудфандинг стал одним из ключевых механизмов альтернативного финансирования, позволяющим предпринимателям, авторам и инноваторам привлекать средства напрямую от широкой аудитории. Платформы Kickstarter, Indiegogo и GoFundMe суммарно привлекли миллиарды долларов, демократизируя доступ к капиталу [1]. Однако при доле успешных проектов около 60% краудфандинг представляет значительные риски для инвесторов (бэкеров), которым необходимо принимать решения на основе ограниченной информации, доступной на момент запуска кампании [2].
Задача прогнозирования успеха краудфандинговых проектов привлекла значительное внимание исследователей. Greenberg et al. [3] одними из первых применили методы машинного обучения, достигнув точности 68% на основе признаков проекта. Mitra и Gilbert [8] показали значимость лингвистических признаков описания для предсказания успеха. Yu et al. [9] применили глубокое обучение, а Wang et al. [6] провели сравнительный анализ нескольких архитектур глубоких нейронных сетей, достигнув точности до 93%. Однако все эти работы предоставляют точечные прогнозы без квантификации неопределённости. Прогноз «85% вероятности успеха» может быть как высоконадёжным, так и крайне неопределённым, но это различие остаётся невидимым для конечного пользователя.
Проблема квантификации неопределённости (uncertainty quantification, UQ) активно исследуется в других прикладных областях. Конформное прогнозирование [5] — метод, обеспечивающий distribution-free гарантии покрытия [18] — успешно применяется в медицинской диагностике [12, 13], адаптивных системах под сдвигом распределения [14] и количественной регрессии [10]. Однако, насколько нам известно, применение конформного прогнозирования к краудфандинговым данным ранее не исследовалось. Существующие модели краудфандинга [3, 6, 8, 9] не предоставляют статистических гарантий покрытия, что ограничивает их применимость в системах поддержки решений.
Конформное прогнозирование возвращает множество возможных исходов, которое гарантированно содержит истинную метку с заданной вероятностью (например, 90%). Эта гарантия выполняется вне зависимости от распределения данных [7], что делает метод особенно ценным для реальных приложений, где параметрические предположения могут нарушаться.
Целью данной работы является: (1) применение конформного прогнозирования к задаче оценки рисков краудфандинга — насколько нам известно, первое в данной области; (2) создание практической системы категорий риска для инвесторов; (3) кластерный анализ структуры неопределённости в различных сегментах проектов.
Материалы и методы
Набор данных. Используется датасет проектов Kickstarter [19], содержащий 196 298 проектов. После фильтрации (исключение отменённых проектов) остаётся 187 788 проектов, из которых 113 084 (60,2%) успешных и 74 704 (39,8%) провальных. Извлечены 14 признаков, доступных на момент запуска кампании (табл. 1), с исключением признаков, вызывающих утечку данных (количество спонсоров, сумма пожертвований). Категориальные признаки (Category — 15 категорий, Country — 22 страны) закодированы порядковыми метками (ordinal encoding). Данный выбор обусловлен использованием ансамблей деревьев решений: деревья выполняют пороговые разбиения по отдельным значениям, поэтому навязанный порядок не влияет на результат. При этом ordinal encoding сохраняет компактность признакового пространства (14 признаков вместо 51 при one-hot encoding), что снижает риск переобучения. Данные разделены: 60% обучение (112 672), 20% калибровка (37 558), 20% тест (37 558) со стратификацией по целевой переменной.
Таблица 1.
Описание признаков
|
Признак |
Описание |
|
Category |
Категория проекта (15 категорий) |
|
Country |
Страна создателя (22 страны) |
|
Funding Duration |
Длительность кампании в днях |
|
Pre-funding Duration |
Дни от создания проекта до запуска |
|
Launch Month |
Месяц запуска кампании |
|
Deadline Month |
Месяц окончания кампании |
|
Staff Pick |
Выбор редакции Kickstarter |
|
Creator Has Slug |
Полнота профиля создателя |
|
Blurb Length |
Длина описания (символы) |
|
Blurb Word Count |
Количество слов описания |
|
Name Length |
Длина названия (символы) |
|
Name Word Count |
Количество слов названия |
|
Log Goal |
Логарифм цели финансирования (USD) |
|
Goal per Day |
Цель финансирования / длительность |
Базовые модели. Для бинарной классификации (успех/провал) обучены три модели: логистическая регрессия, случайный лес (200 деревьев, max_depth=10) и градиентный бустинг с подбором гиперпараметров через GridSearchCV (5-fold stratified CV, оптимизация по AUC-ROC).
Конформное прогнозирование. Используется метод split conformal prediction [4] с калибровочным множеством. Для каждого примера из калибровочного множества вычисляются конформные оценки по методу LAC (Least Ambiguous set-valued Classifiers) [11]. Порог определяется как (1−α)-квантиль оценок. Множество прогнозов для нового примера содержит все классы, вероятность которых превышает порог.
Результаты интерпретируются через три категории риска: НИЗКИЙ РИСК — модель уверенно предсказывает успех (множество содержит только класс «успех»); ВЫСОКИЙ РИСК — модель уверенно предсказывает провал (только класс «провал»); НЕОПРЕДЕЛЁННЫЙ — недостаточная уверенность (множество содержит оба класса).
Кластерный анализ. Для исследования структуры неопределённости применяется кластеризация K-means [15] (k=4) по трём признакам: логарифм цели финансирования, длительность кампании, категория проекта. Цель кластерного анализа — выявить сегменты с различной структурой неопределённости.
Результаты
Базовые модели. Результаты сравнения представлены в таблице 2. Градиентный бустинг с оптимизированными параметрами (learning_rate=0,05, max_depth=6, n_estimators=300, subsample=0,8) показал лучшие результаты.
Таблица 2.
Сравнение базовых моделей
|
Модель |
Accuracy |
Precision |
Recall |
F1 |
AUC-ROC |
|
Логистическая регрессия |
0,702 |
0,725 |
0,815 |
0,767 |
0,758 |
|
Случайный лес |
0,737 |
0,732 |
0,889 |
0,803 |
0,796 |
|
Градиентный бустинг (оптим.) |
0,762 |
0,768 |
0,865 |
0,814 |
0,824 |
/Jakhanov.files/image001.jpg)
Рисунок 1. Важность признаков (Gradient Boosting)
Анализ важности признаков (рис. 1) показал, что логарифм цели финансирования (0,272) и выбор редакции (0,178) являются двумя наиболее предсказательными признаками, суммарно объясняя 45,0% важности.
/Jakhanov.files/image002.jpg)
Рисунок 2. ROC-кривая (Gradient Boosting)
Конформное прогнозирование. Результаты при различных уровнях доверия представлены в таблице 3.
Таблица 3.
Конформное прогнозирование при различных уровнях доверия
|
Уровень доверия |
Покрытие |
Уверенные прогнозы |
Точность |
Улучшение |
|
80% |
80,6% |
90,3% |
78,6% |
+2,4 п.п. |
|
85% |
85,4% |
78,5% |
81,3% |
+5,2 п.п. |
|
90% |
90,3% |
63,7% |
84,7% |
+8,5 п.п. |
|
95% |
95,0% |
44,9% |
88,8% |
+12,7 п.п. |
|
98% |
98,0% |
28,0% |
93,0% |
+16,8 п.п. |
При уровне доверия 90% метод обеспечивает покрытие 90,3%, при этом 63,7% предсказаний (23 907 из 37 558) являются уверенными. Точность на уверенных предсказаниях составляет 84,7%, что на 8,5 процентных пунктов выше базовой модели (76,2% на всей тестовой выборке).
Важно отметить, что данное улучшение является результатом эффекта отбора (selection effect), а не повышения качества самой модели: конформное прогнозирование не изменяет базовый классификатор, а идентифицирует подмножество примеров, на которых модель демонстрирует высокую уверенность, и отделяет их от сложных случаев (категория НЕОПРЕДЕЛЁННЫЙ). Ценность метода — не в «улучшении модели», а в предоставлении калиброванных гарантий и явном разделении надёжных и ненадёжных прогнозов.
/Jakhanov.files/image003.jpg)
Рисунок 3. Компромисс: уровень доверия vs прогнозы
Наблюдается устойчивая закономерность (рис. 3, табл. 3): с повышением уровня доверия доля уверенных прогнозов снижается, но их точность растёт. При 98% доверии точность достигает 93,0%, однако только 28,0% прогнозов являются уверенными. Этот контролируемый компромисс позволяет пользователю выбирать баланс между охватом и надёжностью в зависимости от задачи.
Категории риска. Распределение категорий при 90% уровне доверия представлено в таблице 4.
Таблица 4.
Категории риска (90% доверие)
|
Категория |
Количество |
Доля |
Точность |
|
НИЗКИЙ РИСК |
17 201 |
45,8% |
84,0% |
|
ВЫСОКИЙ РИСК |
6 706 |
17,9% |
86,5% |
|
НЕОПРЕДЕЛЁННЫЙ |
13 651 |
36,3% |
61,2% |
/Jakhanov.files/image004.jpg)
Рисунок 4. Категории риска (90% доверие)
Кластерный анализ. K-means кластеризация выявила четыре сегмента проектов (табл. 5).
Таблица 5.
Характеристики кластеров
|
Кластер |
Размер |
Ср. цель (USD) |
Доля успешных |
Ср. длительность |
|
1 |
52 940 |
$2 579 |
67,6% |
28 дн. |
|
2 |
53 307 |
$3 800 |
68,4% |
28 дн. |
|
3 |
25 924 |
$28 010 |
50,7% |
59 дн. |
|
4 |
55 617 |
$103 666 |
49,8% |
32 дн. |
Кластеры 1 и 2 объединяют низкобюджетные проекты с более высокой долей успеха (~68%), тогда как кластеры 3 и 4 содержат проекты с более высокими целями финансирования и долей успеха около 50%.
Анализ распределения категорий риска по кластерам (табл. 6) выявил значительные различия.
Таблица 6.
Категории риска по кластерам (Global CP, 90%)
|
Кластер |
n (тест) |
Покрытие |
Уверен. |
Точность |
Улучш. |
LOW |
HIGH |
UNC |
|
1 |
10 572 |
89,0% |
65,4% |
83,2% |
+6,8 |
57,0% |
8,5% |
34,6% |
|
2 |
10 543 |
89,7% |
62,4% |
83,4% |
+8,6 |
55,7% |
6,6% |
37,6% |
|
3 |
5 263 |
91,2% |
63,4% |
86,1% |
+9,5 |
33,2% |
30,2% |
36,6% |
|
4 |
11 180 |
91,6% |
63,3% |
86,7% |
+9,7 |
31,8% |
31,5% |
36,7% |
/Jakhanov.files/image005.jpg)
Рисунок 5. Кластерный анализ проектов
Ключевые наблюдения: (1) покрытие стабильно во всех кластерах (89,0–91,6%), что подтверждает надёжность глобальной калибровки; (2) низкобюджетные проекты (кластеры 1–2) имеют более высокую долю категории НИЗКИЙ РИСК (55–57%) и низкую долю ВЫСОКИЙ РИСК (7–9%); (3) высокобюджетные проекты (кластеры 3–4) демонстрируют более сбалансированное распределение (~32% каждый); (4) наибольшее улучшение точности наблюдается в кластерах 3–4 (+9,5–9,7 п.п.).
Сравнение глобальной и кластер-специфичной калибровки (табл. 7) показало, что адаптивный подход не даёт статистически значимого улучшения.
Таблица 7.
Глобальная vs кластерная калибровка
|
Метод |
Покрытие |
Уверенные |
Точность |
vs базовая |
|
Базовая модель |
— |
100% |
76,2% |
— |
|
Глобальное CP |
90,3% |
63,7% |
84,7% |
+8,5 п.п. |
|
Кластерное CP |
90,1% |
63,7% |
84,5% |
+8,3 п.п. |
Разница между глобальным и кластерным подходами составляет менее 0,2 процентного пункта. В отличие от подходов, где специализация по сегментам (mixture of experts [16]) даёт значительное улучшение, в данном случае глобальная калибровка уже обеспечивает хорошую адаптацию — конформные оценки, основанные на вероятностях модели, неявно учитывают характеристики сегментов.
Обсуждение
Практическая ценность. Система категорий риска предоставляет инвесторам конкретное руководство: проекты категории НИЗКИЙ РИСК имеют 84,0% точность предсказания успеха, а проекты категории ВЫСОКИЙ РИСК — 86,5% точность предсказания провала. Категория НЕОПРЕДЕЛЁННЫЙ (36,3% проектов) честно сигнализирует о случаях, требующих дополнительного анализа.
Компромисс точность–охват. Конформное прогнозирование реализует контролируемый компромисс: повышение уровня доверия увеличивает точность уверенных прогнозов, но снижает их долю. При 90% доверии достигается баланс: 63,7% проектов получают уверенный прогноз с точностью 84,7%.
Кластерный анализ. Хотя кластер-специфичная калибровка не улучшила общую точность, кластерный анализ выявил важные структурные различия: низкобюджетные проекты чаще получают категорию НИЗКИЙ РИСК (57% vs 32% для высокобюджетных), что соответствует их объективно более высокой успешности. Данный результат ценен для краудфандинговых платформ при разработке систем рекомендаций.
Робастность глобальной калибровки. Устойчивое покрытие (~90%) во всех кластерах свидетельствует о том, что глобальная калибровка достаточна для краудфандинговых данных. Это положительный результат с практической точки зрения, поскольку он упрощает развёртывание системы.
Ограничения. Следует отметить несколько существенных ограничений. Во-первых, используются только статические признаки, доступные при запуске кампании, без учёта динамических сигналов (темп привлечения средств, социальная активность), которые могут значительно повысить точность прогнозов [8]. Во-вторых, датасет опубликован в 2018 г. и может не отражать текущих тенденций платформы Kickstarter: с тех пор изменились политики модерации, появились новые категории, выросла конкуренция — это влияет на обобщаемость результатов на современные данные. В-третьих, конформное прогнозирование обеспечивает маргинальное покрытие, которое гарантируется в среднем по всей выборке, но может варьироваться для конкретных подгрупп [17]. Наконец, улучшение точности на уверенных прогнозах является эффектом отбора: конформное прогнозирование не улучшает саму модель, а идентифицирует подмножество надёжных предсказаний.
Заключение
В данной работе представлено применение конформного прогнозирования к задаче оценки рисков краудфандинговых проектов — насколько нам известно, первое в данной области.
Методологический вклад. Показано, что split conformal prediction с оценками LAC [11] обеспечивает distribution-free гарантии покрытия (90,3% при целевом уровне 90%) для краудфандинговых данных с 14 признаками. Метод не требует параметрических предположений и совместим с любым базовым классификатором.
Практический вклад. Предложена система из трёх категорий риска (НИЗКИЙ РИСК, ВЫСОКИЙ РИСК, НЕОПРЕДЕЛЁННЫЙ), обеспечивающая явное разделение надёжных и ненадёжных прогнозов. На уверенных предсказаниях (63,7% выборки) точность составляет 84,7% — за счёт эффекта отбора, а не изменения модели. Категория НЕОПРЕДЕЛЁННЫЙ (36,3%) честно маркирует случаи, требующие дополнительного анализа.
Аналитический вклад. Кластерный анализ (K-means, k=4) выявил структурные различия в неопределённости: низкобюджетные проекты чаще получают категорию НИЗКИЙ РИСК (57% vs 32% для высокобюджетных). При этом глобальная калибровка конформного предиктора обеспечивает стабильное покрытие (~90%) во всех сегментах, что упрощает практическое развёртывание без необходимости сегментации.
Ограничения включают использование статических признаков (без динамики кампании), датасет 2018 г. (ограниченная обобщаемость на современные данные) и маргинальный характер гарантий покрытия.
Направления дальнейших исследований: (1) применение онлайн-конформного прогнозирования [14] для учёта динамических сигналов по ходу кампании (темп привлечения средств, социальная активность); (2) интеграция текстовых признаков описания проекта [8] и визуальных признаков (изображения кампании) для расширения признакового пространства; (3) исследование локализованного конформного прогнозирования [17] для обеспечения условных (а не только маргинальных) гарантий покрытия для различных подгрупп проектов; (4) валидация на современных данных других краудфандинговых платформ (Indiegogo, GoFundMe).
Список литературы:
- Mollick E. The Dynamics of Crowdfunding: An Exploratory Study // Journal of Business Venturing. — 2014. — Т. 29. — № 1. — С. 1–16.
- Kickstarter. Kickstarter Stats [Электронный ресурс]. — Режим доступа: https://www.kickstarter.com/help/stats (дата обращения: 10.01.2025).
- Greenberg M.D., Pardo B., Hariharan K., Gerber E. Crowdfunding Support Tools: Predicting Success & Failure // CHI'13 Extended Abstracts on Human Factors in Computing Systems. — ACM, 2013. — С. 1815–1820.
- Papadopoulos H., Proedrou K., Vovk V., Gammerman A. Inductive Confidence Machines for Regression // European Conference on Machine Learning. — Springer, 2002. — С. 345–356.
- Vovk V., Gammerman A., Shafer G. Algorithmic Learning in a Random World. — New York: Springer, 2005. — 324 с.
- Wang W., Zheng H., Wu Y.J. Prediction of Fundraising Outcomes for Crowdfunding Projects Based on Deep Learning: A Multimodel Comparative Study // Soft Computing. — 2020. — Т. 24. — № 11. — С. 8323–8341.
- Angelopoulos A.N., Bates S. Conformal Prediction: A Gentle Introduction // Foundations and Trends in Machine Learning. — 2023. — Т. 16. — № 4. — С. 494–591.
- Mitra T., Gilbert E. The Language That Gets People to Give: Phrases That Predict Success on Kickstarter // Proceedings of the 17th ACM CSCW. — ACM, 2014. — С. 49–61.
- Yu P.-F., Huang F.-M., Yang C. et al. Prediction of Crowdfunding Project Success with Deep Learning // IEEE International Conference on e-Business Engineering (ICEBE). — IEEE, 2018. — С. 1–8.
- Romano Y., Patterson E., Candès E. Conformalized Quantile Regression // Advances in Neural Information Processing Systems. — 2019. — Т. 32. — С. 3538–3548.
- Sadinle M., Lei J., Wasserman L. Least Ambiguous Set-Valued Classifiers with Bounded Error Levels // Journal of the American Statistical Association. — 2019. — Т. 114. — № 525. — С. 223–234.
- Olsson H., Kartasalo K., Wählby C. et al. Estimating diagnostic uncertainty in artificial intelligence assisted pathology using conformal prediction // Nature Communications. — 2022. — Т. 13. — С. 7761.
- Vazquez J., Facelli J.C. Conformal Prediction in Clinical Medical Sciences // Journal of Healthcare Informatics Research. — 2022. — Т. 6. — С. 241–252.
- Gibbs I., Candès E. Adaptive Conformal Inference Under Distribution Shift // Advances in Neural Information Processing Systems. — 2021. — Т. 34. — С. 1660–1672.
- Lloyd S.P. Least Squares Quantization in PCM // IEEE Transactions on Information Theory. — 1982. — Т. 28. — № 2. — С. 129–136.
- Jacobs R.A., Jordan M.I., Nowlan S.J., Hinton G.E. Adaptive Mixtures of Local Experts // Neural Computation. — 1991. — Т. 3. — № 1. — С. 79–87.
- Guan L. Localized Conformal Prediction: A Generalized Inference Framework for Conformal Prediction // Biometrika. — 2023. — Т. 110. — № 1. — С. 33–50.
- Lei J., Wasserman L. Distribution-Free Prediction Bands for Non-parametric Regression // Journal of the Royal Statistical Society: Series B. — 2014. — Т. 76. — № 1. — С. 71–96.
- Mouillé M. Kickstarter Projects [Электронный ресурс] // Kaggle. — 2018. — Режим доступа: https://www.kaggle.com/datasets/kemical/kickstarter-projects (дата обращения: 15.12.2024).