七步建模法

01Step

Problem Analysis

问题分析

问题分析是整个建模过程最关键的起点。大多数建模失误不是因为数学不够强，而是因为没有真正搞清楚题目在问什么。这一步的核心任务是：明确目标、识别变量、划定边界。

实战示例

以 MCM 2022 C题"交通拥堵"为例：题目表面在问"如何优化红绿灯配时"，但深层目标是最小化全网通行时间或最大化路网吞吐量。若只盯着红绿灯本身，很可能错过网络流和博弈论视角，导致模型过于局部。

🔍 需要回答的关键问题

题目要求最终输出什么？（数值 / 策略 / 排名 / 分类）
输入数据有哪些？已知量 vs 未知量
有哪些限制条件和约束？
评价标准是什么？（单目标 / 多目标）
问题是确定性还是随机性？静态还是动态？
解的时间尺度与空间尺度是什么量级？

⚠️ 常见误区

读题不超过15分钟就开始建模——往往南辕北辙
混淆"描述性目标"与"可量化目标"
忽略题目附件中的隐含约束条件
把多个子问题当成一个问题来处理
过早固定建模方向，排斥其他可能

✅ 操作清单

✓

通读全文至少两遍，标注关键词（动词：预测/优化/评估/设计）

✓

用一句话写出"我们需要建立一个模型，输入_____，输出_____，使得_____"

✓

列出所有变量（状态变量、决策变量、参数）并标注单位

✓

画出系统草图（流程图或因果图），标注信息流向

✓

将题目拆解为若干子问题，确定各子问题之间的依赖关系

✓

检查数据附件：格式、量纲、缺失情况、异常值

02Step

Model Assumptions

模型假设

没有假设，就没有模型。假设的作用是将复杂的真实世界简化为数学可以处理的抽象系统。好的假设应当必要、可辩护、可量化影响——既要足够简单让模型可操作，又不能与关键现实严重脱离。

实战示例

在传染病传播模型中，假设"人口均匀混合（homogeneous mixing）"可以大幅简化接触率的计算。但若建模城市内部的传播，该假设会导致预测失真，因为城区/郊区密度差异显著。此时需要替换为分层网络假设并在后续反思中指出其局限。

📌 假设的三种类型

物理/现实假设：忽略摩擦、视为均匀分布、忽视特殊个例
统计假设：正态分布、独立同分布、平稳性假设
数学假设：连续性、线性化、时间不变性

✍️ 如何在论文中写假设

每条假设独立成行，编号列出
说明"为什么做此假设"（物理原因 / 数据限制）
指出假设适用的范围边界
若假设过强，在验证或反思部分进行敏感性分析

⚠️ 常见误区

假设越多不等于越好——冗余假设削弱可信度
假设语义模糊（如"忽略小因素"）
假设与后续模型逻辑不一致
未在验证步骤中检验核心假设的合理性

💡 实用技巧

先问：去掉这条假设模型是否仍然可以建立？
对核心假设做参数扫描：变化±20%结果怎么变？
竞赛评委最看重"假设的自洽性"，不是数量
可在附录补充"若放宽假设A的替代方案"

✅ 操作清单

✓

列出所有影响系统的因素，逐一判断保留/忽略并说明理由

✓

每条假设用"在……条件下，我们假定……，因为……"的格式表述

✓

确保假设之间没有逻辑矛盾

✓

标注哪些假设后续需要做敏感性检验

03Step

Model Construction

模型建立

模型建立是将问题的文字描述转化为数学语言的过程。选对模型框架是建模的"选题"，选错了后续工作再努力也难以弥补。核心原则：从问题类型出发选方法，而不是从自己熟悉的方法出发凑问题。

🗺️ 模型选择导图：问题类型 → 常用方法

评价 / 排序类

AHP 层次分析TOPSIS熵权法模糊综合评价

优化 / 决策类

线性规划整数规划遗传算法粒子群优化

预测 / 时序类

回归分析ARIMA灰色预测LSTM

动力学 / 机制类

ODE/PDESIR模型元胞自动机Agent模型

网络 / 关系类

图论网络流PageRank社区发现

模拟 / 随机类

蒙特卡洛排队论马尔可夫链博弈论

📐 模型建立的要素

明确决策变量与状态变量，统一命名与符号
写出目标函数（最小化/最大化/描述性）
列出所有约束条件（等式 / 不等式 / 边界）
说明各参数来源（数据拟合 / 文献 / 估算）
给出数学符号表，避免读者混淆

⚠️ 常见误区

方法堆砌（AHP+TOPSIS+神经网络）却没有整体逻辑
参数来源不明，纯凭经验"拍"数值
模型公式与符号列表前后不一致
模型过于复杂，参数多于数据量导致过拟合
忽视量纲一致性检验

✅ 操作清单

✓

根据问题类型（评价/优化/预测/机制）选定主框架

✓

画出模型结构图（模块化）：数据输入→中间计算→输出结果

✓

逐一列出所有参数，标注估计方式及来源文献

✓

对所有公式做量纲一致性检查

✓

确认模型自由度：未知数数量 ≤ 约束 / 数据点数量

04Step

Model Solving

模型求解

求解是将数学模型转化为计算结果的过程。好的求解不仅要给出答案，还要让读者能复现结果、理解过程、信任输出。代码应有注释，结果应有可视化，过程应有逻辑说明。

🛠️ 常用工具与语言选择

Python：scipy、numpy、pandas、networkx、cvxpy — 通用首选
MATLAB：ODE求解器、优化工具箱 — 工程类常用
R：统计建模、时序分析 — 统计类题目
Gurobi/CPLEX：大规模线性/整数规划
Julia：高性能数值计算、微分方程

📊 可视化要点

每个关键结论对应一张图表，图表要有标题和轴标签
参数扫描结果用热力图或等高线图展示
时序结果用折线图，分布用箱线图或小提琴图
多方案对比用分组柱状图或雷达图
地理数据用 choropleth 或流向图

⚡ 求解策略：遇到难解模型怎么办

1

解析解优先：能推导闭合解就不用数值方法，公式更有说服力

2

线性化近似：非线性系统在工作点附近泰勒展开，转为线性问题

3

化整为零：将大问题分解为若干子问题，分别求解后合并

4

启发式算法：NP难问题用遗传算法/模拟退火寻近似最优解

5

蒙特卡洛：复杂积分或概率问题，统计模拟替代解析求解

⚠️ 常见误区

代码运行但未验证数值量级是否合理
只展示最终数字，不展示中间计算过程
迭代算法未设置收敛准则，靠"跑够多次"
结果图表信息量不足（无轴标签/无单位）
将所有代码放正文，未整理到附录

💡 竞赛实战技巧

先在小数据集上测试，确认逻辑正确再跑完整数据
设置随机种子保证结果可复现
记录每次关键运行的时间戳和参数配置
将核心函数封装，便于在后续敏感性分析中复用

✅ 操作清单

✓

选定求解方法并说明选择理由（解析 / 数值 / 启发式）

✓

代码设置随机种子，标注软件版本

✓

检验数值量级：结果是否在合理物理范围内？

✓

为每个核心结果生成清晰图表（有标题、轴标签、单位）

✓

将完整代码整理至附录，正文只保留关键算法伪代码

05Step

Model Validation

模型验证

验证是给结果打上"可信度标签"的过程。没有验证的模型结论，对评委来说只是一串没有说服力的数字。验证的核心目标：证明模型在已知数据上准确，在扰动下稳定，在边界条件下合理。

🔬 四类验证方法

历史数据验证：用部分数据训练，剩余数据测试，计算误差指标（RMSE、MAE、R²）
交叉验证：k折交叉验证，评估模型泛化能力
敏感性分析：逐一扰动关键参数±10%~30%，观察结果变化幅度
极端/退化情形检验：将系统推向边界值，结果是否符合物理直觉

📏 常用误差指标

RMSE（均方根误差）：对大误差敏感，回归类首选
MAE（平均绝对误差）：鲁棒，受异常值影响小
MAPE（平均绝对百分误差）：便于跨量纲比较
R²（决定系数）：解释方差比例，越接近1越好
AIC/BIC：模型复杂度惩罚，用于模型选择

实战示例

在人口预测模型中，可用2000—2015年数据训练，预测2016—2020年数据并与真实值对比。同时，对增长率参数做敏感性分析，若±5%的扰动导致2030年预测值偏差超过20%，则需在论文中指出该参数是关键不确定性来源，并在政策建议中加入容错空间。

⚠️ 常见误区

用训练数据做验证（数据泄露），结果"自然"很好
只报告R²却不看残差分布
敏感性分析只扰动一个参数，忽视参数间的联合效应
验证结论与实际误差矛盾却不解释

💡 竞赛加分项

制作敏感性热力图（参数1 × 参数2 对结果的影响）
与竞争基线模型（如简单均值预测）对比，突出本模型优势
报告置信区间而非点估计，体现统计严谨性

✅ 操作清单

✓

划分训练集/测试集，明确说明比例与划分方式

✓

报告至少两种误差指标，并解释选择理由

✓

对≥3个关键参数做敏感性分析，制作可视化图表

✓

用极端情形（参数边界值）检验模型行为是否合理

✓

若验证误差偏大，在正文中坦诚说明原因，不刻意回避

06Step

Reflection

反思

反思是展示批判性思维的地方，也是评委最容易区分优秀与平庸论文的环节。反思不是"谦虚地说模型不好"，而是结构化地分析模型的能力边界，并提出有依据的改进思路。

✨ 模型优点的写法

指出哪类问题模型表现最好，为什么
对比其他方法，本模型的计算效率或精度优势
模型的可解释性（结果能否直观理解）
模型的可拓展性（增加变量/数据量后的性能）
数据需求低（不需要大量历史数据即可运行）

🔎 局限性的写法

明确假设失效的场景（如：假设线性，但实际是非线性）
数据质量的影响：缺失值、测量误差对结果的影响
计算复杂度瓶颈（规模扩大后是否仍可用）
无法捕获的动态或突变（黑天鹅事件）
模型在其他地区/时段的迁移能力

结构化反思模板

优点：本模型在……场景下表现出……优势，相较于……方法，计算时间减少……%，预测误差降低……%。

局限：当……条件不满足时（如……），模型预测误差显著上升。此外，模型假设……在……情境下可能不成立。

改进方向：若获取……类型数据，可通过……方法将模型扩展至……场景。

✅ 操作清单

✓

至少列出3条模型优势（有数据/对比支撑，不是泛泛而谈）

✓

至少列出3条局限性，并说明在何种条件下出现

✓

提出具体可操作的改进方案，而非"获取更多数据"这类空话

✓

回顾第2步中标注的"需做敏感性检验的假设"，逐一说明结论

07Step

Application & Extension

模型应用与推广

最后一步让模型从"解题工具"升华为"决策框架"。这一步要回答：这个模型对现实世界的意义是什么？它能在哪些其他场景中使用？下一步研究方向在哪里？这是论文最终给读者留下印象的地方。

🌍 应用推广的三个维度

空间推广：将模型从特定区域推广到其他地理范围，指出需要调整的参数
时间推广：从短期预测推广到长期情景分析，引入不确定性区间
领域推广：交通模型→供应链调度；传染病模型→信息传播；etc.

📋 政策建议的写法

建议必须与模型结论直接挂钩（不能凭空发散）
区分"当前可行"与"未来可行（需更多数据）"两类建议
用"若……则……"条件句，体现不确定性
量化建议效果（如：实施方案A可降低成本X%）
为决策者指出关键监控指标（KPI）

💡 MCM 竞赛的加分写法

在摘要（Summary Sheet）中明确提炼"对决策者的三条建议"
给出模型在其他真实数据集上的初步测试结果
绘制"推广路线图"：哪些组织/机构可以直接采用该模型
引用最新文献，将工作放入研究脉络中定位

⚠️ 常见误区

政策建议超越模型能力，言过其实
"推广"只是换了个领域名称，没有实质性分析
未来工作只写"获取更多数据"，缺乏具体方向
忽视实施成本与可行性，建议过于理想化

✅ 操作清单

✓

提出≥2条与模型结论直接挂钩的具体政策/操作建议

✓

说明模型在至少一个其他场景中的应用潜力及所需修改

✓

列出2—3个具体的未来研究方向（数据、方法、规模三个维度）

✓

在摘要/结论中再次呼应第1步中识别的核心问题，形成闭环

问题分析

🔍 需要回答的关键问题

⚠️ 常见误区

✅ 操作清单

模型假设

📌 假设的三种类型

✍️ 如何在论文中写假设

⚠️ 常见误区

💡 实用技巧

✅ 操作清单

模型建立

🗺️ 模型选择导图：问题类型 → 常用方法

📐 模型建立的要素

⚠️ 常见误区

✅ 操作清单

模型求解

🛠️ 常用工具与语言选择

📊 可视化要点

⚡ 求解策略：遇到难解模型怎么办

⚠️ 常见误区

💡 竞赛实战技巧

✅ 操作清单

模型验证

🔬 四类验证方法

📏 常用误差指标

⚠️ 常见误区

💡 竞赛加分项

✅ 操作清单

反思

✨ 模型优点的写法

🔎 局限性的写法

✅ 操作清单

模型应用与推广

🌍 应用推广的三个维度

📋 政策建议的写法

💡 MCM 竞赛的加分写法

⚠️ 常见误区

✅ 操作清单

想把七步建模法落地实战？