METHODOLOGY / 数据方法论
数据方法论
采集 · 核验 · 评分 · 时效
本页说明粤医美所有数据的采集来源、核验流程、计算规则。 我们公开方法论,让任何人都能复算我们的数据;不公开的是各信源的反爬细节与速率参数。
以上数据实时生成,来源:广东省卫健委公示系统、信用中国(广东)、天眼查企业信用数据。 合规记录数量基于天眼查公开数据,不代表行政机关最终处罚结论。
数据采集
采集流程严格遵循 robots.txt 与各信源的访问约束,所有抓取脚本均遵守下列原则:
- 仅采集页面已公开声明可被检索的字段
- 速率不超过 1 req/s,避免对官方系统造成压力
- 失败重试不超过 3 次,避免触发对方风控
- 所有采集行为以可识别的 User-Agent 标识自己(含联系邮箱)
- 不绕过 JavaScript 验证、不模拟登录、不伪造 IP
字段采集来源映射
| 字段 | 采集来源 | 采集方式 |
|---|---|---|
unified_credit_code |
国家企业信用信息公示系统 | API + HTML 解析 |
medical_license_no |
各市卫健委执业许可公示 | HTML 解析(人工抽样核验) |
establish_date / registered_capital / legal_representative |
国家企业信用信息公示系统 | API + HTML 解析 |
address_full |
卫健委公示 + 企业信用系统(取一致项) | HTML 解析 |
lat / lng |
高德地理编码 API(按 address_full 反查) | HTTP API |
penalty_records |
信用中国(广东) + 各市卫健委处罚决定书 | RSS + HTML 解析 |
lawsuit_records |
中国裁判文书网 | 检索 API |
dianping_rating / xinyang_rating / meituan_rating |
对应平台公开页 | 人工抽样录入(不做规模化抓取) |
数据核验
每条机构记录在导入前需通过自动校验脚本,再由人工抽样复核。校验脚本位于
scripts/data-import/precheck.py,规则透明,任何人可在仓库中查阅。
自动校验规则
| 检查项 | 规则 | 不通过处理 |
|---|---|---|
| 统一信用代码 | 必填 · 必须 18 位 · 字符集 [0-9A-HJ-NP-RT-Y] |
拒绝导入 |
| 机构全称 | 必填 · 与营业执照一致 | 拒绝导入 |
| 地址 | 必填 · 长度 ≥ 5 字符 | 拒绝导入 |
| 城市 / 行政区 | 必须命中预定义 slug 列表 | 拒绝导入 |
| 医疗机构执业许可证号 | 建议填写 · 缺失则机构以 draft 状态保留 |
不前台展示 |
| 经纬度 | 必须落在大湾区范围(22.0–24.5°N,112.0–115.0°E);若有城市 slug 则进一步限制到该市边界 | 超出范围则警告 |
人工复核规则
- 每批新导入数据,按 10% 比例随机抽样人工复核
- 发现错误率超过 3% 的批次,全量返工
- 处罚记录、判决记录字段:100% 人工复核(不依赖自动抓取)
- 机构方申诉的字段:72 小时内人工核查
AI 可见度评分方法
AI 可见度评分(0–100 分)衡量一家机构在主流 AI 助手中被检索、引用、推荐的程度。 评分对外公开,机构方可通过补全公开资质信息提升评分,本站不接受任何形式的付费评分干预。
评分平台
| 平台 | 采集方式 | 权重 |
|---|---|---|
| DeepSeek | 官方 API | 1.0 |
| Kimi(月之暗面) | 官方 API | 1.0 |
| 豆包 | 人工录入 | 0.9 |
| 腾讯元宝 | 人工录入 | 0.9 |
| 百度 AI(文小言) | 人工录入 | 0.8 |
评分问题组(共 6 组 32 问)
| 分组 | 问题主题 | 占比 |
|---|---|---|
G1 | 城市 + 项目类(如「深圳哪里能做水光针」) | 30% |
G2 | 机构属性类(如「持证医美机构」) | 20% |
G3 | 医生背景类(如「主任医师 + 城市」) | 15% |
G4 | 价格透明度类 | 15% |
G5 | 合规与处罚类 | 20% |
G6 | 安全风险类(仅监控,权重 0,不计入分数) | — |
评分计算
- 每个问题 AI 回答中若提及机构,按"是否首位/前 3 位/前 10 位"加权计分
- 所有原始分按问题组权重加权后标准化到 0–100
- 同组内多平台分数取加权平均
- 已知有处罚记录的机构 -20 分
- 已通过深度认证的机构 +5 分
等级映射
| A | 90+ · 主流 AI 高频引用 |
|---|---|
| B | 70–89 · 常被提及 |
| C | 50–69 · 偶尔出现 |
| D | < 50 · 鲜有提及 |
DISCLAIMER / 评分说明
AI 可见度评分仅反映机构在 AI 助手中的曝光度,不代表服务质量、技术水平或安全性的评价。
评分每月更新一次,详细评分日志可通过 API 端点 /wp-json/yueyimei/v1/clinics/{slug} 查询。
数据时效与复核周期
| 字段类别 | 复核周期 | 过期标识 |
|---|---|---|
| 执业资质(许可证号、有效期) | 每月全量 | 超 30 天显示橙色「建议复核」 |
| 企业基本信息(资本、法人、地址) | 每月全量 | 超 30 天显示橙色「建议复核」 |
| 行政处罚 / 判决记录 | 每月增量抓取 | 新记录入库后立即通知 |
| 医师执业信息 | 每季度 | 超 90 天显示「建议复核」 |
| 第三方口碑评分 | 每季度 | 仅展示采集日期 |
| AI 可见度评分 | 每月 | 超 60 天显示「评分过期」 |
机构方主动报送
机构可主动向本站报送字段更新(如新增医师、设备升级、资质变更),
经核实后将立即更新并标记为"机构方报送 · 已核实"。
报送邮箱:hua@yueyimei.com。