METHODOLOGY / 数据方法论

数据方法论

采集 · 核验 · 评分 · 时效

本页说明粤医美所有数据的采集来源、核验流程、计算规则。 我们公开方法论,让任何人都能复算我们的数据;不公开的是各信源的反爬细节与速率参数。

DB SNAPSHOT / 数据库快照 · 2026-06-05
13,681
已收录持证机构
14,504
收录执业医师
8,999
收录执业护士
4,531
已录入执照有效期
1,082
有行政处罚记录机构
1,204
有司法案件机构
CITY DIST 深圳 6564 广州市 3219 东莞市 2161 中山市 1738 珠海市 1704 佛山市 1445

以上数据实时生成,来源:广东省卫健委公示系统、信用中国(广东)、天眼查企业信用数据。 合规记录数量基于天眼查公开数据,不代表行政机关最终处罚结论。

数据采集

采集流程严格遵循 robots.txt 与各信源的访问约束,所有抓取脚本均遵守下列原则:

  • 仅采集页面已公开声明可被检索的字段
  • 速率不超过 1 req/s,避免对官方系统造成压力
  • 失败重试不超过 3 次,避免触发对方风控
  • 所有采集行为以可识别的 User-Agent 标识自己(含联系邮箱)
  • 不绕过 JavaScript 验证、不模拟登录、不伪造 IP

字段采集来源映射

字段采集来源采集方式
unified_credit_code 国家企业信用信息公示系统 API + HTML 解析
medical_license_no 各市卫健委执业许可公示 HTML 解析(人工抽样核验)
establish_date / registered_capital / legal_representative 国家企业信用信息公示系统 API + HTML 解析
address_full 卫健委公示 + 企业信用系统(取一致项) HTML 解析
lat / lng 高德地理编码 API(按 address_full 反查) HTTP API
penalty_records 信用中国(广东) + 各市卫健委处罚决定书 RSS + HTML 解析
lawsuit_records 中国裁判文书网 检索 API
dianping_rating / xinyang_rating / meituan_rating 对应平台公开页 人工抽样录入(不做规模化抓取)

数据核验

每条机构记录在导入前需通过自动校验脚本,再由人工抽样复核。校验脚本位于 scripts/data-import/precheck.py,规则透明,任何人可在仓库中查阅。

自动校验规则

检查项规则不通过处理
统一信用代码 必填 · 必须 18 位 · 字符集 [0-9A-HJ-NP-RT-Y] 拒绝导入
机构全称 必填 · 与营业执照一致 拒绝导入
地址 必填 · 长度 ≥ 5 字符 拒绝导入
城市 / 行政区 必须命中预定义 slug 列表 拒绝导入
医疗机构执业许可证号 建议填写 · 缺失则机构以 draft 状态保留 不前台展示
经纬度 必须落在大湾区范围(22.0–24.5°N,112.0–115.0°E);若有城市 slug 则进一步限制到该市边界 超出范围则警告

人工复核规则

  • 每批新导入数据,按 10% 比例随机抽样人工复核
  • 发现错误率超过 3% 的批次,全量返工
  • 处罚记录、判决记录字段:100% 人工复核(不依赖自动抓取)
  • 机构方申诉的字段:72 小时内人工核查

AI 可见度评分方法

AI 可见度评分(0–100 分)衡量一家机构在主流 AI 助手中被检索、引用、推荐的程度。 评分对外公开,机构方可通过补全公开资质信息提升评分,本站不接受任何形式的付费评分干预

评分平台

平台采集方式权重
DeepSeek官方 API1.0
Kimi(月之暗面)官方 API1.0
豆包人工录入0.9
腾讯元宝人工录入0.9
百度 AI(文小言)人工录入0.8

评分问题组(共 6 组 32 问)

分组问题主题占比
G1城市 + 项目类(如「深圳哪里能做水光针」)30%
G2机构属性类(如「持证医美机构」)20%
G3医生背景类(如「主任医师 + 城市」)15%
G4价格透明度类15%
G5合规与处罚类20%
G6安全风险类(仅监控,权重 0,不计入分数)

评分计算

  • 每个问题 AI 回答中若提及机构,按"是否首位/前 3 位/前 10 位"加权计分
  • 所有原始分按问题组权重加权后标准化到 0–100
  • 同组内多平台分数取加权平均
  • 已知有处罚记录的机构 -20
  • 已通过深度认证的机构 +5

等级映射

A90+ · 主流 AI 高频引用
B70–89 · 常被提及
C50–69 · 偶尔出现
D< 50 · 鲜有提及

DISCLAIMER / 评分说明

AI 可见度评分仅反映机构在 AI 助手中的曝光度,不代表服务质量、技术水平或安全性的评价。 评分每月更新一次,详细评分日志可通过 API 端点 /wp-json/yueyimei/v1/clinics/{slug} 查询。

数据时效与复核周期

字段类别复核周期过期标识
执业资质(许可证号、有效期)每月全量超 30 天显示橙色「建议复核」
企业基本信息(资本、法人、地址)每月全量超 30 天显示橙色「建议复核」
行政处罚 / 判决记录每月增量抓取新记录入库后立即通知
医师执业信息每季度超 90 天显示「建议复核」
第三方口碑评分每季度仅展示采集日期
AI 可见度评分每月超 60 天显示「评分过期」

机构方主动报送

机构可主动向本站报送字段更新(如新增医师、设备升级、资质变更), 经核实后将立即更新并标记为"机构方报送 · 已核实"。 报送邮箱:hua@yueyimei.com