第二章 方法
第一节 数据纳入及分析方法
一、数据源选择及收录标准
(一)数据来源
1.全国代表性数据
全国代表性数据首先采用文献追溯的方式,通过各版《中国2型糖尿病防治指南》、国际糖尿病联盟糖尿病地图收录文献和已发表的有关中国的糖尿病系统综述追溯全国代表性研究数据结果。其次采用文献回溯的方法,检索文献发表时间范围为1980年至2019年10月。此过程由2名研究人员独立完成,核对校验后汇总形成文献检索数据库。
检索时间:2019年10—12月。后于2020年3月补录新发表的一篇全国代表性2型糖尿病患病率文献用于分析。
2.省(自治区、直辖市、特别行政区)级及地区级代表性数据
省级及地区级代表性数据主要采用文献检索方式获取,以文献追溯法辅助,尽可能查到全部历史资料。
系统检索中国期刊全文数据库(China National Knowledge Infrastructure,CNKI)、万方数据资源系统(Wanfang Data)、维普数据库(Chongqing VIP,CQVIP)中关于省级及地区级2型糖尿病患病率研究的期刊类文献。检索策略为以主题词、摘要、题名(或篇名)及关键词分别进行“×××(省份名)”+“糖尿病”+“患病率”和“×××”+“糖尿病”+“流行”检索。
英文文献检索数据库PubMed(National library of medicine,National Center for Biotechnology Information数据库)中收录的2019年及以前且研究现场为中国地区的外文文献。
检索策略为:
“省份名[Title/Abstract]Diabetes[Title/Abstract]Prevalence[Title/Abstract]”。
检索文献发表时间范围为2019年11月之前。此过程由3名研究人员独立完成,核对校验后汇总形成文献检索数据库。
检索时间:2019年9—11月。
(二)文献筛选
通过文献题名和摘要进行初筛,对于根据题名和摘要不能明确是否达到排除标准的文献进一步阅读全文进行筛选,根据纳入、排除标准剔除不合格的文献。
如果有≥2篇文献报道同一研究,选择报告较早、较全面的文献。少数民族地区,如新疆维吾尔自治区,纳入研究以报道民族覆盖最全的文献为准。
此过程由4名研究人员分为两个小组独立完成,对有不同意见的文献交由4人讨论决定是否纳入,意见一致后,核对汇总形成文献分析数据库。
(三)纳入及排除标准
1.纳入标准
(1)研究对象来自中国地区;
(2)利用了基于一般人群的流行病学调查数据;
(3)以糖尿病患病率作为主要研究目标之一;
(4)有原始数据的文献;
(5)研究对象涵盖18岁及以上;
(6)明确报告了研究设计、调查时间;
(7)明确报告2型糖尿病诊断标准和方法;
(8)全国代表性研究要求研究对象≥12 000人,能较好代表同期的全国水平;省级代表性研究要求研究对象≥2 000人,能较好代表某省、市或跨省域多地区水平;
(9)明确报告患病率或简单计算可得;
(10)经血标本检测判定结果;
(11)全国代表性研究须报告分性别和分年龄组患病率。
2.排除标准
(1)研究不是针对一般人群:如体检人群、特定职业、医院门诊或住院患者等;
(2)针对局部地区:如农村或城乡接合部等;
(3)病例对照研究;
(4)综述、会议报告、学位论文、报道、通告等非原始数据研究;
(5)自报患病率;
(6)重复发表;
(7)省级代表性研究中抽样点小于3个。
(四)样本量纳入合理值预估
为了保证拟合患病率的可靠性和相对准确性,根据专家组和编写组流行病学和统计学专家意见,参照样本量计算公式设定样本量纳入最低要求。
1.全国代表性样本量纳入合理值预估
根据《卫生统计学》(第6版)总体概率估计的样本含量公式来计算样本量纳入合理值。

式中,P表示预期发病率,由于查到的研究数据横跨1979—2013年,取其中间时点1996年的王克安等研究的患病率标化值3.21%为基准计算全国代表性调查所需样本量;ε相对误差取值10%,置信水平1-α=95%。
n=1.962(1-0.0 321)/(0.12×0.0 321)=11 583
考虑调查现场把握,取整12 000人作为全国代表性研究样本量纳入标准。
2.省(自治区、直辖市、特别行政区)级代表性样本量纳入合理值预估
计算公式同前,由于大多数省份调查始于1995年,P取2005年预估均值8%计算;ε相对误差与全国代表性样本量计算相比放宽取值15%,置信水平1-α=95%。
n=1.962(1-0.08)/(0.152×0.08)=1 963
取整2 000人作为省级代表性研究样本量纳入标准。
二、数据处理及分析方法
数据报告质量评价
本次采用加强观察性流行病学研究报告规范(strengthening the reporting of observational studies in epidemiology,STROBE声明)中横断面研究评价标准对纳入文献进行数据报告质量评价。由于1型糖尿病和妊娠期糖尿病入选文献数量较少,仅对2型糖尿病的入选文献进行了评价。详见表2-1。
表2-1 STROBE声明评价标准

续表

由于数据报告质量评价和发表规范在2000年以后逐步应用并多次更新,应用其评价早期数据报告质量是否适宜值得探讨。从对现有查找到的文献数据进行报告质量评价的结果看,存在早期文献总体评分低于2000年以后的现象。详见表2-2。
表2-2 不同时段发表文献评价得分 单位:分

与国家级患病率数据较多发布在国际期刊不同,省级患病率数据大多发布在中文期刊,还有相当一部分的非核心期刊,区域间得分存在差异,详见表2-3;同时,省级患病率的研究数量在各省之间差异更加明显,北京、上海两地各有10个研究入选,而贵州、内蒙古、山西和西藏各只有1个研究入选。
表2-3 不同地区文献评价得分 单位:分

如果严格地按照数据报告质量评价入选,即便换用其他评价标准,也仍将会有很大比例的文献难以入选,直接影响后续的区域数据分析。因此,在本版地图中,并未依此对文献的数据报告质量进行纳入排除限制。
三、数据提取和统计分析
阅读纳入文献全文,记录每篇文献的第一作者、调查年份、发表年份、地区、样本量、诊断方法、诊断标准、年龄范围、调查人数、性别比例、患病率、标准误和95%置信区间(confidence interval,CI)、标化人口数来源及质量评分等数据,按照统一表格,由4位研究人员分两组独立记录,如遇不一致经讨论决定。如果同一篇文献按照不同糖尿病诊断标准分别报道了患病率,则将文献拆分为多个研究并摘录其原始数据。
研究全国及各地区总人群的糖尿病患病率的时间变化趋势,以每个研究调查对象人数为权重,利用基于每个调查时期中点的连续分段多项式回归模型来估计糖尿病患病率随时间变化趋势并作图,并且利用回归模型估计了1980年至2015年每5年中点患病率。在各地区患病率分析时,存在同一年≥2项研究时,先对同一年的研究进行合并。在全国水平,进一步分性别和年龄段利用限制性立方样条拟合了各组人群患病率趋势并且作图。年龄分为<40岁、40~<60岁及≥60岁三组,先在每个研究中将各年龄组内的小组进行合并,再进行各研究间合并分析。总人群及分性别分析均排除了调查对象仅限制在高年龄组(≥40岁)的研究。患病率选用原则为优先使用标化患病率,无标化患病率采用粗患病率,有标准误则进行调整。
统计学分析采用Stata 13.0软件。
四、尚未解决的数据分析问题
(一)不同初筛方法对糖尿病患病率结果的影响
早期的2型糖尿病患病率调查,尤其是2005年以前的研究,多采用初筛的方法预先筛选糖尿病患者,常见的方法有尿糖阳性、馒头餐后2小时血糖、空腹静脉血糖≥5.5mmol/L、空腹指尖血糖≥6.7mmol/L等。
由于生活习惯、饮食结构的改变,现在已经不可能找到与历史研究状态相同的人群,利用现有数据模拟初筛方法对患病率的影响。因此,在没有合适的解决方案之前,本次分析暂未考虑初筛方案对患病率结果的影响。
(二)不同诊断标准对糖尿病患病率结果的影响
2型糖尿病的诊断标准在资料收集期内,共发生过2次较大的变化:一次是1999年WHO诊断标准出台,将空腹静脉血浆血糖诊断糖尿病的标准由7.8mmol/L降低至7.0mmol/L;另一次是2010年ADA将糖化血红蛋白(hemoglobin A1c,HbA1c)≥6.5%纳入诊断标准。
根据目前收集的研究结果,同一研究应用不同诊断标准,结果会差异较大。例如2010年和2013年的两次大样本全国性调查,同样应用WHO 1999年诊断标准和ADA 2010年标准,两种诊断标准患病率的差值分别为1.9%和0.5%,尽管研究人员从检测方法和抽样人群不同等方面进行了解释,但是依然无法得出中国人群在应用不同诊断标准进行判断时合理的差值范围。因此,在没有合适的解决方案之前,本次分析暂未考虑诊断标准对患病率结果的影响。并且,为了使各研究之间的结果可比性更强,多诊断标准的研究结果分析时优先采纳使用WHO 1999年诊断标准的结果。
(三)极端患病率数据处理
本文未对部分地区的极端患病率数据进行处理,但对特殊结果进行了标注。