第二节 系统评价/Meta分析的撰写
一、选题
(一)选题准备
选题准备工作对于系统评价/Meta分析的制作具有重要的意义,如果系统评价/Meta分析题目选好后,不具备可以完成的条件,再好的选题也只能是一种愿望,因此,选题准备是决定选题能否成功的关键。选题准备主要包括以下内容:
1.组建系统评价/Meta分析制作团队 其团队成员至少包括系统评价/Meta方法学人员、检索专家(可以来自图书馆)、统计人员和临床医生等。
2.保证制作系统评价/Meta分析所必需的数据库、经费和时间。
3.熟悉文献管理软件(如EndNote、Reference Manager等)和数据统计分析软件(如RevMan、STATA等)。
对于那些暂不具备的条件,考虑是否可以通过其他途径实现,如部分数据库不可及,可以联系订购该数据库的单位进行检索,部分全文无法获取,可以通过文献传递服务实现。
(二)选题原则
选题来源于临床实践、又服务于临床实践,因此选题应考虑其是否具有一定的临床意义。提出问题后,应全面了解该课题背景知识,掌握国内外研究现状,考虑适合做哪种类型的研究。目前,最佳选题产生在临床需要与临床干预措施内在发展逻辑的交叉点上。选题是否恰当、清晰、明确,关系到系统评价/Meta分析是否具有重要的临床意义,是否具有可行性,并影响着整个系统评价/Meta分析研究方案的设计和制订。
选择系统评价/Meta分析的题目之前,必须首先了解选题原则,其次是熟悉选题方法。一般来说,系统评价/Meta分析选题原则主要有:①需要性原则:系统评价/Meta分析选题不但要紧密结合临床,而且要考虑其研究成果是否能直接为临床疾病的干预提供决策依据;②价值性原则:主要指系统评价/Meta分析关注的临床问题具有科学研究价值和临床实用价值;③科学性原则:选题必须有科学依据,确定某个选题前应该了解拟选题国内外的研究热点和发展趋势,且选题必须实事求是、符合客观规律、合乎逻辑推理,要做到立论依据充分,研究目标明确,研究内容具体,研究方法及技术路线可行;④创新性原则:选题必须选择别人没有解决或没有完全解决的临床问题,这是选题得以成立的基本条件和价值所在,为了避免选题与别人重复,在决定对该选题进行系统评价/Meta分析前,应该检索Cochrane Library中的Cochrane系统评价库(Cochrane database of systematic reviews,CDSR)和疗效评价文摘库(database of abstracts of reviews of effects,DARE)和国际系统评价注册平台(international prospective register of systematic review,PROSPERO),了解目前是否有发表和正在进行的Meta分析,如果有,必须考虑你的Meta分析与发表或正在进行的Meta分析有无不同点和创新之处。
(三)选题注意事项
首先,选题难易要适中,既要有“知难而进”的勇气和信心,又要做到“力所能及”。如果难度过大,超过了自己所能承担的范围,一旦盲目动笔,有可能陷入中途写不下去的被动境地,到头来迫使自己另起炉灶、重新选题,这样不仅造成了时间、精力的浪费,而且也容易使自己失去制作Meta分析的自信心。反之,选题过于简单,不但不能反映出自己的水平,而且也达不到提高自己的目的。其次,选题大小要适度,应考虑所具有的资源和条件、临床意义和研究质量等问题。选题的范围太宽可能对患者的处理没有帮助。但选题的范围太窄却因所获资料较少而容易受机遇影响,增加出现假阳性和假阴性结果的机会,使结果不可靠,影响研究结果的实用性。
(四)题目构成
干预性试验的Cochrane系统评价的题目有4种格式:
1.某治疗方案治疗某疾病([intervention]FOR[health problem])
如antibiotics for acute bronchitis,这种格式只规定治疗组药物,而不规定对照措施的药物,则表示该系统评价包括了所有与治疗药物进行比较的试验。
2.A治疗方案与B治疗方案治疗某疾病比([intervention A]VERSUS[intervention B]FOR[health problem])
如Immediate versus delayed treatment for cervical intraepithelial neoplasia,表示该系统评价只纳入所规定的两种治疗方案的试验。
3.某治疗方案治疗某特定人群或特定地点的疾病([intervention]FOR[health problem]in[participant group/location])
表示该系统评价只纳入某治疗方案与各种方案比较对特定人群或特定点的某病的试验。
4.以上三种未包括的任何形式(use if title does not fit any of the formats above)
表示研究者可规定任何形式的题目。
对于非Cochrane系统评价的题目,可依据投稿期刊加以变化,但应注明该题目是基于RCT的系统评价/Meta分析。
如果撰写Cochrane系统评价,为了避免重复,首先,题目确定好后填表注册告知Cochrane协作网工作小组,确定该题目是否已被注册;其次,专家评审后,确定是否有必要进行该题目的系统评价;最后,如果该题目无人注册且有研究的价值,工作小组将通知你填写有关表格,确定你的注册资格。
二、背景与目的
研究背景主要是阐述为什么要开展Meta分析,也就是提出制作Meta分析的立题依据。内容应该包括:①拟研究疾病或健康问题的疾病负担(含危害)和重要性;②目前治疗该疾病的干预措施现状和存在的问题,如果可能对这些有效干预措施的治疗效果进行综述;③当前关于这些干预措施已有类似的或相关的系统评价/Meta分析的现状及存在的问题,提出本Meta分析制作的必要性。
研究目的主要是回答制作Meta分析要解答研究假设提出的科学问题,明确阐明Meta分析的主要目的,包括干预措施涉及的研究疾病或健康问题、患者类型以及场所等,如果可能,同时阐述一些具体目标,如不同剂量和疗程等。通常用一句话描述研究目的,这句话应包括干预措施、疾病和(或)对象、研究目的。
三、纳入与排除标准
为了保证研究对象的同质性,与任何其他种类的研究一样,需要按照一定的标准选择研究对象,满足这些标准者才能纳入。纳入标准和排除标准根据所提出的主题来制定,选择标准通过纳入标准和排除标准来表达。二者的关系为:用纳入标准确定研究的主体,用排除标准排除研究主体中具有影响结果的因素的个体,进一步对研究主体进行准确定义。
纳入标准本身具有排除性,即“是此即非彼”。当规定一种疾病为研究目标疾病时,则其他疾病均被排除掉;如果患这种疾病的患者同时患有其他疾病或具有某些特征可能对研究结果造成影响,就应该按照针对这些因素及其他因素制定的排除标准将这部分患者排除;如果二者的关系处理错误,可能会因不恰当地纳入了不该纳入的患者而影响研究的准确性,或造成不必要的浪费。
如一个调查前列腺肥大患病率的研究,纳入标准是男性,自然将所有女性排除在外;还应考虑男性中低于一定年龄者纳入这项研究无意义,故排除标准应为低于20岁的男性;对这项研究的观察对象用一句话来规定:“纳入20岁以上的男性”,就将纳入标准和排除标准都包括在内;这是正确的纳入和排除关系。但如果“纳入标准是男性,排除女性”,这是错误的纳入和排除标准关系,如果以此标准开展调查前列腺疾病,则可能因为将不应纳入的20岁以下的男性纳入而造成浪费。
纳入和排除标准包括以下内容:
1.研究类型(type of study)
一般只纳入随机对照试验(randomized controlled trial,RCT)。这是因为:①医学研究中的情况极为复杂,结果很容易受多种偏倚影响。虽然各种设计类型的研究都有控制偏倚的措施,但只有RCT的控制措施更加有效。基于RCT的Meta分析才可能获得更为可靠的结果和结论,非随机对照研究往往夸大疗效,为了避免可能造成的误导,需要花大量功夫去甄别其质量和偏倚对真实性所造成的影响。所以,宁可只纳入有限的RCT,某些情况下可纳入随机交叉试验;而不纳入可能造成误导的其他类型的研究。②RCT是比较不同治疗方案之间的相对效应量,从而比较不同治疗方案的优劣,而非随机试验获得的是某治疗方案在特定人群中的效应量,不能比较不同治疗方案孰优孰劣。而Meta分析的主要目的就是要比较不同干预方案的效应量及其他指标之间的差异,因此,只有RCT能够达到此目的。有些Meta分析纳入的RCT太少,为了获得一些可能有参考价值的信息,如安全性,或者由于伦理或其他原因,不可能实施RCT的情况下,也纳入非随机对照试验。
如果研究类型的主体为RCT,可排除RCT中存在难以控制的偏倚的试验(个体),如评价针刺治疗偏头痛的RCT,为了避免测量偏倚,排除未采用盲法测量结果的RCT等。
2.研究对象(types of participants)
研究主体是患有某种疾病的特定人群。如果某些因素会给研究造成影响,如①存在可能影响研究结果的混杂因素的患者,如同时服用了其他药物;②除了目标疾病,还有合并症的患者;③危重病例,可能因病情恶化导致死亡不能完成治疗等,则排除患有这种疾病且具有这些影响因素的患者(个体)。因此,研究对象的选择与临床问题密切相关,如要研究肝癌切除术后门静脉癌栓对预后的影响,这时研究对象应包括伴或不伴显微镜下癌栓和肉眼癌栓的患者;如研究目标是根治性切除肝癌患者,伴有肉眼癌栓的患者就不符合这个条件,应挑选镜下癌栓的患者。
注意:纳入研究对象标准与纳入研究的研究对象纳入标准的关系。
3.干预措施(types of interventions)
包括规定干预方案,也可对各干预方案的各种比较组合都进行详细的规定;如果在采用规定的治疗药物和对照药物之外,给患者采用其他药物或治疗措施,则可因混杂因素影响研究结果,这样的个体需排除。
4.结果测量指标(outcome measures)
终点指标、特异性指标作为主要指标,通常1~2项,如病死率、心血管事件发生率等。还应根据研究目的选择,如生存质量对于晚期癌症患者在评估治疗效果时也许是一个最重要指标,虽然生存质量中的很多项目为主观指标或中间指标,仍应将其设为主要指标。
一般采用主观指标和中间指标作为次要指标。
毒副作用或不良事件发生率:Meta分析既要关注评价干预措施的有效性,也要分析评价其不良事件发生率,权衡利弊关系,以利于决策者对干预措施做出抉择。不良事件发生率可列在主要测量指标,也可单独列出。
四、资料检索
资料检索的目的是为Meta分析撰写获取此前所有的相关研究,这样才能够更好地评估不同干预措施间的疗效差异。由此可见,全面、系统、无偏倚检索对Meta分析来说非常重要。
资料检索过程中有关证据的检索技术、途径和步骤详见第六章。但在选择检索资源有所不同:
1.综合性文献数据库资源
如PubMed/MEDLINE、EMBASE、Cochrane Library、Web of Science、BIOSIS Previews和SinoMed等。
2.与研究课题相关的专题数据库
如Campbell协作网(http://www.campbellcollaboration.org)、PsycINFO(http://www.apa.org/psycinfo)、AMED(Allied and Complementary Medicine)http://www.bl.uk/collections/health/amed.html)、BNI(British Nursing Index)(http://www.bniplus.co.uk)、CINAHL(Cumulative Index to Nursing and Allied Health literature)(http://www.cinahl.com)等。
3.在研研究检索
如世界卫生组织国际临床试验注册平台(http://www.who.int/trialsearch)和Clinical Trials(http://www.clinicaltrials.gov)等。
4.会议论文与学位论文
中国知网(http://www.cnki.net)、万方数据服务平台(http://www.wanfangdata.com.cn)、国家科技图书文献中心(http://www.nstl.gov.cn)、Papers First与 Proceedings First(http://www.oclc.org/firstsearch)和 ProQuest Digital Dissertations(PQDD)(http://www.lib.umi.com/dissertations)等。
5.手工检索
主要包括:①通常不被电子数据库收录(数据库收录时间以外)期刊,手检期刊的种类和数量视电子数据库纳入期刊数量而定,如中文期刊的手检,由于中国学术期刊网络出版总库,中国生物医学文献数据库,维普资讯网及万方数据知识服务平台的使用,几乎囊括了所有种类的中文期刊,需要手检的期刊种类已经很少了。对于选中进行手检的期刊,需要注明检索的起始时间;②纳入研究、综述、系统评价/Meta分析所附参考文献;③未被电子化会议论文汇编(说明:专业会议论文集的检索应列出会议名称,召开时间和地点)。
6.其他
①已发表Meta分析/系统评价;②相关网站:国际或国家一级的医学研究机构和对国际或全国性学会/协会网站进行检索,如WHO,International Society of Nephrology和Transplant Society of Australia and New Zealand等;相关的政府/部门网站,如中华人民共和国国家卫生健康委员会,美国疾病预防控制中心和英国卫生部等;主要的在线书目,如UBC Library catalog和BC Ministry of Health Library等;与研究主题相关的研究者、相关领域的专家或医药企业联系以获取有关研究。
五、文献筛选
文献筛选是指根据预先制定的纳入排除标准,从检索获得的所有文献中收集能够回答临床问题的研究。
文献筛选过程需要至少两名评价员独立进行,最好是本专业和非本专业评价员同时评价,这样可大大减少相关文献的误排率,若有意见分歧可讨论解决,必要时需与第三位评价员讨论协商确定。如果可能,应对评价员培训并进行预试验,即对样本文献(约10~20篇,其中包括肯定合格的、肯定不合格的和不确定的)预筛选,以保证文献筛选过程的标准化和筛选结果的准确性。文献筛选步骤如下:
1.Meta分析需要检索多个数据库来尽可能全面的检出相关研究,但多个数据库之间存在重复收录期刊,用文献管理软件将初检文献归类、整理,排除重复文献。
2.阅读每篇研究的题目和摘要,排除明显不符合纳入标准的不相关研究。
3.对于任何一篇潜在的相关研究都要求调阅全文分析。由于题目和摘要提供的有关的信息量有限,并不能以此决定该研究是否最终被纳入,这样可能会引入文献的选择偏倚,对可能符合纳入排除标准的文献,应下载全文并逐一阅读和分析,以确定是否合格。
4.分析、判定重复发表文献 重复发表是指将同一研究的结果先后在多个杂志发表的现象。重复发表会引起内容偏倚,主要是由于将同一研究重复进行了合并分析。另外,还需注意在专业学术会议上做过口头报告、以摘要或会议壁报形式报道过的研究,会后以全文形式发表的情况;多中心研究以不同分中心为单位发表的现象较为普遍,所以对于重复发表文献的鉴别工作尤为关键。
判断重复发表文献可通过:①作者姓名(大多数重复发表研究的著者姓名相同);②研究实施地点或参与机构(如医院名称);③干预措施细节(如干预措施的用法、剂量和给药次数等);④研究对象数量和基线情况;⑤研究时间和持续时间等。
5.根据纳入排除标准复核初步纳入研究,详细记录排除文献原因,以备制作文献筛选流程图使用。
6.对于信息报告不全者,尽量联系原作者补充相关资料。
7.最终确定纳入研究,进入数据提取阶段。文献筛选过程应以流程图的形式呈现,列出各个数据库检索结果、根据题目和摘要排除的文献量、获取全文文献量、阅读全文后排除的文献量及原因和最终纳入研究数量等,详细要求可以参见PRISMA声明(Preferred Reporting tems for Systematic Reviews and Meta-Analyses)流程图(图3-1)。

六、偏倚风险评估
由于临床试验是在人体上做的研究,因此,临床试验的偏倚几乎是不可避免的。临床试验设计就是采用各种方法将各种偏倚的风险尽量减少到最小。而系统评价的偏倚风险评估就是将已经实施的临床试验可能产生的偏倚尽量找出来,评估其对结果可能产生的影响。
1.偏倚来源
按照偏倚的来源将其分为:选择性偏倚、实施偏倚、不完整资料偏倚、测量性偏倚、选择性报告偏倚及其他偏倚。选择偏倚产生于将观察对象分配到各组时;实施偏倚产生于提供干预的过程;减员偏倚产生于随访过程;测量性偏倚产生于结果测量分析时。
偏倚产生的来源见图3-2。这些偏倚都属于系统误差,可通过一定措施予以防止、消除或将其发生的可能性和影响减到最小。

2.评估偏倚风险的标准
Cochrane协作网推荐采用有相关方法学专家、编辑和系统评价员共同制定的“Cochrane偏倚风险评估工具”对纳入研究进行评价,主要包括随机序列的产生、分配方案隐藏、对受试者和干预措施实施者施盲、对结果评价者施盲、结果数据的完整性、选择性报告研究结果和其他来源偏倚,具体评价标准见表3-2。

3.偏倚风险评估步骤
美国医疗保健研究与质量局(The Agency for Healthcare Research and Quality,AHRQ)推荐采用5步法评价纳入研究偏倚风险,分别为:①制定计划书;②预试验和培训;③偏倚风险评估;④解释;⑤报告。具体评价步骤参考相关书籍。
七、资料提取
资料提取是指按照纳入排除标准,将纳入研究的结果和所有有价值的信息正确地收集并记录下来。资料提取是Meta分析结果分析中的一个关键步骤,直接影响结果的准确性。为了保证资料提取的准确性,要求两位评价人员各自独立地提取资料,然后互相复核,准确无误和意见统一后才输入统计软件。
资料提取表条目的设置不要过于繁杂,过于繁杂的提取表令人乏味厌烦,浪费资料提取人的时间。若过于简单,就有可能忽略有用的信息,在录入资料进行分析时不得不重新提取原始资料,同样浪费时间。不同的系统评价的资料提取表虽然各有不同,但基本的项目是一致的。
(一)资料提取主要内容
资料提取主要包括以下5部分信息:
1.发表信息和资料提取信息
题目,第一作者,发表文献期刊名称,发表文献国家,发表文献日期,发表文献类型,提取数据日期等。
2.研究对象
例数,种族,性别,年龄,对象的来源(门诊、住院、社区),纳入标准,排除标准,其他分层因素基线状况及失访/退出/脱落人数。
3.干预措施
干预措施具体内容和实施方法(剂量或剂量范围、给药途径、疗程、交叉试验的洗脱期),有无混杂因素以及依从性情况。
4.测量指标
①测量指标包括主要结果指标和次要结果指标及其测量方法和判效时间点;②结果呈现形式:分类变量(发生事件数/某组的总人数);连续性变量:(某组总人数/均数±标准差)。
5.纳入基本信息
研究设计方案和质量(采用偏倚风险评估工具评价纳入研究质量)、研究地点。
(二)数据转换
在提取资料时,理想的情况是直接可以获取数据进行统计分析。但纳入原始研究的结果往往不能直接进行统计分析,此时则需要进行数据转换。
1.OR/RR/Peto RR值及可信区间与LogOR/RR/Peto RR值及可信区间和标准误转换
通过RevMan软件提供的计算器实现,运行RevMan软件后,展开“Data and analyses”,依次完成“Add comparsion”和“Add outcome”,在具体测量指标界面,点击进入数据转换界面(图3-3),输入OR/RR/Peto RR值及可信区间,可自动计算出LogOR/RR/Peto RR值及可信区间和标准误,在此界面也可以实现P值和Z值的相互转换。

2.二分类变量与连续变量结合可以通过以下公式实现

3.效应量可信区间与标准误和标准差的转换可以通过以下公式实现(样本量足够大)

4.连续变量前后变化数据处理可以通过以下公式实现

注意:通过敏感性分析验证转换获得的数据对合并结果稳定性的影响。
八、资料分析
系统评价并非必须进行统计学合并(Meta分析),是否做Meta分析需视纳入研究是否有足够相似性。如因纳入研究同质性差而仅进行描述性分析的系统评价称为定性系统评价。如果系统评价纳入研究具有足够相似性,则进行合并分析,此类系统评价称为定量系统评价。系统评价常采用RevMan软件对多个纳入研究的资料进行合并分析(Meta分析)得到定量结果。
常见错误:为了得到森林图,强行将同质性差的研究合并,得出不恰当的结论,对临床实践产生误导的不良后果。
(一)常用效应量及选择
效应量(effect size,ES)是指临床上有意义或实际价值的数值或观察指标改变量,是单个研究结果的综合指标,需根据研究的性质、资料的类型确定。
1.二分类资料的效应量
对于二分类资料,可以选择比值比(odds ratio,OR)、相对危险度(relative risk,RR)和率差(risk difference,RD)等作为效应量。
以常见四格表资料(表3-3)为例,分别计算不同形式的效应量及其标准误,假设纳入的研究为k个(i=1,2,……,k)。

相对危险度(relative risk,RR)也叫率比(rate ratio),是反映暴露与发病(或死亡)关联强度的最常用指标。它是暴露组的发病率与非暴露组(或低暴露)的发病率之比,说明前者是后者的多少倍。RR是反映暴露(干预)与事件关联强度最有用的指标。RR值越大,表明的效应越大,暴露与结局关联的强度越大。表3-4列出了一个常用的标准。


若结局是死亡率、病死率、患病率等指标时,RR≠1表示暴露因素(或试验因素)对疾病有影响,当RR>1时,表示暴露因素(或试验因素)是疾病的危险因素,RR越大,暴露因素(或试验因素)对疾病的不利影响就越大。当RR<1时,表示暴露因素(或试验因素)是疾病的有益因素,且RR越小,暴露因素(或试验因素)对疾病的有益作用就越大。当RR=1时,表示暴露因素(或试验因素)与疾病无关。
若结局是有效率、治愈率等指标时,RR≠1时,表示试验因素对疾病有影响。当RR>1时,表示试验因素是疾病的有益因素,且RR越大,试验因素对疾病的有益影响就越大。当RR<1时,表示试验因素是疾病的危险因素,且RR越小,试验因素对疾病的危险作用就越大。当RR=1时,表示试验因素与疾病无关。
比值比(odds ratio,OR)是测量疾病与暴露联系强度的一个重要指标。OR的意义与RR相似,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。但是,在不同患病率和不同发病率的情况下,OR与RR是有差别的。结局事件发生率较低时,OR是RR的极好近似值。无论以暴露比值和非暴露比值计算,或是以有病比值和无病比值计算,比值比的结果都是一样。

率差(rate difference,RD)又称特异危险度、归因危险度。是暴露组发病率与对照组发病率相差的绝对值,在临床试验中其大小可以反映试验效应的大小,其可信区间可用来推断两个率有无差别。两率差为0时,两组的某事件发生率没有差别,而率差的可信区间不包含0(上下限均大于0或上下限均小于0),则两个率有差别;反之,两率差的可信区间包含0,则无统计学意义。通常只有队列研究和随机对照试验结果可以计算RD。

1) 当结局事件发生率极低时(有学者认为是事件发生率≤10%时),RR或OR具有良好的一致性,两者均可采用。其中对于某些发生率较低的结局事件,如并发症或不良反应,常推荐采用OR进行计算。
2)随着结局事件发生率的升高,OR的夸大效应愈加明显,在一定程度时可能伴有结局性质的不一致。对于纳入研究中出现试验组和对照组结局事件发生率均为100%时,不应选择OR指标。
3) 当事件发生率一定时,随着OR值的增大,OR与RR的差异变大,从而引起结论夸大效应。
4)当纳入的研究质量较低可能导致较大的结论偏倚时,可尝试通过效应指标的选择尽量减少结论的高估或假阳性,以避免偏倚的累积,在这种情况下RR指标可能较为合适,但仍需更深入的研究。
5) 当纳入研究纳入的研究对象的基线风险具有较好的一致性时,可选择RD。当所关注结局事件在试验组或对照组人群中全部发生或为0时,此时也可考虑采用RD为合并统计量。采用RD的优点是结果容易被解释,便于理解,但临床可适用性往往较低。
2.连续型资料的效应量
根据比较组的样本含量、均数、标准差来计算效应量,一般效应量为试验组与对照组的均数差(mean difference,MD)/权重均数差(weighted mean difference,WMD)和标准化均数差(standardized mean difference,SMD)表示,计算前先将资料整理成表3-5格式,假设纳入的研究为k个(i=1,2,……,k)。

均数差即两组均数之差,计算两个组之间均数的差值是临床研究中的常用统计方法,用于估计治疗改变结果的平均量。Meta分析时,使用同样或同类计量单位的研究,如均使用厘米作为计量单位,或厘米与米,虽然度量单位不同,但属于同类计量单位,可转化成相同的度量单位,就可直接进行合并分析。

Meta分析会遇到相同指标而计量单位不同的情况,可采用标准化均数差进行分析,由于标准化均数差可消除量纲的影响,常见计算方法有:Cohens’d,Hedges’ adjusted g,Glass’s D,下面简要介绍Cohens’d法,另2种方法感兴趣的读者可参阅相关文献。
首先计算出两组的合并标准差:

然后计算标准化均数差,过程如下:

不管实际采用什么计量单位,只要均数差的标准误为相同数量级,各研究的SMD也是相同数量级,就可以计算合并效应量(SMD合并)。
注意:SMD并非校正度量的差异,而是使各种不同度量趋同的方法,即SMD没有任何单位。SMD反映的是计量单位的差异而不是真正的患者之间的变异,这可能在一些情况下会产生问题,如当Meta分析包括的患者范围较宽时,标准误可能较大,而我们期望了解在不同研究里的患者间的变异是否真正有差异。由于Meta分析的度量单位与原始研究不一样,总疗效可能难于用Meta分析的度量单位对原始研究的效应量进行解释。但有些条件下,可以将疗效转换回特定研究所使用的单位。
3.等级资料效应量
等级资料指将观察对象按其自然类别分类,如将疾病按严重程度分为“轻度”“中度”和“重度”。等级资料的效应量使用均衡机会比(proportional odds ratio),在分类的类别很多时,这种计算非常困难,且没有必要计算。在实际分析中,较长的分类等级资料被处理成连续性变量,较短的分类等级资料被处理成二分类变量进行分析。转换成二分类变量时,需设定切割点,切割点选择不当可能增加偏倚,特别是如果该切割点使两组干预措施的差异最大化时,偏倚的可能性更大。当等级资料被转化为二分类变量资料时,使用RR、OR或RD来表达事件或疗效效应量的大小;转化为连续性变量资料,则疗效效应量被表达为(W)MD或SMD。
4.计次和率效应量
有些类型的事件可在一个观察对象上多次发生,如心肌梗死、骨折、某种副作用或住院,统计这些事件的次数可能比简单地统计每一个患者是否发生事件更好,有些资料必须这样统计事件次数,这种资料被称为计次资料,计次资料可分为稀有事件计次资料和多发事件计次资料。
稀有事件的分析常常使用率,如某临床研究的一个组发生了18次心肌梗死,全组的随访期为314人/年,则该组心肌梗死发生率为0.057人/年或5.7/100人/年。Meta分析中的汇总分析使用RR,用于比较两组中事件的率。在少数情况下,也可使用率差。
对于更多事件的计次,如缺失的或填充的牙齿,常用与连续性资料相同的方法来处理,其治疗效应量采用MD/WMD或SMD表示。
5.时间相关事件结果效应量
很多临床研究结果的判断不能仅靠统计结局事件的多少即发生率的大小,还需根据出现这种结局的时间长短进行比较。时间相关事件资料由两部分组成:①没有事件发生的时间的长度,②反映一个时间段的终点或仅在观察终点是否有事件发生的指标。时间相关事件可以不是死亡事件,如疾病的复发等。
只要时间相关事件资料在固定时间点观察获得,就可采用二分类资料的分析方法进行分析。如所有观察对象在12个月内都被随访到,各组所发生事件的比例可填入四格表,治疗效应量就可使用RR、OR或RD来表达。
对时间相关事件资料的结果进行Meta分析可采用:①如果能够获得事件实际数和理论数差值(O-E)和精确方差(V),就对单个患者资料或研究中报告的统计数据进行重新分析,使用Peto法合并研究结果;②如果能够从Cox比例风险回归模型获得log风险比和标准误,则可用普通倒方差法合并研究结果。
(二)异质性的来源与处理
将在不同国家或地区实施的同类研究收集在一起进行Meta分析,不可避免地会存在差异,如不同人种对同一药物敏感性的差异、同一干预措施给药途径的差异、研究设计和实施的差异等不同程度地会对结果产生不同的影响。
1.异质性来源
一是研究内变异,即使两个研究的总体效应完全相同,不同的研究由于样本含量不同,样本内的各观察单位可能存在差异,可能得到不同的结果,但与实际效应相差不会很大。当样本含量较大时,抽样误差相对较小。
二是研究间变异,即使干预措施和其他情况都一样,由于研究对象来自不同的总体以及偏倚的控制等诸多方面存在差异,其实际效应也不相同。
2.异质性分类
在实施Meta分析前,首先应分析和识别纳入研究的临床和方法学异质性,只有临床和方法学特征具有足够相似性方可进行合并。Cochrane系统评价指导手册将异质性分为:临床异质性、方法学异质性和统计学异质性。
临床异质性主要指研究对象的差异和治疗方面的差异,包括:①生理、人类学方面的差异:年龄、性别、种族、信仰、生活习惯等;②病理生理学方面的差异:病程长短、疾病严重程度、疾病类型等;③治疗方面的差异:随访时间长短、不同干预措施、不同疗程、干预措施的不同剂量等;注意:不能认为只要有生理和人类学方面的差异就认定会产生临床异质性,因为生理和人类学方面的差异不一定在所有干预研究中都会产生不同的结果,如在器官移植后使用不同免疫抑制剂的排斥反应发生率比较,通常很少考虑种族、性别和年龄等差异。
主要指研究设计和实施等质量因素及结果测量的计量和度量单位不同造成的异质性,包括:①不同的设计方案:随机分组是否正确、分配隐藏是否充分、盲法是否实施等;②不同的结果测量方法:不同的测评方法、不同测量指标和不同度量单位等。
指用统计学方法来探测和分析是否存在临床和方法学异质性。统计学分析异质性的基本思路是:所有统计学异质性均来自于临床异质性和方法学异质性。换句话说,如果存在临床和方法学异质性,就必然会造成结果的统计学异质性。Meta分析中用统计学方法探测和分析异质性的原理是比较各研究结果及其精确性的差异,而精确性可通过可信区间体现,不同研究之间可信区间重合的部分越多,则存在同质性的可能性越大;相反,则存在异质性的可能性越大。
3.异质性分析
采用χ2检验和P值来定性分析各研究结果间的统计学异质性。χ2值在Cochrane系统评价中又称Q值(cochrane Q),Q值相对于自由度[df,df=n(纳入研究数)-1]越大,P值越小,则存在异质性的可能性就越大;反之,Q值相对于自由度越小,P值越大,则存在异质性的可能性越小。
使用χ2和P值描述异质性时,只能表述有无异质性,不能说异质性“大”或“小”。P值在0.05~0.10之间时,为差异有或无统计学意义的边缘值,当P<0.05时,差异肯定有统计学意义;当P>0.10时则差异肯定无统计学意义。因此,分析异质性时,组内的异质性阈值设定为P≥0.10,即P≥0.10时,表示研究间没有统计学异质性;组间合并分析时,异质性阈值可设定为P≤0.05,即P≤0.05时,表示组间存在统计学异质性。
I2是对各研究结果间的异质性进行定量分析的参数,其值分布于0%~100%,0%表示无异质性,I2越大表示异质性增加越多。当I2<25%时,表示异质性低;25%<I2<50%时,表示有中等程度的异质性;I2>75%则表示异质性大。一般而言,当I2>50%时,表示有实质性的异质性存在。
4.异质性处理方法
针对异质性的处理,可参考图3-4提供的流程进行处理。但注意只有纳入研究间异质性最小,合并效应才具有更高的可信度。

(1) 亚组分析:如研究结果间存在异质性时,需对异质性产生的原因进行分析。按异质性来源不同进行分层处理,如可能由方法学质量导致,则按质量高低进行分层分析;如可能由设计方案不同导致,则按设计方案进行分层分析。
注意:①亚组分析每次只能对一个变量进行亚组分析,并且对每个亚组都要进行效应量的合并。若要对两个以上的变量进行分析,则应采用Meta回归;②亚组分析应该在临床同质性的基础上亚组的数量越少越好。
(2) Meta回归:各研究的疗效间存在异质性时,可用Meta回归对疗效与研究特性的关系进行分析。Meta回归是亚组分析的一种扩展,对连续效应量、分类、特征因素进行分析,主要对多因素的效应量进行联合分析。
在Meta回归里,结果变量是效应量估计,如WMD/MD、RD、log OR或log RR,解释变量为可影响治疗效应量大小的研究特征因素,被称为“潜在效应量改变因子”或协变量。Meta回归所得到的回归系数描述了结果变量(治疗效果)如何随解释变量的单位增加而改变(潜在效应量改变因子)。回归系数的统计学显著性通过对治疗效应量和解释变量之间有无线性关系进行检验来确定。如果治疗效应量是一种率的测量,则在回归模型中需要使用经对数转化的疗效效应量,回归系数的指数由解释变量的增加来估计治疗效应量的相对改变。
注意:如果纳入的研究数量少于10个时,一般不做Meta回归。
(3) 敏感性分析:指通过改变某些可能影响合并结果的重要因素,如采取不同的纳入标准(研究质量、随访情况等)或统计方法(固定效应模型或随机效应模型)等,观察不同研究的异质性和合并结果是否发生变化,从而判断结果的稳定性和强度。若采用不同方法分析后,结果未发生大的变化,说明敏感性低,结果较为稳定可信,若分析后得到差别较大甚至相反结论,说明敏感性高,结果的稳定性低,在解释结果和下结论时需非常慎重,通常采用敏感性分析找出潜在的影响因素。敏感性分析的方法可采用:①改变研究类型、研究对象、干预措施或测量指标的纳入标准;②纳入或排除那些在某些方面不能明确肯定是否符合纳入标准的研究;③有些研究可能有一些不确定的结果,将其具有合理性的结果资料另行分析,如报告的结果中互相矛盾而不能从原作者处获得解释的资料、由于定义或测量差异造成结果差异,则选择其合理部分进行分析;④对于缺失资料,输入可能数值后重新进行分析;⑤使用不同的统计方法对资料进行重新分析,如用随机效应模型替换固定效应模型,或者相反。
注意:当纳入了低质量的研究时,尤其是样本含量大、事件数量多、可信区间窄的研究,无论其质量高低,都会有较大的权重,从而在很大程度上影响Meta分析的结果。通常的做法是:首先计算包括了所有纳入研究在内的Meta分析结果,然后,计算排除低质量研究后的Meta分析结果,如果两次结果一致,则结果可靠。如果两次结果不一致,则在解释时应该十分慎重,一般应主要根据高质量研究的结果来解释Meta分析的结果。
(4) 选用随机效应模型合并效应量,见本节合并效应量模型选择。
(5) 放弃做Meta分析:若异质性过于明显,特别是具有明显的临床异质性、方法学异质性而无法通过上述几种方法解决时,可考虑放弃做Meta分析,只对结果进行一般的统计描述(图3-4)。
(三)统计模型选择
合并效应量实际上是多个研究效应量的加权平均值,一般可分为两步进行估计,首先逐一计算每个研究的效应量及其95%可信区间;然后根据资料类型与异质性检验结果,选择合适的统计分析模型,估计合并效应量,必要时可作假设检验。
当资料分析满足同质性时,可选用固定效应模型;当资料不满足同质性时,不能用临床异质性和方法学异质性来解释时,则选用随机效应模型估计合并效应量。
1.固定效应模型
指在Meta分析中假设研究间所有观察到的变异是由偶然机会引起的一种合并效应量的计算模型,即按各研究的实际权重进行合并,这些研究假定为测量相同的总体效应。
2.随机效应模型
是Meta分析中统计研究内抽样误差(方差)和研究间变异以估计结果的不确定性(可信区间)的模型。当包括的研究有除偶然机会外的异质性时,随机效应模型将给出比固定效应模型更宽的可信区间。
随机效应模型估计合并效应量,实际上是计算多个原始研究效应量的加权平均值。以研究内方差与研究间方差之和的倒数作为权重,调整的结果是样本量较大的研究给予较小的权重,而样本量较小的研究则给予较大的权重。
在随机效应模型下,合并疗效为一近似值,其大小符合如下分布:

其中,τ2由以下公式给出:

其中,wi为log OR,log RR,RD,(W)MD和SMD的倒方差权重
每个研究的权重为:

合并效应量为:

和

当Q值小于或等于自由度(df=k-1)时,等于0,则权重与倒方差法相等:

即与固定效应模型计算的权重相等。
由于Q值等于或小于自由度即没有统计学异质性,合并没有统计学异质性的资料时,采用随机效应模型与固定效应模型获得的合并效应量相等。
3.选用统计模型时应注意的问题
原则上,因为所有Meta分析所纳入的研究都存在多少不等的异质性,都应采用随机效应模型进行分析。但由于统计学异质性分析是基于数据的分析,只要结果数据的可信区间重合度足够大,则不会出现统计学异质性。因此,在临床和方法学同质的情况下,只要具有统计学同质性的资料就可使用固定效应模型进行合并,反之,凡具有统计学异质性的资料则应采用随机效应模型进行Meta分析。
一般情况下,临床和方法学异质性能够在结果数据上表现出相应的差异,但由于医学研究的复杂性,许多时候具有临床异质性的资料却有相同的结果数据表现。相反的情况是各研究间没有临床异质性,而出现统计学异质性。
另外,方法学异质性与临床异质性一样,也可能出现有方法学异质性而没有统计学异质性,或相反,有方法学同质性而出现统计学异质性的情况。
随机效应模型是用以处理具有统计学异质性资料的一种统计模型,而不能消除研究间的变异。
(四)发表偏倚分析
发表偏倚也称为阳性结果偏倚,是指由于各种原因,负面结果(试验药物疗效比对照药物差)、或阴性结果(试验药物与对照药物没有差异)的研究通常较难在杂志上发表,而阳性结果(试验药物优于对照药物)的研究往往容易发表。如果Meta分析只纳入阳性结果的文献而未纳入负面结果或阴性结果的文献,其Meta分析的结果很可能会受到这些阳性结果研究的影响;这种由于带倾向性地发表研究结果对Meta分析所造成的偏倚称为发表偏倚。漏斗图可用于评估发表偏倚。
基本原理:研究效应量的统计学强度由样本总量和事件发生数量所决定,如样本量为100 000例,而事件发生数为10例的研究治疗效应量的统计学强度不如样本含量为1000例而事件发生数为100例的研究;以每个研究的效应量为横坐标(X轴),以表征研究精确性的指标即效应量的标准误(SE)为纵坐标(Y轴);Y轴的顶端SE为0,即越往上SE越小,研究的精确性越高;相反,越往下SE越大,研究的精确性越低。因此,代表大样本量和事件发生率高的研究其SE较小,而其点较集中地分布在坐标系的上部;而代表小样本量、事件发生率低的研究其SE较大,则其点就较分散地分布在坐标系的下部,状似倒置的漏斗,故称为“漏斗图”。
将疗效的相对效应量如OR、RR均取对数,这样,就可使各研究的效应量成为相等量级,如OR=0.5与OR=2.0,取对数之后量级相等(-0.301和0.301),因此,坐标上二者为等距。漏斗图Y轴上使用SE或效应量的方差,而不是样本量,见图3-5。

以各纳入研究的合并效应量为中轴在漏斗图上与X轴相交做一条垂线,分布在垂线左侧的点代表效应量小于合并效应量的研究;分布在垂线右侧的点代表效应量大于合并效应量的研究;两侧点的数量基本一致表示没有发表偏倚,相反则有发表偏倚;导致漏斗图两侧点的数量不对称的可能原因有:①选择性偏倚:发表偏倚、研究地点偏倚、语言偏倚、引用偏倚、重复发表偏倚;②样本量小的研究的方法学质量低下、不正确地分析;③真正的异质性研究大小不同且各自效应量不同,如由于干预的强度不同或不同研究的差异,其潜在危险性不同;④人为因素,如造假;⑤机遇因素。
由此可见,从漏斗图中不但可估计发表偏倚,还可估计纳入研究的质量、大小以及事件发生率。
注意:①用漏斗图分析发表偏倚应采用主要测量指标;②漏斗图对发表偏倚的判断是基于大于或小于合并效应量的研究数量,在纳入研究很少时,其结果很容易受未纳入研究数量的影响,所以,应至少纳入9个研究时才分析发表偏倚。
常用漏斗图的不对称检验方法主要有秩相关检验法和回归分析法。秩相关检验法是由Begg等提出,首先,通过减去权重平均值并除以SE将效应量标准化,然后通过校正秩相关分析检验效应量的大小是否与其SE存在相关性。Egger等提出的线性回归法是效应量与其对应SE的线性加权回归分析,如果存在不对称性,小样本研究显示的效应将系统的偏离大样本研究,回归线将不通过起点。其截距代表不对称的程度,它偏离0越大,说明不对称的程度就越明显。Harbord提出改良的线性回归法针对二分类结果的对照试验,基于计分检验的统计量z及其方差对传统的Egger线性回归法的修正,模拟试验显示在研究间异质性较小或无异质性时有较好的统计效能,如果存在异质性时则应该探索异质性来源,不建议将此法应用于组间样本量大小非常不平衡的队列研究,而Egger法则对此种情况较合适。Peters等提出的检验方法是基于Macaskill等提出的检验方法的修正、是效应量与样本量倒数并以平均事件发生率方差作为权重的线性回归分析,当合并效应量为lnOR时可作为Egger法的替代策略。针对回归分析法,对连续型资料,若以MD/WMD为效应量,可选用Egger法,若以SMD为效应量,目前没有严格的指南推荐;对二分类资料,若以OR为效应量,可选用Egger法,一般情况下选用Harbord法和Peters法,若以RR或RD为效应量,目前没有严格的指南推荐。
(五)常用统计软件
目前,可用于 Meta 分析的软件有 Stata、WinBUGS、R、OpenBUGS、RevMan、MIX、Comprehensive Meta-Analysis、Metaanalyst等,关于软件操作参考相关书籍。
九、结果
系统评价结果部分包括文献检索和筛选、纳入研究基本特征、纳入研究偏倚风险评估结果、纳入研究结果及Meta分析结果和其他(亚组分析、敏感性分析和发表偏倚)等。
1.检索结果
这部分呈现:①根据预先制定的检索策略和计划检索数据库所获得的检索结果以及通过其他途径检索获得的文献数量;②利用文献管理软件去重后获得的文献数量;③采用文献筛选方法,依据纳入排除标准对去重后文献进行筛选,初步纳入符合标准的研究,并记录排除研究的原因;④在阅读全文基础上,符合纳入标准的研究中有多少个研究被排除及其原因,最终有多少个研究被纳入定性和定量分析。
可采用如下文字和流程图(图3-1)描述文献检索结果:按照预先制定的检索策略和资料收集方法,共查到相关文献×篇,利用EndNote软件去除重复文献×篇,通过阅读题名和摘要后排除研究对象和干预措施与本研究纳入标准不符的文献×篇,初筛后符合标准的×篇文献阅读全文,再经过阅读全文按纳入标准及数据完整性进行筛选,共纳入×个研究,共×例患者/标本。
2.纳入研究基本特征
推荐用纳入研究基本特征表呈现这部分内容,主要为资料提取表中研究对象、干预措施和测量指标部分,但还需考虑还有那些特征是重要的、证据使用者和患者所关注,如糖尿病患者,更重要的是糖尿病患者的糖代谢特征和糖尿病家族史等。
3.纳入研究偏倚风险评估
建议通过图和(或)表格呈现采用偏倚风险评估工具评价纳入研究偏倚风险评估的具体结果。
4.Meta分析结果
按照主要测量指标、次要测量指标的顺序列出。呈现形式可以为森林图、表格、森林图结合表格和文字。对于Meta分析结果,不仅要呈现统计学结果、统计学异质性,还应该呈现其他分析(如敏感性分析、亚组分析和Meta回归等)。
结果列述应讲究技巧,如果列述的方法得当,则读者容易阅读,容易抓住Meta分析的要点。列述结果时,需从统计学意义和临床意义两方面进行解释,明确说明相比较的两种干预措施何者更优或是否相当。
十、讨论和结论
讨论和结论必须基于研究的结果,细致分析在系统评价/Meta分析过程中遇到问题的可能原因和解决方案,以及对临床实践和科研的指导意义。在撰写讨论和结论时,应尽可能站在国际的视角,而不是局限于某一个特定的国家和地区。系统评价/Meta分析作者应该明白:不同的证据使用者或患者面对同样的证据可能做出完全不同的决策,系统评价/Meta分析的主要目的是客观提供此前所有的证据信息,而不是劝导人们。讨论和结论应该帮助证据使用者充分理解证据对于决策的价值和意义,应避免在假设的干预措施和价值的基础上向证据使用者推荐。
(一)讨论
结构式讨论有助于证据使用者或患者系统地考虑如何应用系统评价/Meta分析的结果做出临床决策,主要包括以下内容:
1.总结主要结果
首先,针对提出的问题进行回答,其次,简单归纳整个系统评价/Meta分析所有重要的测量指标,给证据使用者一个关于该系统评价/Meta分析结果的轮廓。同时应该总结纳入研究的异质性大小及影响、偏倚风险和完整性,系统评价/Meta分析是否可以解决所有目的及其不确定性。如果可能,还应利用大量的文献或数据支持研究假设。
解释统计分析结果时,应同时考虑被评价干预措施的利与弊,合并效应量及其95%可信区间,点估计主要说明合并效应量的强度和方向,而可信区间主要反映合并效应量的变动范围以及精确性,将二者结合起来进行讨论,有助于解释结果的临床价值。
注意:总结主要结果时,不要与结果重复。
2.优势与局限性
这部分主要考虑本系统评价/Meta分析有何优势,这种优势可以来自临床问题本身和系统评价/Meta分析制作过程的严谨,也可来自与其他研究和系统评价/Meta分析的比较等。
系统评价/Meta分析的局限性包括纳入研究的局限性和系统评价/Meta分析本身的局限性。①纳入研究的局限性是指单个研究存在的局限性,可从纳入研究的设计、实施等方法学质量方面进行归纳总结;②系统评价/Meta分析本身的局限性是指系统评价/Meta分析研究过程中存在的问题,如资料收集是否全面、数据提取和分析、纳入研究的多少、在研究过程中哪些问题没有解决等。
注意:纳入研究的局限性不要与“结果”部分偏倚风险评估重复。
3.实用性
在使用系统评价/Meta分析证据前,一定要评价其是否适用于自身的环境条件。为此,首先必须决定该系统评价/Meta分析所提供的关于干预措施获益或有害信息的真实性。这样,就需要决定各纳入研究中观察对象和研究地点是否与自己所在单位的患者和环境条件有足够的相似性;在评估证据的实用性时,对干预措施特点或纳入研究中附加干预措施对结果影响的考虑也很重要。
在评估系统评价/Meta分析结果的实用性时,应注意不要将自己的环境条件假设成与纳入研究的环境条件相同。应分析系统评价/Meta分析证据适合哪种环境条件、不适合哪种环境条件,预测不同环境下疗效将会发生什么样的变化来帮助决策。通常,证据的适用环境难以严格地符合系统评价/Meta分析纳入研究对象的纳入和排除标准,有时可通过找出限制结果实用性的因素来帮助决策,如生物学和文化上的差异、依从性的差异、基线事件发生率的差异。
因此,本部分应该说明系统评价/Meta分析证据的适用人群,并考虑证据在特定环境下不适用的原因(如生物学差异、文化差异、依从性差异等),并阐明如何使干预措施在患者身上获得利与弊、负担与成本的平衡。帮助证据使用者做出关于实用性的决策。
(二)结论
结论的主要目的是提供与决策相关信息和最新研究信息,而不是提供与决策相关意见和建议,要求从两方面进行总结,一是对临床实践的提示,二是对未来研究的提示。
1.对临床实践的提示
作者并不需要对临床实践的意义给出推荐意见,推荐意见是由临床实践指南制订者做出。系统评价作者需要做的是描述证据的质量、获益与损害之间的平衡、患者价值取向和意愿、实用性等因素。另外,一些影响推荐决策的因素应特别强调,包括干预措施成本费用及其承担者以及资源的可利用性等,尤其是经济学评价,包括患者的承担能力和选择等。
2.对未来研究的提示
主要指出对未来研究的需求,尤其是对解决相关临床问题(如当前证据情况、患者情况、干预措施情况和测量指标)最需要的研究做出描述。另外,还应考虑疾病负担、时间(包括访视的时间和干预时间)以及研究类型等各方面因素以保证解答所提出的临床问题。
在结论撰写的准备阶段,作者需要根据研究的不同层面来进行文献分类,如依据不同的研究类型、测量指标、研究人群及研究目标等。应该注意关于对其他研究借鉴意义的论述与对未来研究应该如何做描述的不同。这部分力求简明扼要,应避免缺乏实质信息的套话,如“未来的研究应该更好的……”或“需要更多的研究支持”等这类毫无参考价值的文字则应当避免。