发布日期 2020-06-14

大数据时代就得用数据说话——一项急性主动脉夹层预后研究的始末|疯狂统计学2.0

原标题:大数据时代就得用数据说话——一项急性主动脉夹层预后研究的始末 | 疯狂统计学2.0

去年盛夏, 26位科研大神作者以“局解”的方式回顾自身SCI论文发表经历,或介绍如何巧用公共数据库,或侧重某一种统计方法的应用。《疯狂统计学》一书由此横空出世,好评如潮。然而,高阶的统计学方法和数据库的利用需要因地制宜,广大科研初学者的迷思更多在于“科研思路从何而来”“如何推进一项SCI论文研究”。

为予广大读者指点迷津,制作能够“快乐做学术”的科研指导图书,AME出版社决定广纳各路SCI第一作者,分享从开题到结题的SCI发表经验,汇编为《疯狂统计学(第二版)》。下文为新书《疯狂统计学(第二版)》中关于“ 大数据时代就得用数据说话——一项急性主动脉夹层预后研究的始末”的精彩篇章,请各位读者尽情享阅。

大数据时代就得用数据说话——一项急性主动脉夹层预后研究的始末

杨贵芳,中南大学湘雅二医院

开题

不知不觉,来耶鲁大学学习快半年了。像往常一样,我走进实验室,穿白大褂,做实验,然后,突然手机叮当一响,“新邮件来啦”,翘首以盼中,终于看到了一个朝思暮想的词——“accepted”(文章被接收)。我心里的石头总算落地,终于可以掷地有声地对自己说,付出终有回报,时间从来不会辜负努力的人。

选题灵感来源

有人说,21世纪是数据的时代,无论各行各业,大数据已经充斥在我们所生活的各个角落。无论是云计算,还是AI人工智能,其背后都离不开大数据,医学自然也不能落后,必须跟紧这波时代的潮流。作为一名急诊科医生,跟患者及家属谈话占据了我们日常工作时间的大部分,但总会有患者和家属不理解的地方及无法接受的结果,从而引起吵吵闹闹甚至打打杀杀。机缘巧合之下,我从硕士研究生开始就跟着导师研究主动脉夹层,刚开始接触这个疾病时感觉很陌生,也想当然地认为这是一个罕见病,可自从下了临床,才发现这个病其实并不罕见,尤其在我们医院。主动脉夹层发病突然,病死率高,尤其主动脉A型夹层,且手术费用昂贵,如何准确明白的跟患者家属交代病情及讨论预后,成了一个摆在急诊科医生面前的必过关卡。很多患者及家属会问“我这个病预后怎么样?”“还有没有救?”“手术费用这么贵,手术成功的机会大不大?”等一些问题,如果我们能够拿出本院的数据出来说话,作为医生谈话将会更有底气;作为患者,心中也能有个“底”。于是,与导师商量后,我们随即一拍即合,便开始撸起袖子加油干了。

科研试错、数据收集过程

万事开头难,这话真是一点都没错。之前以为收集数据很简单,但自己去实施的时候才发现,不是少收了这个指标,就是漏了那个指标,一言难尽。师兄弟四人,通过查阅主动脉夹层预后的相关文献,汇总别人在文章中收集了哪些指标,然后制成一张表格。只要我们病例系统有收录的信息,我们都汇总进表格内,没有收录的信息,只能先暂缓。最后,我们确定了差不多50多个变量,总共1500多例患者,日夜兼程,加班加点,大概费时2个月才勉强把数据收集完成。现在回想起来,我还挺佩服我们师兄弟四人,每一天坐在教研室电脑面前,从早到晚,晚至凌晨一两点也是常有的事。

在这里想跟大家分享一个经验,数据收集阶段一定要先把需要收集信息的表格慎重地设计好,定稿后再不要数度返工,不然实操时会很痛苦。因为我们医院的电子病历系统不够“智能“,无法自动获取以前的数据,只能逐个患者查阅,然后统计数据。如果在录入完毕后发现有个指标没有录入,那么又得全部重新逐个患者查阅,非常浪费时间和精力,所以建议大家一定要先把表格设计好。当然,有些医院的电子病历系统比较高级,能够自动提取数据,可以忽略这里。

关于数据输入,大家可能用得比较多的是Epidata、Excel或某些公司提供的一些比较智能的软件,我个人觉得都可以,看自己喜好选一种就可以了。在数据收集过程中,某些指标的收集可能会有一定的歧义,因此这些指标在收集之前,大家需要讨论这个指标是否合宜,然后形成一个共识,不然到时收集的信息不一样,最后可能导致数据无法使用,那就得不偿失了。如果遇到有缺失数据的情况,建议大家就空在那里,而不需要把这个患者剔除,后面会提到处理缺失数据的方法,不然会引起样本量的删失,漏掉某些重要的指标或数据。

数据分析过程

在获得数据后,我们开始用R软件进行数据分析,选用R软件是因为SPSS不能得到我们想要的一些图或者数据结果。进行数据分析前,我们首先要做的就是进行数据清洗,也就是数据整理,因为我们可能收集了很多指标,而且有些数据有所缺失,甚至于某些数据可能存在常识性的错误,如录入年龄可能会有录错的情况,我们的数据中有过“年龄:190多岁”的,显然不符合实际情况,这都需要研究者筛选出来,然后重新前往病例系统核对。核对完数据后下一步就是缺失数据的处理,目前针对缺失数据的处理有多种方法,可自行网上搜索。目前比较公认的方法就是多重插补,R软件有专门的多重插补的“包”,我们的缺失数据就是采用的多重插补的处理方法,可让数据基本清洗完毕。

接下来就是文章中图和表的制作了。表一我们将人群随机分为训练组和验证组,然后比较两组之间的一般资料等,表二、表三的单因素和多因素分析是在训练组中进行,通过单因素筛选到P小于0.05的指标,然后进入多因素分析,最后得出哪些指标与主动脉夹层的预后相关。得到这几个指标之后,我们就开始制作诺莫图来预测患者的预后,同时我们需要对模型进行验证。

表一 训练组和验证组的一般情况比较

表二 训练组中A型主动脉夹层院内死亡风险因素的单因素分析

表三 训练组中A型主动脉夹层院内死亡风险因素的多因素分析

目前,国际上对于预测模型的评价主要是使用区分度和校准度两个指标来评价。因此,我们计算了该模型的一致性指数(C-index),用于评价该模型的区分度,同时使用校准曲线来评价该模型的校准度,最终形成了这篇文章的图和表,这都离不开R软件强大的分析能力。

R软件是一个开源软件,免费,所有人均可下载,虽然需要自己写代码是一件比较麻烦的事情,但网上基本都有教程,而且我们需要的可能就那么几种计算方法。如果大家对诺莫图制作感兴趣,大家可以去尝试。我们下一步的计划是制成一个网页版的诺莫图,如条件允许,最后制作一个App。成品完成后,我们只需要把筛选出来的那几个指标的具体值输进去就能马上得出这个患者存活或者死亡的概率是多大,甚至做手术或者不做手术的不同概率是多大,跟患者沟通时就能非常的方便和直观。

成文过程与投稿历程

其实,初拟的论文不是这个选题。我们的研究人群是所有的主动脉夹层患者,第一次投稿时,审稿人就提出了一个问题,就是A型和B型夹层的预后差别其实挺大的,建议我们分开做。和导师商量后,深以为然,因此我们选择了主动脉A型夹层,也就是现在这篇被接收的文章。

对于我们非英语母语的人来说,写英文论文是比较痛苦的,可能有些人建议大家先写成中文,然后再翻译成英文。但我个人不建议大家这样做,因为英文论文的很多表达和中文表达差别挺大的,直接翻译容易变味,所以还是建议大家一开始就直接用英文书写,哪怕开始的过程很痛苦。

在写之前,我们需要先看大量跟选题内容相关的文献,看文献的过程中,如果看到可能需要的句子做好标记,然后大家就可以仿照这个句子来表达自己想要的意思。医学论文与“八股文”相似,有固定的套路和格式,我们在写之前先把图和表做好了,然后把论文的提纲、每段的核心内容拟好,最后再成文。至于书写顺序,可能有些人喜欢先写方法部分,然后再写其他,而有些人可能希望从前言到结论,按部就班地写,其实都可以,看个人习惯和爱好。

文章成稿后,我们不建议大家直接投稿。如果对自己的文章不是很有信心的话建议大家在投稿之前先查重,避免自己的文章重复率太高,这是其一。其二,如果大家英语不是特别好,建议大家在写完后找个英语“很牛“的人帮忙修改一下,关系好的话就请吃个饭,关系不是很铁的话就给点劳务费。我们的文章投之前还是找了别人润色了一下,使文章的语言更加流畅,更加符合外国人的习惯,这样能够增加文章的可读性及接受概率。这篇文章总共投了两次,第一次投到Annals of Translational Medicine,编辑提了很多意见,然后建议修改后转投到Journal of Thoracic Disease杂志,我们认真按照第一次的编辑提的意见修改,然后转投到了这个杂志,没过多久就小修接受了。所以投稿经历不算太复杂。

启发

本研究回顾分析了2014年到2018年中南大学湘雅二医院住院的793例急性A型主动脉夹层患者,收集患者的一般资料及实验室检查数据等建立数据库,通过统计分析发现患者入院时的尿酸、D二聚体、C反应蛋白及治疗方式的选择与患者预后相关。我们利用这些患者的客观数据,首次建立和验证了一个简单、准确和广泛适用的列线图模型,提供对急性A型主动脉夹层患者院内死亡风险的早期估计。通过这次成功的投稿经验,我们发现,其实SCI文章的选题就在我们平常的工作之中。我们把每天接触的患者限定为某个特定病种的数据资料收集起来,然后找个好的切入点,一篇SCI文章可能就在向你招手了。 (中南大学湘雅二医院柴湘平团队:预测急性A型主动脉夹层患者院内死亡的Nomogram研究 | AME作者面对面)

本文作者简介

杨贵芳

中南大学湘雅二医院急诊医学博士

发表学术论文15篇,其中SCI论文6篇,参编专著2部,参与国家级课题一项,省课题多项,获湖南省医学科技一等奖1项,曾获得中南大学优秀毕业生、湖南省优秀毕业生等称号。

  • 疯狂统计学2.0

《疯狂统计学(第一版)》电子书

资讯

a

b.03.2020.06.13.01

点击

聚合阅读