来自中国博士生的奇迹:72小时写稿,32小时过审,被引近万次
当得知下个月就要告别亲手创建的新冠疫情仪表盘,董恩盛五味杂陈,他在朋友圈写道:感谢大家的关注与支持!愿全球疫情早日完全结束!
疫情该翻页了。就在2月,美国约翰·霍普金斯大学(JHU)通告称,该校于2020年1月开发的用于跟踪新冠疫情的仪表盘将于3月10日终止运作。
深黑底色点缀着或大或小的红圈,左右两侧是各国确诊病例、死亡和接种疫苗的数目,以及绿色、红色或白色曲线,这个醒目的仪表盘让全球在3年里实时看到了详尽的、可视化的疫情地图数据。2260亿点击,超过36亿次浏览,这半年前的数据足以说明其影响力。
JHU新冠疫情仪表盘(图源:官网截图)
因为这项工作,董恩盛的导师、JHU土木和系统工程系教授Lauren Gardner入选了《时代》杂志2020年全球最具影响力百人榜,她还获得了有“诺奖风向标”之称的2022年拉斯克奖。
导师殊荣屡获的背后,有着2个中国博士生董恩盛和杜鸿儒的极大付出。董恩盛也略带调侃地自称是导师“背后的男人”。
这两个“背后的男人”也得到了回馈,董恩盛以第一作者署名的文章已有4篇,杜鸿儒以第一作者署名的文章有1篇。尤其是其中一篇由他们与导师3人署名的文章,2020年2月发在《柳叶刀-传染病》上,引用次数超过9500次。而按照汤森路透在2014年的统计,有史以来排名第100位的论文引用次数是12000多次。
这篇文章正是介绍新冠疫情数据仪表盘创建的。这只是一篇读者来信(correspondence),且仅有一页多一点。更神的是,“72个小时写稿,32个小时过审”。如果这是研究论文的话,这个引用次数的价值会更大。
按照谷歌学术的统计,董恩盛、杜鸿儒二人的引用次数都已经超过1万。
这一切,却是历史的偶然。
2020年2月《柳叶刀-传染病》文章截图
董恩盛的Google Scholar数据
“一不小心做成了一件大事”
“一不小心做成了一件大事”,2020年上半年,美国达特茅斯学院地理系教授施迅跟董恩盛有一次对话,他给出了这句由衷的评价。
让我们把时钟拨回到2020年1月21日上午,董恩盛和导师Gardner如约来到图书馆喝咖啡交流课题。
彼时30岁的董恩盛作为一年级博士生,进入JHU仅10个月;而35岁的Gardner也是刚刚从澳大利亚新南威尔士大学悉尼分校跳槽过来,董恩盛、杜鸿儒是她唯二的博士生。
因为更早进入师门,董恩盛也就跟导师有更多交流,可谓Gardner在JHU的开山大弟子。值得一提的是,早在2019年5、6月份的时候,董恩盛与Gardner就针对美国麻疹暴发风险做了一份可视化地图,得到了《纽约时报》等美国主流媒体的关注。
他本科毕业于重庆的西南大学地理系,期间交换到中国台湾“中央大学”地球科学系,于2012年赴美,在爱达荷大学拿了地理与统计双硕士。期间他在地理信息系统公司Esri实习过,仪表盘技术就是在那里接触到的。在之后美国电力领域和电信领域工作的3年中,他用该技术做了一些项目。董恩盛看中了Gardner从事传染病数字建模的学术背景,这跟他地理信息系统、计算机和统计学的技术背景非常匹配,有助于他将来从事建模研究。
这次跟导师见面谈新学期计划,董恩盛是有所准备的。彼时新冠疫情主要在中国,泰国、韩国和日本出现了少量病例,美国也刚刚确诊了第一例。出于对中国疫情的关注和担忧,也出于对自己博士课题的早做准备,他已经把疫情数据收集好,做了一个小样。不料想当Gardner买了咖啡端过来的时候,她告诉董恩盛,“要不咱们做一个仪表盘疫情地图吧”。
一拍即合!影响人类应对新冠疫情的重要一环就此开启。
Gardner后来坦承,这个决定是一时冲动。他们最初的想法是通过数据收集,把一种传染病从发生到被消灭的全过程记录下来。
当天晚上,董恩盛熬夜奋战8、9个小时构建了一个仪表盘。最初,这个流程并不复杂:收集、翻译并整合全球来自各式各样渠道的数据,原始数据公布在Google Sheet上(后改为GitHub),之后使用地理信息技术和Esri的平台对疫情数据进行空间可视化渲染。
杜鸿儒于2月1日加入了进来,负责数据的自动抓取、更新,并编写了自动更新的代码。当时25岁的杜鸿儒本科毕业于天津大学化工学院,在威斯康星大学麦迪逊分校获得工业工程及运筹学专业硕士学位,他擅长数学模型和优化。
董、杜就此开始了联手奋战。到后来随着数据陡增,人手再度增加,有4、5个人一起写代码,等一周后自动地图上线已是凌晨3、4点。
董恩盛和杜鸿儒(图源:JHU官网)
他们得到了来自本校学生、图书馆、JHU应用物理实验室,以及Esri公司的帮助。很快团队扩大到了近40人。到当年4月,该仪表盘的日均点击量超过10亿次,最高达到了46亿次。
在回顾这段经历的时候,Gardner说了一句,“不要等待许可, 坐下来并采取行动”(Don't wait for permission. Take your seat and take action)。
作为旁观者的施迅,对他们这段颇具传奇性的开端很是感慨:要有这种开创性的勇气,不要觉得自己只是一个学生就做不成大事,而是应该大胆去想,大胆去做,去跟导师、同事请教,去获得支持,“在很多情况下,你会得到可能比你预想的要多的支持”。
流量取胜
纷至沓来的关注和荣誉远远超出了他们的预期。
董恩盛的朋友圈记录下了一些激动的时刻:
2020年:1月29日,他做的图被BBC引用;2月29日,他们的仪表盘成了美国副总统、意大利总理决策的重要参考;3月12日,2013年诺贝尔化学奖得主、斯坦福大学结构生物学系教授Michael Levitt来信对其工作点名鼓励,董恩盛“顿感信心满满、干劲儿十足”;3月20日,JHU校长来看望疫情数据团队,“结果我以为他是高级清洁工,囧”;4月7日,《科学》杂志点名报道;5月,被《华尔街日报》采访;6月,同一天有2篇《柳叶刀》系列文章被接受。
2021年:5月,仪表盘数据成为美国疾控中心的指定来源。7月,德国时任总理默克尔来到JHU接受荣誉博士学位时,赞扬了新冠疫情地图的工作。
2022年:3月,《自然》杂志以新闻特写报道了包括他们团队在内的新冠疫情数据工作;7月,《自然》杂志再次报道了各个疫情地图团队的技术特色。
他们的工作早已出圈。据说从制药公司测试疫苗到好莱坞的电影拍摄,都会参考他们的仪表盘来安排工作,以至于JHU被人们叫成了 “map school”(地图大学)。
随之而来的,导师有了更多的研究经费,董恩盛也不用再为自己的学费和生活费发愁了,他们的办公室也翻新了,可谓喜事连连。
他们是以流量取胜的,但他们并非只靠流量。
开展新冠疫情数据收集并可视化的机构还有多家,包括美国疾控中心、世卫组织、《纽约时报》等。而JHU的疫情仪表盘之所以拔得头筹,有众多因素:由于数据收集和可视化做得专业且最早,也因此获得了先发优势;其数据抓取和更新也更加及时、准确,一些国家地区用户会主动联系他们更新数据;JHU医学与公共卫生专业盛名的加持。
除了天时、地利、人和的种种因素,在董恩盛眼里,出于对祖国疫情的关注和担忧从而开始盘算这个项目,才是第一推动力。
日常工作场景,左三为Lauren Gardner,左二为董恩盛,右二为杜鸿儒(图片来源:JHU官网)
新的游戏规则制定者
他们受到的关注度以及得到的荣誉是当之无愧的。
让世界上每一个人都能实时追踪疫情是他们最大、最重要的创新。
拉斯克奖给出的获奖理由是,他们为实时传播权威公共卫生数据设定了新标准。换言之,他们制定了新的游戏规则。
并不是所有疫情地图制作者都始终秉持数据的公开、透明,以及非商业化。董恩盛还对施迅“抱怨”过:《纽约时报》用了JHU那么多无偿的数据,当董恩盛找《纽约时报》要数据时却遭拒。到了2020年3月,《纽约时报》才开始公布全部数据。
公开、透明以及非商业化,也是Gardner更为看重的。她在拉斯克奖的获奖感言中谈及,这项工作更重要的意义是实现了“数据民主化”(data democratization)和科学传播,这有助于公众的知情决策,并促进以证据为基础的公共卫生政策。
换个角度看,当JHU的仪表盘成为流量霸主的时候,它自然就成了标准。法国的态度就是典型。疫情初期,董恩盛找法国要数据,对方完全无视;然而到了后期,法国卫生部发现JHU数据与其要公布的数据有偏差,就主动联系沟通。
作为专业同行,施迅长期从事地理信息技术在健康领域应用,他深深感受到了这次全球大流行对传染病研究的颠覆:在上世纪的西班牙大流感时代,诊断技术和信息技术过于原始,遑论数据准确;而这次全球大流行也是一次史无前例的数据收集和整理的过程,这个过程本身就有巨大的科学价值。人们发现,需要一些非常革命性的手段,重新建立对传染病的认识以及建模手段,而这些的基础都是数据。
董恩盛更是对大数据的影响感同身受:只有量变,才会有质变,才能有进一步的分析,才会带来更多资金和人力资源的投入。他们的数据吸引的不仅仅只是公共卫生专家、计算机科学专家、地理信息专家,还有政治学者、经济学者,每个人都能挖掘到自己的金矿。
仪表盘只是起点
荣誉再多,终有告别时。该和仪表盘说再见了。
这个背景是复杂的。JHU新冠资源中心(CRC)数据负责人Beth Blauer接受采访时分析说,由于居家快速检测已经广泛使用,世界各地发布病例数据的实用性和准确性已经大大降低,那么仪表盘数据的准确性也就难以保障。另一方面,如美国联邦政府的数据收集能力比之前已经大大提高,尤其是其报告的住院数据成了如今最可靠和完整的决策依据。
还有一个原因是许多国家疫情趋于平稳,数据源的公布频率和人们的关注度没有以前那么高了。
Gardner用了“苦乐交织”来形容过去的3年。她说,经过3年日夜不休的维护,是时候改变已有的响应模式了。
谈起自己的导师,董恩盛和杜鸿儒都不吝称赞。
最让董恩盛钦佩不已的是Gardner对信息接受和对学生反馈的速度。她能很快理解他人想表达的意思,然后会给出她的意见。这在3年前两人那次喝咖啡时表现得尤为明显,当董恩盛刚提出自己深思熟虑了好几天的意图,Gardner马上就给出了做仪表盘的计划。
实际上,Gardner在仪表盘上的贡献是关键的,她会指出哪些数据是更重要的,从而需要在仪表盘上展示。同时她需要把各种资源整合到这个项目中。
杜鸿儒感受更深刻的则是Gardner与学生的平等相处。她从来不会催着做任何事情,而是留更多时间给学生自由思考。
董恩盛的工作交叉性更强,他也更愿意做一些有实际应用的事情。接下来,董恩盛需要把精力投入到博士课题中来。课题当然绕不开新冠数据,毕竟疫情仪表盘在一开始也是为了其博士课题而来,所以他会继续进行数据的挖掘以及做一些网络分析工作。
杜鸿儒的研究更偏理论,他已经在利用收集的数据建立深度学习模型,尤其是关注那些人类行为数据和社会调查数据。他希望把人类行为对外界的反馈加入到传统的流行病模型当中,他相信这种混合模型能对未来的疫情作出更准确的预测。
起点足够高,壮阔的科学图景正在他们面前徐徐展开,愿他们走得更远。
参考:
http://www.esri.com/about/newsroom/blog/how-researchers-built-johns-hopkins-dashboard/
http://www.nature.com/news/the-top-100-papers-1.16224
http://www.nature.com/nature-index/news-blog/behind-the-johns-hopkins-university-coronavirus-dashboard
http://laskerfoundation.org/winners/covid-19-dashboard/