l计Q是一道能写出大文章的数学题。每一个分合整析背后,不仅仅是数字、符L(fng)_֯q算Q更是对l济、民生、医疗等行业现状的深L察;每一个数据模型的建立也ƈ不简单,既有相关研究人员十数q学术知识的沉淀(wn)Q也饱含他们惌以学报国的深L感。而这道o(h)人着qL(fng)数学题,东北师范大学数学与统计学院教授李子林已经解了q?span lang="EN-US">20q_(d)直到今天Q关于高l数据的l计分析Ҏ(gu)和统计遗传学的疑隄仍然是他职业生的主旋律Q“我希望可以用自w的研究成果助力中国人群大队列研IӞ推进国家在精准预防和_ևȝ方向的发展,为实施健康中国战略作q贡献Q在癑ֹ未有之大变局中ؓ(f)中华民族的伟大复兴A(ch)献自己微薄的力量Q以数字{架Q述国民基因之貌”,q是心愿Q更是行动?/span>

李子?span lang="EN-US">(2007U本?span lang="EN-US">2011U博Q数学系)
梁园虽好非吾?/span>
春华U实Q岁物丰成?span lang="EN-US">2023q_(d)在李子林军_d国Ӟ他正在印W安U_学医学院担Q助理教授Q在q之前,他一度在世界学府之一的哈?jng)大学深耕了6q_(d)师从国际知名l计学家、美国国家科学院和美国国家医学院两院院士林希虚w士;在国际遗传学知名期刊《自然·遗传学》(Nature GeneticsQ和《自然h法》(Nature MethodsQ上陆箋发表学术论文……这L(fng)职业发展轨迹任谁来看都是熠熠生辉的,他却在一切都C正轨的时L焉择更换赛道Q@着w体中流淌的中华血脉、抱着逐梦圆梦的如初心重归祖国热土,在众多一U城市高校抛出的榄枝中选择了回报桑梓——加入东北师范大学。“梁园虽好,实非吾乡”,对于自己诚挚、热烈也带些冲动的选择Q他的回应始l只有这样云淡风d掷地有声的一句话?/span>
而教?x)李子林q句话的Q正是我国驰名世界的尖学府之一——清华大学。作Zn誉国际的高等院校之一Q清华大学在U研和教育上的成本无须多言Q但如果一定要用文字来描述它,则可以用无数U方法,可以是寥寥数字,也可以是长篇巨幅。不q无论如何试囑֎描述Q结果都一P(x)对Q何h来说Q它都是个神U的宫殿Q里面藏着C清的、挖不完的宝藏,或可见或不可见,光跃金、流动不止。而李子林从小在心中U下q这样一颗种子?/span>
时的李子林在数学学U上是有天赋且_努力的,凭借着对奥数的兴趣一路“闯入”清华大学赫赫有名的“数理基U学班”,但他始终保持谦逊,“小时候我w边有一固定的伙伴一起学?fn)奥敎ͼ他们后来也都各自考入了清华北大、复旦、上交通大学等学校Qƈ在各自领域都发展得很好,跟他们比h我真的谈不上‘优U’二字”。虽然择校后无法常聚Q但无论是对于李子林q是他的伙伴Q抑或是所有数学从业者而言Q他们之间始l都存在着一U无a的默契,x学从来都是助人“开眼看世界”的一个视角,是打造良好逻辑思维的锻造工P而不是成l单上o(h)人瞩目的数字Q更不是挂在嘴边逢h炫耀的“学?fn)功l”。也正是q样“兼容ƈ蓄”的认知和胸怀Q才让李子林在接触统计世界的风景之后Q坚定地选择q一方向Qؓ(f)毕生事业打下地基?/span>
大学三年U对于李子林而言像是一道分水岭Q既l束了入校前两年数理共培的课E模式,让基U学班的同学得以自主选择专业Q也分隔了李子林所有的應|不定和彷徨不冻I因ؓ(f)林希虚w士将遗传l计学带入了他的视野。“我q记得那应该是一ơ暑期活动,学校Ҏ(gu)邀请了许多外名师来做分nQ林希虹院士是其中之一Q她深入出的讲解和成熟E_的性格特征都给我留下了非常深刻的印象”,q成为李子林此后qʎ国跟随林希虚w士深造的伏笔。不q那Ӟ他还只顾沉迷在相对基的统计学理论知识点中Q因为清华大学数学系在当时还没有讄专门的统计培L向。“我选择和其他两名同学一h索,到处旁听我们认ؓ(f)适合的课E,互相鼓励、有商有量,那是一D非常纯_的学习(fn)时光。”直C天,他们仍是李子林非帔R要且密切的朋友,虽然彼此分别于本U毕业的2011q_(d)但幸q的是此间友谊既长且坚,适时的联l让李子林得知他们均在各自的人生坐标上精耕细作、闪闪发亮?/span>
如果_(d)清华博士二年U发表第一第一作者的学术文章标志着李子林在学术理论上的初步成熟Q那么自2013qv在美国磨砺的十年是李子林迈向实践之路的象征。其导师林希虚w士以统计学Ҏ(gu)和理论应用于d和公共健康问题的相关研究d学界Q不仅在2005q受聘ؓ(f)哈佛(jng)大学生物l计pȝw正教授Q还作ؓ(f)首位华hx获奖者于2006q_(d)统计学界的“诺贝尔奖”——考普斯ȝ奖收入囊中,同时?span lang="EN-US">2018q当选美国医学院院士Q?span lang="EN-US">2023q当选美国科学院院士。“能够跟随这L(fng)导师q行学习(fn)Q我非常荣幸。”李子林诚恳地说道?/span>
跟随林院士,李子林深M解到生物l计学的研究领域涉及关系d、公共健康和生物d问题的很多方面,其研I方法也包括假设建立Q实验设计、取栗数据收集和整理Q数据分析,模型建立Q结论推断等诸多环节Q是一门研I对象复杂、研I方法多L(fng)学科。更重要的是Q这一研究与hcd康事业关pd切。李子林深感自己重Q在肩Q因此反复实跉|?span lang="EN-US">7q_(d)直到2019q才发表了自qW二第一作者学术论文。“其间如果说完全没有焦虑与担忧肯定是假的Q但也正是这D卧薪尝胆般的日子让我明了坚持的意义和重量。”十q磨剑终成锋Q在不断试错、挑战全新数据结构的奋行之下Q?span lang="EN-US">STAARpdҎ(gu)和工具顺势而生?/span>
w耕不辍付春华
“hcd因组q30亿个基Ҏ(gu)成,q是人类遗传学研I的核心Q也是我所有工作的h。”李子林介绍道?/span>
q年来,随着序成本的大q下降,大规模的全基因组序研究和生物样本库研究正在快速向前发展,例如国国家心肺血液研I所20万h的精准化d研究计划Q美国国家hcd因组研究所?span lang="EN-US">35万h的基因组序计划Q以?span lang="EN-US">50万h的英国生物样本库。这些研I已l对上百万个全基因组q行了测序,q发Cq十亿个变异位点Q其中罕见变异占比率过?span lang="EN-US">99%Q也是_(d)|见变异正在成ؓ(f)复杂性状和疾病遗传力~失的主要来源。而学界ؓ(f)了“侦破”罕见变异所带来的其他隐性改变,其相关研I与序数据骤增xv量。若要轻N对如此浩如烟L(fng)数字架构Q一个关键挑战就是缺乏全面、自动化、可扩展和高效的分析软g和工P另一个挑战则是超q?span lang="EN-US">98%的遗传变异位于非~码基因l。也是_(d)管在评估编码罕见变异对复杂性状的媄响方面取得了一定的q展Q但是非~码|见变异分析仍存在较大的I白。因此,亟需针对基因l大数据中非~码|见变异的统计分析方法和软gQ以发现人类疄和表型的遗传构架Q找到导致疾病的遗传变异位点Q开发新的药物靶标?/span>
针对q一NQ在林希虚w士的指导及亲自带队参与下Q李子林协同背后团队开发了大规模全基因l测序数据非~码|见变异兌分析工具—?span lang="EN-US">STAAR pipeline。这是一ƾ一体化兌分析程Q可自动化进行基因型数据与功能注释集成、关联分析及l果汇d可视化?/span>
“首先,STAAR pipeline应用FAVOR数据库和FAVOR annotator工具对全基因l数据进行功能注释。其ơ,STAAR pipeline自动定义|见变体集进行分析,包括Z功能性分cȝ以基因ؓ(f)中心的分析(gene-centric analysisQ和Z变异位置的非以基因ؓ(f)中心的分析(non-gene-centric analysisQ。对于以基因Z心的分析Q?span lang="EN-US">STAAR pipeline可提供基?span lang="EN-US">8U非~码功能cd集的|见变异分析Q对于非以基因ؓ(f)中心的分析,STAAR pipeline则提供了滑动H口分析和动态窗口分析。相比于l典的固定长度滑动窗口分析,动态窗口分析通过采用数据自适应长度提升了检验功效。再ơ,STAAR pipeline通过STAARҎ(gu)引入q整合了多组学功能注释数据,q一步提高了验功效。最后,STAAR pipeline利用q义U性合模型控制h结构和家系l构的杂媄响,适用于包括连l型和离散型表型在内多种cd的表型数据,同时提供针对常见和低频变异的单体分析Qƈ针对~码基因l提供基?span lang="EN-US">5U功能类别集的罕见变异分析。”每每提及自己匠心独q的得意作品Q李子林L滔滔不绝Q因其虽是统计学世界中走出的一步Q但却是他个向更pU学疆域的一大步。正如林希虹院士所一贯要求他们的那样Q既要在l计学上严格Q又要在遗传应用上好用?/span>

2022q_(d)李子林(左一Q参加美国遗传学q会(x)Q?span lang="EN-US">ASHGQ作分组报告
而李子林在美国时的数据分析进一步证明了q一炏V据(zhn),研究团队已将STAAR pipeline应用于精准医学跨l学Q?span lang="EN-US">TOPMedQ全基因l测序数据中Q高效地分析?span lang="EN-US">4万h?span lang="EN-US">9U表型。值得注意的是Q?span lang="EN-US">STAAR pipeline在以基因Z心的非编码分析中发现?span lang="EN-US">49个显著性关联,其中35个(71.4%Q属?span lang="EN-US">6个新的非~码功能cd集。动态窗口分析在非编码基因组中检到43个非重叠的显著关联,比滑动窗口分析多?span lang="EN-US">19.4%。这些结果都在向世h表明Q?span lang="EN-US">STAAR pipeline是一个强大、资源高效且E_的非~码|见变异兌分析工具Q应用于大规模全基因l数据和生物库样本库数据?/span>
回国之前Q李子林q陆l构Z首个全面的非~码基因l分析框ӞH破了全基因l测序数据罕见变异分析的q算瓉Q发展了全基因组序数据|见变异荟萃分析Ҏ(gu)MetaSTAARQ突破了序数据|见变异汇ȝ计数据的存储瓉Q实C隐私保护下多个大规模全基因组序研究的整合分析。虽然取得了一定的成WQ但他的目光却随着人生计划的逐步推进、回归祖国而投向了更远方,即面向世界科技前沿、面向国安大需求、面向h民生命健P为广大民众的健康祉作出贡献Q在w耕不辍的“春日”中Q将热爱的种子浇灌成花朵?/span>
抱朴之心守秋?/span>
gQ虽然李子林加入东北师范大学仅有短短半年旉Q但他已瞄准“未来赛道”,U极与各大高校和医院展开合作Q旨在推q应?span lang="EN-US">STAARpdҎ(gu)和工具分析中国h的基因l大数据Q构建疾病和复杂表型的遗传图谱?/span>
“这是一个双向增长的pq程。医学研Ih员仅需提供基因型和表型数据Q?span lang="EN-US">STAAR工具便能自动完成全基因组分析Q得到汇d和可视化的结果。而通过不断更新的数据,我们也能快好C解国人基因结构,Z后的q代更新打下基础。”李子林?/span>
有怎样的眼界,p看到怎样的远方;有多大的胸襟Q就能包容多大的世界。走在推q\上,李子林从不吝啬将STAARpd的用方法及配套技术广泛播撒。“授Zg如授Z渔,对用者来_(d)令h安心的‘售后’工作也是重要一环,我一个h或者说我的团队力量l归有限Q因此不如沿途培养,当熟知的够多、口徏立得_E_Q也意味着产品本n的成功,我的工作才有价倹{”他说?/span>
旉短Q\E尚q,今天的李子林无法豪言通过l计学这根“金扁担”挑起国民健康发展。但天长日久Q其心仍坚,慢性病易感基因的识别工作仍在开展,“精准健康”,x据?zhn)者的遗传特征制定个性化诊疗Ҏ(gu)的探索仍在酝酿,众多蓝v药物的新靶标也正在完善……基因组大数据研I在未来疄预防、诊断和ȝ斚w发挥的关键作用毋庸置疑,而李子林怿Q只要抱定一颗质朴之心,l能收获U实?/span>
___________________
李子林,东北师范大学数学与统计学院教授,入选国家高层ơh才青q计划。历dW安U_学医学院生物l计与健h据科学系助理教授Q哈?jng)大学生物统计系博士后、副研究员和研究员。本U与博士毕业于清华大学数学科学系Q师从美国国家科学院与医学院两院院士林希虚w士?span lang="EN-US">2023q当选ؓ(f)国际l计学会(x)Q?span lang="EN-US">International Statistical InstituteQ推选会(x)员(Elected MemberQ。主要研I方向ؓ(f)高维数据中的l计Ҏ(gu)理论和统计遗传学。相关研I成果以W一作者或通讯作者在Journal of AmericanStatistical Association?span lang="EN-US"> Nature Methods?span lang="EN-US">Nature Genetics{国际学术期刊发表?/span>