Jing Zhang, Yanyan Liu, Hengjian Cui:Model-free feature screening via distance correlation for ultrahigh dimensional survival data
【学术期刊】《Statistical Papers》, 2021, 62(6), 2711-2738.
【作者简介】张婧,beat365副教授,硕士生导师。主要研究方向是高维数据分析、生存分析、变量选择等。主持国家自然科学基金青年项目、湖北省自然科学基金面上项目等,在权威期刊发表多篇SCI论文。
【主要观点】在信息多元化的二十一世纪,随着科学技术的发展和计算机存储能力的增强,超高维数据大量涌入生物医学、遗传学、公共卫生学等众多科学研究领域。超高维数据的出现就像一把双刃剑,一方面为我们提供了更多的信息,另一方面也给统计分析带来了巨大的挑战。如何从超高维数据中获取有用信息从而进行建模和统计推断对研究者至关重要。本文基于距离相关系数提出了一种可以处理超高维右删失生存数据的变量筛选方法,它可以保证在保留所有重要变量的前提下快速有效地降低数据的维数。和已有的方法相比,这个方法有一些突出的优势。首先,它不依赖于任何模型假设,因此可以适用于各种各样的生存模型。其次,它没有涉及到生存函数的Kaplan–Meier估计,因此在处理高删失数据的时候更加稳健。此外,在证明理论性质时它们所需要的正则化条件比较弱;而且此方法不涉及任何非参数的逼近,所以计算简单快速。