爱科技网

数据分析和可视化软件中加入统计保护措施

现代数据可视化软件使用户可以很容易地探索大型数据集,以寻找有趣的相关性和新发现。但是这种易用性——只需点击几下鼠标就可以对数据集提出一个又一个问题的能力——带来了一个严重的缺陷:它增加了错误发现的可能性。

统计学家称之为“多重假设误差”的问题。问题本质上是这样的:人们对数据集提出的问题越多,他们就越有可能无意中发现一些看起来像是真正的发现,但实际上只是数据集中的一个随机波动。

布朗大学的一组研究人员正在开发软件来帮助解决这个问题。本周在芝加哥举行的SIGMOD2017会议上,他们提出了一种名为QUDE的新系统,该系统为交互式数据探索系统增加了实时统计保护,以帮助减少错误发现。

“越来越多的人在使用Tableau和Spark等数据探索软件,但这些用户大多不是统计或机器学习方面的专家,”布朗大学计算机科学助理教授、该研究的合著者蒂姆·克拉斯卡(Tim Kraska)说。“你可能会犯很多统计错误,所以我们正在开发帮助人们避免这些错误的技术。”

多重假设检验误差是统计学中一个众所周知的问题。克拉斯卡表示,在大数据和交互式数据探索的时代,这个问题再次受到重视。

“这些工具让查询数据变得很容易,”他说。“使用这些可视化工具,你可以在一个小时内轻松测试100个假设。如果不对多重假设误差进行校正,你很可能会发现一个完全虚假的相关性。”

有众所周知的统计技术来处理这个问题。这些技术大多涉及调整统计显著性水平,以便根据总共测试了多少个假设来验证特定的假设。随着假设检验数量的增加,判断一个发现是否有效所需的显著性水平也会增加。

但这些修正技术几乎都是事后调整。它们是在研究项目结束时使用的工具,在所有的假设测试完成之后,这对于实时的、交互式的数据探索是不理想的。

“我们不想等到会议结束后才告诉人们,他们的结果是否有效,”布朗大学的计算机科学教授、该研究的合著者伊莱·厄普法尔(Eli Upfal)说。“我们也不希望系统在某一阶段告诉你某件事很重要,但在你测试了更多的假设之后,又告诉你你的早期结果已经不重要了,这样就会让系统自己反转过来。”

这两种情况都可以使用最常见的多重假设校正方法。因此,研究人员为这个项目开发了一种不同的方法,使他们能够在假设测试正在进行时监测错误发现的风险。

Upfal说:“我们的想法是,你有一个可以承担多少错误发现风险的预算,当用户与数据交互时,我们会实时更新这个预算。”“我们还考虑了用户浏览数据的方式。通过理解他们的问题顺序,我们可以调整我们的算法,改变我们分配预算的方式。”

对于用户来说,这种体验类似于使用任何数据可视化软件,只是使用彩色编码的反馈,给出统计意义方面的信息。

“绿色意味着可视化代表了一个重要的发现,”Kraska说。“如果是红色,意思是小心;这是不可靠的统计数据。”

研究人员说,该系统不能保证绝对的准确性。没有系统。但在一系列使用合成数据的用户测试中,真实和虚假的相关性已经得到了验证,研究人员表明,该系统确实减少了用户做出虚假发现的数量。

研究人员认为这项工作是迈向数据探索和可视化系统的一步,该系统完全集成了一套统计保护措施。

“我们的目标是让更广泛的用户更容易获得数据科学,”Kraska说。“解决多重假设问题很重要,但也很难做到。我们认为这是良好的第一步。”