陈根:数据清洗机器人,MIT首发
当今时代,数据量的迅猛增长已成为IT管理部门面临的一大难题。庞大的数据量不仅严重降低了应用程序的性能和稳定性,还加大了备份与恢复的负担,消耗了大量的投资。
面对这一挑战,永无止境地投入资金来升级系统存储水平、提高服务器性能,并非长久之计。数据清理在此刻显得尤为重要。通过实施数据清理和数据归档,可以有效提升数据库性能,确保核心业务不因长时间的数据积累而出现性能问题,使应用能更迅速地提供优质服务。值得一提的是,数据清理技术一直在不断发展。
据Anaconda和Figure Eight的调查显示,数据清理可能会占据数据科学家四分之一的时间。自动化数据清理虽然具有极大的挑战性,因为不同的数据集需要不同类型的清理,并且经常需要对数据进行常识性的判断,但科研人员从未停止。
最近,麻省理工学院(MIT)的研究团队宣布他们发明了一种新的系统——PClean,这一系统能够自动清除令人头疼的“脏数据”,包括数据分析师、数据工程师和数据科学家畏惧的打字错误、重复、缺失值、拼写错误和不一致等问题。
PClean是概率计算项目研究人员开发的一种面向特定领域的概率编程语言,其旨在简化人工智能应用程序的开发并实现自动化。PClean采用一种基于知识的方法,用户只需对数据库的背景知识和可能出现的问题进行编码,系统就能通过常识概率推理结合这些知识来自动清理数据。
作为首个贝叶斯数据清理系统,PClean能够结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。令人印象深刻的是,PClean所需的代码行数远少于其他先进选择。据报道,PClean仅需约50行代码就能在准确性和运行时间上超越基准测试。
显然,我们仍需要更多数据清理技术的开发,这不仅是为了应对当前的数据挑战,也是为了为未来铺平道路,确保数据的准确性、可靠性和高效性。随着技术的不断进步,我们期待看到更多如PClean这样的创新成果问世,为数据处理领域带来更多的突破和可能性。