数据湖的各项安全实践
组织开始意识到,如果他们不被限制于预定义的模式、以及在事务或分析系统中的使用方式,那么他们可以从数据中获得更多的价值。
数据可以被用于开发、训练、分析机器学习(machine learning,ML)模型,或是针对在任何类型的数据库上,运行的现有工作负载,进行现代化的改造。
云计算能够以前所未有的速度和规模,快速配置现代化的工作负载。
使用Apache Kafka等数据流处理工具,近乎实时地处理流入数据湖中的数据。
使用Google BigQuery或Amazon Athena等高性能查询引擎,直接从数据湖中获取特定的数据洞见。
使用Elasticsearch等工具对大量结构化和非结构化的数据进行按需分析,对来自日志和运营的数据予以搜索、过滤和可视化。
访问控制:针对数据库表的访问权限控制,向来是灵活多变、且极具挑战性的。而针对数据湖的权限设置更是如此。我们往往需要基于特定的对象或元数据来予以定义。否则,整个组织的人员都可以访问数据湖的话,其中的个人数据、以及根据合规性要求保密的数据,就没有了安全保证。根据 Forrester Consulting 曾委托进行的一项研究,58% 的安全事件都是由内部威胁所引起的,如果不加以控制的话,员工对敏感数据的访问将是一场安全噩梦。
数据保护:数据湖通常充当的是组织内信息的单一存储库。因此,它往往成为了最有价值的攻击目标。如果没有适当的访问控制机制,不良行为者可以据此获得整个组织的敏感数据,甚至修改各种访问权限。
治理、隐私和合规性:由于数据湖的数据源多且杂,因此某些数据可能包含了在不同的系统和地域范围内属于隐私、甚至是违规的信息内容。由此产生的跨数据湖存储架构的定位、以及对不同层级数据的管控,将具有挑战性。
梳理标准化的数据访问流程:由于既可以给真实的用户使用,也能够供集成系统的调用,因此该流程应当能够跟踪数据的访问和使用的全过程。
创建数据的分类方案和目录:在数据湖中,数据应当按照内容、使用场景、类型、以及可能的用户群体进行分类,并提供相应的目录,以实现数据的搜索和索引。同时,我们还应该采取一种便利的方法,将需要保留的数据与待删除的数据分开。
启用数据保护:数据加密和自动监控等安全管控措施应被事先设置好。而当出现未授权的访问用户、及其可疑活动时,应能够及时发出警报。
加强数据的治理、隐私保护、以及合规性:我们需要通过明确的数据政策,向相关人员传达,该如何定位和使用数据湖,如何提高数据质量和敏感数据的使用,以及如何按照数据隐私标准去存储历史数据。
原文链接:
https://thenewstack.io/data-lake-security-dive-into-the-best-practices/
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 和人民在一起 7916011
- 2 警惕!今年第一场大寒潮或波及全国 7918969
- 3 柯洁被判负 7848292
- 4 今天明天 都是小年 7769041
- 5 王菲时隔7年再上春晚 将唱这首歌 7685607
- 6 公务员省考:学历要求越来越高 7502299
- 7 打工人你的早餐摊子已返乡 7445636
- 8 59岁陈慧娴演唱会上出意外 7351888
- 9 尹锡悦穿10号囚服 狱警叫他10号 7271459
- 10 《漂白》编剧再声明身正不怕影子斜 7169670