DataHub?

자산 데이터의 이해 및 관리를 위한 메타데이터 검색 및 관리 도구

데이타 카탈로그?

조직이 가지고 있는 데이터를 체계화하여 정리한 내용(비유하자면 도서관에서 책을 어디에, 어떻게, 설명 등을 정리한 내용과 비슷하다)

데이터 카탈로그가 왜 중요한지?

현재 보유하고 있는 데이텉의 종류, 데이터를 pull/push 하는 사람, 데이터의 용도 및 보호 방법에 대해 이해하고 있어야, 데이터를 사용하는 부분에 있어서 시간 및 비용이 절감된다. 또한 데이터 카탈로그가 관리가 되지않으면 품질, 신뢰성에도 영향을 미칠 수 있다.

메타데이터란?

데이터가 어떤 목적을 가지고 만들어졌는지 설명해주는 데이터

기능

- Search and Discovery : end to end 데이터 계보(Lineage)로 플랫폼 간의 데이터 추적도 가능
- Modern Data Governance : 간편한 엔티티 관리자, 소유자 등에 대한 관리 조직 또는 사람 설정, Domain, Glossary Terms, Tags를 통한 세밀한 분류 가능
- DataHub Administration : 조직, 사람 그리고 데이터에 대한 권한(ownership, tags, documentation 등의 단위로 권한 부여 가능)

 

참고자료

https://engineering.linkedin.com/blog/2020/datahub-popular-metadata-architectures-explained

 

DataHub: Popular metadata architectures explained

When I started my journey at LinkedIn ten years ago, the company was just beginning to experience extreme growth in the volume, variety, and velocity of our data. Over the next few years, my colleagues and I in LinkedIn’s data infrastructure team built o

engineering.linkedin.com

https://datahubproject.io/docs/introduction/

 

Introduction | DataHub

DataHub is a data discovery application built on an extensible metadata platform that helps you tame the complexity of diverse data ecosystems.

datahubproject.io

https://www.oracle.com/big-data/data-catalog/what-is-a-data-catalog/#:~:text=Simply%20put%2C%20a%20data%20catalog,support%20data%20discovery%20and%20governance

 

What is a Data Catalog?

Manage your data better with data catalogs. Learn how data catalogs help data professionals collect, organize, access, and enrich metadata to support data discovery and governance.

www.oracle.com

 

'IT' 카테고리의 다른 글

apache solr(솔라)  (0) 2023.07.14
KeyCloak(키클락)  (0) 2023.07.13
Apahce Atlas(아틀라스)  (0) 2023.07.11
Apache Ranger[레인저]  (0) 2023.07.10
DBT(디비티) : Data Build Tool  (0) 2023.07.09

+ Recent posts