본문 바로가기

데이터 통합2

[데이터 사이언스 스쿨] 4.6 데이터프레임 합성 ● 데이터프레임 합성 두 개 이상의 데이터프레임을 하나로 합치는 것. 데이터 병합(merge)이나 연결(concatenate) ● Concatenation 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate) 기본적으로는 위/아래로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다. - 출처 : [데이터 사이언스 스쿨] 4.6 데이터프레임 합성 2021. 4. 28.
05 데이터 통합 (Generalization) - 유사한 성격의 데이터, 동질성을 가진 데이터를 더 큰 주제로 합치는 것 - 통합 대상에는 속성과 관계, 엔터티가 있지만 대부분 엔터티 통합이 주를 이룬다. - 속성과 엔터티에 대한 명확한 이해가 선행돼야 하므로 정규화를 끝낸 다음에 엔터티를 통합해야 데이터 성격에 맞는 유연한 모델이 된다. - 엔터티를 어떻게 정의하느냐에 따라 데이터 통합의 기준이 달라질 수 있다. - 완전 정규형을 사용해 데이터 통합(일반화) 작업을 수행하고 비정규화가 필요하면 통합된 모델에서 수행한다. - 업무가 바뀔 가능성이 많을수록 데이터를 일반화 시켜야 한다. - 성격, 정체성, 주제 등으로 판단했을 때 동질성이 빈약한 데이터를 통합하는 것은 주의해야 한다. - 엔터티를 통합하면 데이터는 많아질 수밖에 없다. 그러면 성능상 .. 2019. 12. 18.