Data 是Collection的集合,具有描述

描述(Attribute)的類別 及對應操控

1.Nominal ID等 (編號)distinctness(= !=)

2.Ordinal 評比 (序數)distinctness and order(< >)

3.Interval 區間姓 (間隔)distinctness, order and addition(+ -)

4.Radio (比例)零到一之間 

distinctness, order and addition multiplication(* /)

Dataset分成哪幾種type

1.Record

固定欄位的資料

Data Matrix

m by n matrix

Document Data

表示出現次數的向量

次數頻率(TF)

分析Document data

IDF,統計Document中TF取log(total/number of documents where the term appears)

TF*IDF判斷關鍵字

值越大關鍵字

數值型態的資料

TransactionData(EX:交易資料,關聯性)

Each record involves a set of item

2.Graph

一種資料結構

點和點之間的連結

具有關係(相關資料KDD2018) 化學成分組成(C6H6) 社交網路

3.Order

有順序關聯性的資料組成

EX:購買資料根據時間排序、基因序列、有時間關係的資料.(手機訊號時間位置圖).

 

Data Quality資料品質問題

Data Loss Anomal Data Noise,Similar Pattern

資料比對,

Noise Data約等於outliers

Missing Data..

資料缺失需要處理

Duplicate Data 

資料重複出現

Data cleaning

可能merge處理

3種問題

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


arrow
arrow
    文章標籤
    Big Data Data 大數據
    全站熱搜
    創作者介紹
    創作者 低階ㄇㄋ 的頭像
    低階ㄇㄋ

    蟲匯聚之所

    低階ㄇㄋ 發表在 痞客邦 留言(0) 人氣()