Data 是Collection的集合,具有描述
描述(Attribute)的類別 及對應操控
1.Nominal ID等 (編號)distinctness(= !=)
2.Ordinal 評比 (序數)distinctness and order(< >)
3.Interval 區間姓 (間隔)distinctness, order and addition(+ -)
4.Radio (比例)零到一之間
distinctness, order and addition multiplication(* /)
Dataset分成哪幾種type
1.Record
固定欄位的資料
Data Matrix
m by n matrix
Document Data
表示出現次數的向量
次數頻率(TF)
分析Document data
IDF,統計Document中TF取log(total/number of documents where the term appears)
TF*IDF判斷關鍵字
值越大關鍵字
數值型態的資料
TransactionData(EX:交易資料,關聯性)
Each record involves a set of item
2.Graph
一種資料結構
點和點之間的連結
具有關係(相關資料KDD2018) 化學成分組成(C6H6) 社交網路
3.Order
有順序關聯性的資料組成
EX:購買資料根據時間排序、基因序列、有時間關係的資料.(手機訊號時間位置圖).
Data Quality資料品質問題
Data Loss Anomal Data Noise,Similar Pattern
資料比對,
Noise Data約等於outliers
Missing Data..
資料缺失需要處理
Duplicate Data
資料重複出現
Data cleaning
可能merge處理
3種問題
留言列表