description data summarization
提供分析的基礎協助data preprocessing
常用的方法主要有
measuring the central tendency(集中趨勢/位置量數)
measuring the dispersion of data(離散程度/離散量數)
衡量資料位置
graphic displays of basic statistical descriptions
…
measuring the central tendency(集中趨勢/位置量數)
主要有
mean,求平均
weighted arithmetic mean(加權算術平均)
trimmed mean:刪除極端值
median,求中間數
sort,透過排序,較花時間,ex: n=11,則median=6th數字, n=10,則median=(5th+6th)/2的數字
interpolation(內差法),取大概數,用於解決數量過大的問題
mode,求出現頻率最高的數字,只有一個數也稱unimodal,兩個稱bimodal,三個稱trimodal,多個稱multimodal
midrange,(min+max)/2
ps
偏離公式:mean-mode=3(mean-median)
判斷數據資料是否嚴重偏離
ps:
interpolation
n=資料數
nl=不包含中間bin的前半段所有bin的資料數
nm=中間bin的資料數
l=區間數,ex:1-10,11-20,則區間數為10
m=中間的bin的第一個數值
公式=(median-m)/l=((n/2)-(nl)) / nm
ex:
traffic:frequency
1-15:7
16-30:10
31-45:8
46-60:7
61-75:3
76-90:4
91-105:1
so:n=40,nl=7+10+8=25,nm=7 , l=15,m=46
(median-46)/l=((40/2)-(25)) / 7
median=35.28
…
measuring the dispersion of data(離散程度/離散量數)
主要有
range:max-min,最簡單的離散量數
IQR(inter-quartile range,四分位數距):Q3-Q1,可克服極端資料值 , ex:若n=10則IQR=5
Five number summary:min,Q1,median,Q3,max
variance:數字越大表示各數據越偏離
standard deviation:sqrt(variance),用來描述資料點與平均觀查值離多遠
coefficient of variation(變異係數):standard deviation/mean*100,標準差佔平均數之比重
ps:
四分位數(位置量數)
Q1(quartiles 1):25th percentile,ex:若n=10則q1=3th,若n=11則q1=3th
Q2(quartiles 2)/median:50th percentile,
Q3(quartiles 3):75th percentile,ex:若n=10則q3=8th,若n=11則q3=9th
…
衡量資料位置
主要有
skewness(偏度):和標準常態分配比較的結果
z-score(z-分數):瞭解觀察值之相對位置
公式為:zi=(xi-mean(x))/s
xi=第i個觀察值
s=standard deviation
mean(x)=x的mean
chebyshev’s theorem(柴比雪夫定理)
經驗法則
ps:
outlier:觀察值之z-score > 3 or <3 則為異常
ps:
outlier(離群值)
在資料集中極大或極小的觀察值
可用於異常判斷
…
graphic displays of basic statistical descriptions
常見有以下
boxplot analysis
by Five number summary
outlier,若Xi > (1.5*IQR)+Q3 or Xi < Q1-(1.5*IQR)
ex: Q1=60,Q2=100 ,則IQR=40,若Xi大於100+40*1.5或小於60-40*1.5則為異常
histogram analysis
可看出資料的:
location(中心位置)
variation(變異)
skewness(曲度)
outlier(是否有偏離值)
distribution(資料分配)
quantile plot:表示單一變數分佈
做法:x軸為實際數據,y軸為f-value
f-value=(i-0.5)/n,i=第i個數據,n=共幾個i
Q-Q(quantile-quantile) plot:主要用於比較兩變數關係
做法:先將兩變數之數據做遞增排序,再將兩變數各放在x與y軸,圖形會呈現向上或向之關係
scatter plot:僅將2個維度的數據標上
loess curve
…………..
outlier
outlier產生的原因
可能有以下兩種
1,執行錯誤 ex:以極高值代表其他資訊,導致計算時不正確
2.資料本身的資訊 ex:老闆的薪水和一般員來比會變成outlier
outlier detection
定義什麼樣的資料為不一致,並透過一個方法找出
.
常見方法有
statistical distribution-based(統計方式)
需先找到資料原本正常的分佈方式,(有先情況下無法找到正常的分佈方式)
1分佈
繼承對立分佈
混合對立分佈
滑動對立分佈
2檢測
區塊程序
連續程序
距離式的方式
需先找出正確的參數(需先經過測試才可得到)
常見方法有
index-based :個體半徑d內為鄰居,若個體o的鄰居數小於m,則個體為outlier
nested-loop algorithm:
cell-based algorithm:
密度式的方式
可解決密度相當不同的分佈分式
偏差式的方式
使用個體群組的特性,偏離此特性會被視為outlier
常見方法有
1.sequential exception technique(順序異常方法),屬於np-hard問題
2.OLAP data cube方法
ps:
statistical-based,distance-based分析取決於資料全域分佈