從資料中挖金礦 @ 我。閱讀

閱畢日期：2012/1/28

這本書是講資料採礦，講的相當淺顯易懂，簡單來說，這是一本入門書。書的主要架構大致是這個樣子，先講資料採礦可能會遇到的盲點以及必須要做的事情，然後介紹步驟以及常使用的方法，最後延伸到網路以及隱私問題。

步驟：

先決定想知道什麼
資料的蒐集
資料的取捨
先從單一資料與屬性下手
失敗經驗有助於往後的分析
試著加上其他屬性
剔除異常值
單一屬性與多重屬性的混雜使用

大致有這些分析方法：

分類：群集分析、決策樹分析、自我組織映射圖
關聯：關聯法則
預測：迴歸分析、類神經網路

迴歸分析的最小平方法，其實就是加總各點與直線距離的平方和，畫出平方和最小化情形下的直線。所謂的迴歸分析就是從不明確的資料群裡，找出「各式各樣的資料這麼多，最後應該有這樣的規律/公式吧」的妥協點的方法。從迴歸分析取得的線就是回歸線，想查明的東西稱為因變數，所需要的資料稱為自變數。只有一個自變數的案例稱為「簡單迴歸分析」，有兩個以上自變數的案例稱為「複迴歸分析」。缺點是如果資料的分散度很大時，會無法找出適當的回歸線，導致預測的準確度很低。

決策樹是依據分歧條件去歸納整理並畫出類似樹狀的圖形，可以用來快速的做判斷。

群集分析，是依據資料的某些條件做出分類。K平均法是其中的一種方法，他是經由不斷的計算每個群集的中心點位於何處，移動中心點，經由計算移動中心點以後，再次重新判斷、將資料點歸屬到距離最近的中心點。重複這項作業直到中心點不再移動為止。

自我組織映射圖，這個比較難說明，書裡舉的例子是先簡單把資料分為四格，然後每個格子裡再去區分為四格來分類，以次類推到更裏面的格子。簡單的說就是把多次元的資料以二次元方式來表現，就x, y, z甚至w, x, y, z想在一張平面的圖裡表現出來。章節最後介紹了自我組織映射圖，說是目前比較矚目的方法。

關聯法則，就是依照資料去找出不同種類物品的關聯關係，常被用來舉例的就是尿布跟啤酒。說到這個，我突然想到，國內的賣場並非如此，這跟民族性有關係嗎？還是跟現行法令有關係？

類神經網路。一個點是以資料屬性與臨界值來判定是否符合條件，再加上多個屬性，就形成了類神經網路。好處在於可以擴充也可以學習，缺點在於需要額外準備資料來檢測分析是否俱備泛用性，然後有可能有過度學習的情況。

後面講的是資料採礦的其他問題，像是網路上收集的資料會導致隱私的洩漏等等的，然後講到OECD，OECD的幾個原則：