close
閱畢日期:2012/1/28

這本書是講資料採礦,講的相當淺顯易懂,簡單來說,這是一本入門書。書的主要架構大致是這個樣子,先講資料採礦可能會遇到的盲點以及必須要做的事情,然後介紹步驟以及常使用的方法,最後延伸到網路以及隱私問題。

步驟:
  1. 先決定想知道什麼
  2. 資料的蒐集
  3. 資料的取捨
  4. 先從單一資料與屬性下手
  5. 失敗經驗有助於往後的分析
  6. 試著加上其他屬性
  7. 剔除異常值
  8. 單一屬性與多重屬性的混雜使用


大致有這些分析方法:
  • 分類:群集分析、決策樹分析、自我組織映射圖
  • 關聯:關聯法則
  • 預測:迴歸分析、類神經網路


迴歸分析的最小平方法,其實就是加總各點與直線距離的平方和,畫出平方和最小化情形下的直線。所謂的迴歸分析就是從不明確的資料群裡,找出「各式各樣的資料這麼多,最後應該有這樣的規律/公式吧」的妥協點的方法。從迴歸分析取得的線就是回歸線,想查明的東西稱為因變數,所需要的資料稱為自變數。只有一個自變數的案例稱為「簡單迴歸分析」,有兩個以上自變數的案例稱為「複迴歸分析」。缺點是如果資料的分散度很大時,會無法找出適當的回歸線,導致預測的準確度很低。

決策樹是依據分歧條件去歸納整理並畫出類似樹狀的圖形,可以用來快速的做判斷。

群集分析,是依據資料的某些條件做出分類。K平均法是其中的一種方法,他是經由不斷的計算每個群集的中心點位於何處,移動中心點,經由計算移動中心點以後,再次重新判斷、將資料點歸屬到距離最近的中心點。重複這項作業直到中心點不再移動為止。

自我組織映射圖,這個比較難說明,書裡舉的例子是先簡單把資料分為四格,然後每個格子裡再去區分為四格來分類,以次類推到更裏面的格子。簡單的說就是把多次元的資料以二次元方式來表現,就x, y, z甚至w, x, y, z想在一張平面的圖裡表現出來。章節最後介紹了自我組織映射圖,說是目前比較矚目的方法。

關聯法則,就是依照資料去找出不同種類物品的關聯關係,常被用來舉例的就是尿布跟啤酒。說到這個,我突然想到,國內的賣場並非如此,這跟民族性有關係嗎?還是跟現行法令有關係?

類神經網路。一個點是以資料屬性與臨界值來判定是否符合條件,再加上多個屬性,就形成了類神經網路。好處在於可以擴充也可以學習,缺點在於需要額外準備資料來檢測分析是否俱備泛用性,然後有可能有過度學習的情況。

後面講的是資料採礦的其他問題,像是網路上收集的資料會導致隱私的洩漏等等的,然後講到OECD,OECD的幾個原則:
  • 蒐集個人資料時,必須使用公正的手段而且取得當事人的同意才可以進行蒐集。
  • 個人資料需要符合利用目的的內容,必須確保其正確且最新的狀態
  • 蒐集個人資料的目的,於各個階段必須明確標示
  • 個人資料只能使用在已得到當事人同意的用途上
  • 個人資料必須嚴加保護,避免被使用在破壞、洩漏、惡質連線等用途上
  • 個人資料的運用方式必須公開;資料管理者的連繫管道必須暢通
  • 必須設定個人資料相關的詢問及客訴窗口。如果客訴情況屬實,必須修改或刪除資料。
  • 資料管理的負責人,必須負責執行這些原則
個人必須要注意的,就是要判斷自己的資料哪些是可以公開的,哪些是不想公開的。而且因為網路和儲存裝置的大量普及,一旦散佈出去的資料將很難再去抹滅。

要買書可以到博客來網路書局

More about 從資料中挖金礦:找到你的獲利處方籤
arrow
arrow
    文章標籤
    分析 群集 映射 oecd
    全站熱搜

    elleryq 發表在 痞客邦 留言(0) 人氣()