2008年5月11日 星期日

[宅度計] 關係榜上線

在之前寫完配對度與麻吉度的時候, 就想說寫一個更精確比對關鍵字交集率的系統, 也就是完整的關鍵字的關連度分析 (Relation Analysis), 這才是真正屬於 Data Mining 教科書上有的演算法...

經過一個多星期得資料搜集, 已經有 1 萬 5 千個部落格有資料了, 那就來計算吧, 而這次命名為關係榜, 算的就是關鍵字的交集度, 下面就是列出這個部落格的前 10 名..

名次 名稱 關係度 絕對宅度 相同關鍵字
1喲哪桑的軟體習作簿10.1566.33%軟體, 防毒, 部落格, web, 英文, 防毒軟體, 部落格觀察, 時間, 高鐵, 台灣, 文章, 林志玲, 科技, 設計, 廣告, 貼紙, 攝影, 王建民, 手機, 掃毒,
2涕泗泉 - Yam 樂多日誌8.5527.89%部落格, 無名, 台灣, 無名小站, 王建民, 貼圖, 文章, 廣告, 台北, 時間, 人生, 崇拜, 爆笑, 辣妹, 桃園, 電影, 棒球, 減肥, 論壇, 甜甜圈,
3Mr. 6 - 趨勢.創業.投資.策進 8.4729.72%2008 , 生活, 日記, 乾物女, 王建民, 照片, 部落格, 文章, 微軟, 台北, 台灣, 誠品, 美女, 日本, 人生, 軟體, 投資, 母親節, 禮物, 天空,
4CCB 2.0 (beta)8.0944.84%排骨, 賺錢, 音樂, 生活, 免費, 冰淇淋, 漢堡, 台灣, 科技, 下載, 照片, 遊戲, 同志, 客人, 緬甸, 手工, twitter, 左腦, 天堂, 奶茶,
5白文咪咪與小鸚KIKI-天空部落7.9165.67%語法, 外掛, 部落格, 草莓, 王建民, 時鐘, 2008 , 小玩意, 咖啡, 無名, 文章, 日本, 棒球, 天空, 遊戲, 減肥, 貼紙, 中華隊, 水果, 幸福,
6豬言豬語7.4668.10%英文, 台灣, 時間, 洪小玲, 遊戲, 台北, 香港, 軟體, 生活, 網頁, 文章, 設計, 不可以, 改機, 廣告, 空姐, 颱風, gadget, 手機, 微軟,
7GOOD VISUAL SYSTEM7.330.00%音樂, 2008 , 文章, 情色, 刺青, no, 英國, 電影, 結婚, 正妹, 生活, 新年快樂, 電子書, 遊戲, 桌布, 時間, 背景, 無名, 符號, 新年,
8amarylliss。艾瑪[隨處走走] -7.1764.09%餐廳, 咖啡, 2008 , 時間, 心得, 文章, 飯店, 生活, 照片, 電影, 部落格, 歐洲, 旅行, 殺人網站, 辣妹, 秘密, 無名, 台灣, 設定, 禮物,
9Dorcas ∞ ドルカス -7.0540.29%2008 , 婚禮, 淡水, 台北, 電影, 捷克, 交響情人夢, 音樂, 秘密, 東京, 不能說的秘密, 時間, 台灣, 下午茶, 免費, 淡水天元宮, 日劇, 天元宮, 生活, 結婚,
10愛麗絲夢遊部落格仙境7.0547.26%生日, 時間, 生活, 手工, 韓國, 團購, 女人, 台灣, 無名小站, 攝影, 無名, 免費, 禮物, 50嵐, 設定, 咖啡, 空間, 火鍋, 日本, 燦爛千陽,
11橘子也有部落格6.9135.17%
12聰明的投資者6.4153.26%
13 Gea-Suan Lin’s BLOG5.990.00%
14黃小黛‧IS LIFE.blog5.9641.76%
15Aspirant à la Liberté -5.9124.58%
16電影‧人生‧夢 -5.8637.02%
17圈圈's部落格 - Yam 樂多日誌5.8327.65%
18晚安! 203室5.5636.24%
19艾倫‧卡洛特5.5540.07%
20the Utopia - Yam 樂多日誌5.4821.33%
21Shary的如新生活 - Yam 樂多日誌5.4646.23%
22紅色★妮可5.3739.45%
23XXC@Blog5.2731.48%
24紅色長角三倍速5.2059.40%
25AK's Living - Yahoo!奇摩部落格4.790.00%
26放屁(Fun&Peace)4.7039.13%
27HOW’s SketchBook4.68109.02%
28Blog.XDite.net4.6154.99%
29Hi! I’m clsung4.6156.54%
30NBN - Nothing But Net4.5443.20%

當然除了列名次之外, 最重要的是這兩個部落格交集了那些關鍵字, 這邊只列出前 20 個關鍵字, 事實上是有照次序的, 但只是是列出關係的部落格的次序, 並沒有兩個加總~~~

只是這個關係代表的是甚麼, 是可以解釋為關心的議題的距離差異, 當然分數越高就越接近, 只是不只跟這兩個部落格的關鍵字的交集數有關, 也有做比例的調整 (Normalization), 希望可信度或意義度有出來....

這個關係在未來大概只會一個星期更新一次, 畢竟這變化沒那麼大, 且算一次也是須要一定的資源的~~

沒有留言: