2008年5月30日 星期五

[宅度計] 新增歌曲類別....

當時在做部觀門八大類別的時候, 有關單曲與專輯的部份放進 "時事話題", 因為這種東西蠻有時間性的, 而原本也打算把 "書籍" 也放進去這個類別, 但當時好像能夠進排行到可以觀察的只有 "哈利波特", 所以也作罷~~~

但後來有了音樂類的選項後, 把所有藝人, 單曲, 專輯放進去, 結果這分類變成是跟 3C商品一樣成為大分類, 所以在某方面判別不出來...

我前幾天在黑貘來說寫了 "Way back into love", 提到部落格搜尋單曲的排行榜, 但這是用手整理的, 所以我就跟花水木講, 問她是否能夠整理一份單曲的關鍵字列表, 所以這系統就這樣起來了...

所以這樣的話, 部落格單曲排行就成行了:

1. 鬥牛要不要 (119/0)
2. way back into love (45/5)
3. bizarre love triangle (33/1)
4. 關於情歌 (26/0)
5. 你是我的眼 (19/44)
6. 揮著翅膀的女孩 (14/1)
7. 鬥牛‧要不要 (13/0)
8. 愛情轉移 (11/10)
9. 明天會更好 (8/5)
10. 聽說愛情回來過 (8/1)

但現在最大的問題是, 有些是電影電視劇名以及不同的寫法問題還是要解決....

2008年5月28日 星期三

[宅度計] 追加宅度權數調整

在上一篇有提到各項追加類別的數目,所以也跟著調整權數:

9. | AV女男優 |: 63 / 3 => 3
10. | 3C商品類 |: 212 / 2 => 1.5
11. | 攝影類別 |: 55 / 4 => 3.5
12. | 音樂類 |: 265 / 2 => 1.5
13. | 運動類 |: 77 / 3 => 3
14. | 電影類 |: 121 / 2.5 => 2.5
15. | 政經社會 |: 152 / 2 => 2
16. | 日劇通 |: 71 / 3 => 3
17. | 韓劇通 |: 35 / 4.5 => 4.5
18. | 舞蹈 |: 7 / 5 => 6
19. | 閱讀文學 |: 41 / 4.5 => 4
20. | 星座命理 |: 21 / 4.5 => 5
21. | 汽機車 |: 40 / 3.5 => 4
22. | 線上遊戲 |: 29 / 4.5 => 4.5
23. | 網管程設(IT) |: 88 / 3 => 3
24. | 手機 |: 41 / 3.5 => 4
25. | 筆電 |: 40 / 3.5 => 4

因為資料庫儲存的都是原始分數, 都是之後再去乘上這個 Factor 乘數, 所以對舊歷史本來就沒有影響, 最主要是用來顯示的結果不同罷了~~

[宅度計] 新增手機, 筆電兩個分類 (目前分類個數)

這也是一直要做還沒做的, 就是手機與筆記型電腦的宅度計, 這次是由 "透明藍樂摸" 獻出他的時間完成的...

目前這兩項初期都剛剛好是 40 種, 所以比重是 3.5, 但因為是剛加進去, 所以目前兩個都沒有破百的部落格..

1. |人名團體|: 559
2. |電視電影|: 284
3. |網站軟體|: 429
4. |美食店家|: 447
5. |動漫遊戲|: 224
6. |廠商產品|: 383
7. |旅遊地名|: 215
8. |時事話題|: 346

9. | AV女男優 |: 63
10. | 3C商品類 |: 212
11. | 攝影類別 |: 55
12. | 音樂類 |: 265
13. | 運動類 |: 77
14. | 電影類 |: 121
15. | 政經社會 |: 152
16. | 日劇通 |: 71
17. | 韓劇通 |: 35
18. | 舞蹈 |: 7
19. | 閱讀文學 |: 41
20. | 星座命理 |: 21
21. | 汽機車 |: 40
22. | 線上遊戲 |: 29
23. | 網管程設(IT) |: 88
24. | 手機 |: 41
25. | 筆電 |: 40

這數字跟大家想的是否差不多呢?

2008年5月26日 星期一

[宅度計] 新增線上遊戲與程設網管(IT)分類

很久沒有增加新的追加分類了, 因為整理一個分類往往要話上數小時, 是相當累的, 做過的工作人員都知道, 這次增加兩項分類.

線上遊戲是包含跟線上遊戲相關的資訊, 而這線上遊戲並不限定一定要 RPG, 像 CS, Diablo, 星海爭霸都算, 甚至 CGI Game (Web Game) 中的 Travian 等也包含在內, 目前已經有 29 個關鍵字被包含在這分類.

而 IT 網管與程設, 主要是對於一般使用者碰不到的專業術語, 非個人使用的程式, 設備, 概念, 只要在 IT 範圍之內的關鍵字都算, 但相對的一些常用的軟體, 網站, 廠商, 或者是以消費市場為主的設備, 都不算其中, 雖然目前是有 88 個關鍵字在內, 但隨著時間的定義, 還會更精確一些~~~

當然這個準不準呢?

我看 IT類 的排行榜, 目前前 10 名是:

名次部落格宅度關鍵字
1SeekING Bernie32.3 度程式
2Abin's Tech Note29.5 度程式
3gotoAndPlay()26.4 度線上掃毒
4Racklin's 阿土伯程式大�25.1 度javascript
5 真‧他媽的21.9 度虛擬主機
6科技 - 尤加利 @ Blogger21.5 度程式
7工程師級的顧問 / 【食21.0 度程式
8DearHoney 數位音樂工作�20.0 度程式
9程式設計人手札20.0 度程式
10阿榮福利味19.5 度免費防毒軟體

我是覺得頂多只有 1~3 個可能還是偏大眾或消費性報導或心得的, 但大部份真的是在職專業的人寫的, 所以只要再多做點調整, 我相信會更準了~~~

2008年5月23日 星期五

[宅度計] 更新週期

一定有很多人好奇為甚麼宅度計的歷史資料的時間每一個人都不一樣, 答案很簡單, 這系統不太可能像部落格觀察定時的去抓所有人的部落格來算, 所以必須自己來查詢的時候才會計算...

而目前的新增一筆歷史記錄的條件如下:
1. 這次計算, 若是絕對宅度有所顯著改變, 或者是文章有更新, 且距離上次記錄有三天, 則會把上次記錄的宅度移到歷史, 且新記錄一筆最新的.

2. 若是這次計算, 沒有顯著改變, 文章也沒有更新, 則必須超過七天以上, 才會記錄一筆新的記錄.
當然所謂的 "這次計算" 的來源有三種:
1. 自己或別人來查詢.
2. 搜尋引擎來查詢.
3. 在自己部落格上貼貼紙.
所以當你第一次來看, 嚇然發現有歷史資料, 必然是搜尋引擎搞的鬼, 而若你未來想要持續因文章與系統有最新資料而有最新的計算, 最直接的方式就是貼貼紙囉, 而目前提供四種功能的六個貼紙, 每一個都有這樣的功能.

而不想貼貼紙的, 自然是自己來查詢是最直接的啦, 但為了鼓勵這個背後事實上是很艱鉅的系統, 請大家貼貼紙吧, ... 感謝~~~

2008年5月20日 星期二

[宅度計] 最夯關鍵字

昨天才剛推出第一張貼紙, 接下來又是一張之前沒有顯示過的, 最夯關鍵字.

但這個最夯當然指部落格這個關鍵字出現的次數, 再除掉一個有多少部落格出現過的數字(不見得是線性), 因此變成是你這部落格出現較多, 但比較少人寫到的關鍵字會出現在前面~~~~

且這個度數也是經過調整的, 所以應該也是低於 100 的分布才對~~~~~

下面是這個部落格的最夯關鍵字前十名:

當然這個跟最宅關鍵字比較起來, 所謂這個最宅關鍵字演變, 指的是這部落格主題的變化, 但這個最夯關鍵字指的是當下, 也就是最近一次的採樣, 而目前這個是沒有歷史的....

所以記錄一下目前是:

宅度計25.9度
食夢黑貘24.2度
部觀門22.6度
關鍵字20.7度
三芝飛碟屋16.9度

看看以後會變成甚麼...

2008年5月19日 星期一

[宅度記] 最宅關鍵字演變貼紙

很多人都一直問說, 為甚麼我這麼喜歡做部落格貼紙的人, 宅度計到現在都還沒有貼紙, 原因有很多啦, 最主要是四個:
1. 忙, 真的很忙 (廢話)
2. 認為有歷史的貼紙才好玩
3. 即時的貼紙要畫圖, 很麻煩
4. 還有幾個主體架構沒完成
但現在在完成追加歷史後, 整個宅度計的主體架構已經差不多了, 且更新頻率也慢慢的抓到一個方向後, 貼紙就開始運作了...

這次推出的第一個貼紙是系統原本沒有的, 也就是最宅關鍵字演變, 把部落格目前宅度計記錄到的最宅關鍵字做個整理, 而跟原本的宅度計 "最宅關鍵字" 不一樣的地方原本的關鍵字是取最高類別的最高關鍵字, 這次是取所有最高的關鍵字~~~~

除此之外, 還做了個整理, 就是只顯示有變化的, 我拿 透明藍樂摸做個例子好了, 他的 Gadget 的顯示是:

但若是完整顯示的話是:

這很明顯看得出來把相同關鍵字且有相同數字的資料給整併在一起了, 畢竟既然是 Gadget, 希望在小小的地方提供最多的資訊, 自然把重覆的資訊給消除掉了~~~~~

為甚麼要取他做例子呢? 因為我的幾個部落格, 像黑貘來說大家可以去看, 都是全部都是部落格, 因此被 bangdoll 取笑說我太專注於部落格了, 因此這個 Gadget 好像對我反而是最沒有意義的, 慘~~~

[宅度計] 新增追加宅度歷史

雖然宅度計上線時的前幾天並沒有追加宅度, 甚至追加宅度歷史還晚一次記錄週期才開始記錄, 但既然有了記錄, 就要想辦法給大家看, 但這部份的程式是相當複雜的, 因為追加宅度的儲存方式是跟原本八項主分類的記錄方式是完全不一樣的...

但困難點還不只如此, 更是追加宅度的可能性是無限的, 且每一個人記錄的方式更不一樣, 所以不只是 "Layout 版面" 的問題, 顯示的方法及可讀性都是相當困難的, 但也是想把宅度計這專案快告一段落, 所以就以合理的方式去完成, 不然也不知道如何去改善這種多變性的使用者介面...

我以 法洛猛的奇摩主場 的追加歷史為例, 也是因為他最近寫了篇文章, 本想說跟他講該如何用就好, 畢竟這是一個工具, 大家可以見 棒球部落格報報(080126~080512):綜合討論與網友動態 這篇文章... 而追加歷史為:

日期 絕對宅度


音樂類運動類電影類政經社會





2008-05-14119.55



極度宅(84.0)
王建民

普通宅(12.9)
運動彩券
2008-04-30131.45


開始宅(5.5)
歌詞
極度宅(90.1)
王建民
開始宅(6.2)
投名狀
普通宅(13.0)
運動彩券

雖然只有顯示 4 種種類的追加宅度, 但有些是有, 有些沒有, 這些必須等算完才知道, 事實上有一些 Table 的內容是被隱藏沒有顯示的, 也是事後去算出來的, 這是最後的解法...

但這部份沒有去顯示最新的一次, 或許改天補上...

2008年5月13日 星期二

[宅度計] 單一關鍵字的宅度榜

當然計算出一個部落格的宅度不是問題, 然後反向就是來看單一關鍵字的宅度了, 在這邊寫了兩種觀察的方法....
1. 關鍵榜: 計算這個部落格對這關鍵字的次數, 以及這關鍵字的比重.
2. 專業榜: 若這個關鍵字在這部落格在這項目是最高的關鍵字, 其值的比較.

當然很明顯的關鍵榜數目一定較多, 因為只要提到就算, 而專業榜必須要這個關鍵字是這個部落格分類的最強關鍵字才會算在內...

只是這些關鍵字是必須在部觀門的 4000 個觀察的關鍵字才會記錄到, 不然就太發散了, 在這邊舉個 "宅度計" 的例子好了...

名次 名稱 度數 次數
1來看部觀門21533
2黑貘來說14914
3工程師級的顧問 / 【食夢黑貘】13513
4Shih-Hsien’s BLOG1229
5二十根貓鬍鬚 - 天空部落1207
6下班後的世界954
7日光的城堡 - yam天空部落954
8慢很多拍的第一棒開路先鋒945
9 苦悶中年男的情緒出口925
10alienwoo905

上面是 "宅度計" 的關鍵榜前十名, 排序是以 "關鍵度數" 來排, 也就是次數經過關鍵字總數與個數的正規化 ( Normalization) 出來的 而非單純的次數....

而現在只要看到這個圖, 按下去就是了, 或者是一堆關鍵字列表的話就不會顯示這個圖, 這個圖也是由 風痕影 畫的, 他在這部份幫忙不少~~~

有人說我的部落格文章太多表格了, 但畢竟有時表格是最好的舉例, 請不想看的人多包含~~~

2008年5月11日 星期日

[宅度計] 關係榜上線

在之前寫完配對度與麻吉度的時候, 就想說寫一個更精確比對關鍵字交集率的系統, 也就是完整的關鍵字的關連度分析 (Relation Analysis), 這才是真正屬於 Data Mining 教科書上有的演算法...

經過一個多星期得資料搜集, 已經有 1 萬 5 千個部落格有資料了, 那就來計算吧, 而這次命名為關係榜, 算的就是關鍵字的交集度, 下面就是列出這個部落格的前 10 名..

名次 名稱 關係度 絕對宅度 相同關鍵字
1喲哪桑的軟體習作簿10.1566.33%軟體, 防毒, 部落格, web, 英文, 防毒軟體, 部落格觀察, 時間, 高鐵, 台灣, 文章, 林志玲, 科技, 設計, 廣告, 貼紙, 攝影, 王建民, 手機, 掃毒,
2涕泗泉 - Yam 樂多日誌8.5527.89%部落格, 無名, 台灣, 無名小站, 王建民, 貼圖, 文章, 廣告, 台北, 時間, 人生, 崇拜, 爆笑, 辣妹, 桃園, 電影, 棒球, 減肥, 論壇, 甜甜圈,
3Mr. 6 - 趨勢.創業.投資.策進 8.4729.72%2008 , 生活, 日記, 乾物女, 王建民, 照片, 部落格, 文章, 微軟, 台北, 台灣, 誠品, 美女, 日本, 人生, 軟體, 投資, 母親節, 禮物, 天空,
4CCB 2.0 (beta)8.0944.84%排骨, 賺錢, 音樂, 生活, 免費, 冰淇淋, 漢堡, 台灣, 科技, 下載, 照片, 遊戲, 同志, 客人, 緬甸, 手工, twitter, 左腦, 天堂, 奶茶,
5白文咪咪與小鸚KIKI-天空部落7.9165.67%語法, 外掛, 部落格, 草莓, 王建民, 時鐘, 2008 , 小玩意, 咖啡, 無名, 文章, 日本, 棒球, 天空, 遊戲, 減肥, 貼紙, 中華隊, 水果, 幸福,
6豬言豬語7.4668.10%英文, 台灣, 時間, 洪小玲, 遊戲, 台北, 香港, 軟體, 生活, 網頁, 文章, 設計, 不可以, 改機, 廣告, 空姐, 颱風, gadget, 手機, 微軟,
7GOOD VISUAL SYSTEM7.330.00%音樂, 2008 , 文章, 情色, 刺青, no, 英國, 電影, 結婚, 正妹, 生活, 新年快樂, 電子書, 遊戲, 桌布, 時間, 背景, 無名, 符號, 新年,
8amarylliss。艾瑪[隨處走走] -7.1764.09%餐廳, 咖啡, 2008 , 時間, 心得, 文章, 飯店, 生活, 照片, 電影, 部落格, 歐洲, 旅行, 殺人網站, 辣妹, 秘密, 無名, 台灣, 設定, 禮物,
9Dorcas ∞ ドルカス -7.0540.29%2008 , 婚禮, 淡水, 台北, 電影, 捷克, 交響情人夢, 音樂, 秘密, 東京, 不能說的秘密, 時間, 台灣, 下午茶, 免費, 淡水天元宮, 日劇, 天元宮, 生活, 結婚,
10愛麗絲夢遊部落格仙境7.0547.26%生日, 時間, 生活, 手工, 韓國, 團購, 女人, 台灣, 無名小站, 攝影, 無名, 免費, 禮物, 50嵐, 設定, 咖啡, 空間, 火鍋, 日本, 燦爛千陽,
11橘子也有部落格6.9135.17%
12聰明的投資者6.4153.26%
13 Gea-Suan Lin’s BLOG5.990.00%
14黃小黛‧IS LIFE.blog5.9641.76%
15Aspirant à la Liberté -5.9124.58%
16電影‧人生‧夢 -5.8637.02%
17圈圈's部落格 - Yam 樂多日誌5.8327.65%
18晚安! 203室5.5636.24%
19艾倫‧卡洛特5.5540.07%
20the Utopia - Yam 樂多日誌5.4821.33%
21Shary的如新生活 - Yam 樂多日誌5.4646.23%
22紅色★妮可5.3739.45%
23XXC@Blog5.2731.48%
24紅色長角三倍速5.2059.40%
25AK's Living - Yahoo!奇摩部落格4.790.00%
26放屁(Fun&Peace)4.7039.13%
27HOW’s SketchBook4.68109.02%
28Blog.XDite.net4.6154.99%
29Hi! I’m clsung4.6156.54%
30NBN - Nothing But Net4.5443.20%

當然除了列名次之外, 最重要的是這兩個部落格交集了那些關鍵字, 這邊只列出前 20 個關鍵字, 事實上是有照次序的, 但只是是列出關係的部落格的次序, 並沒有兩個加總~~~

只是這個關係代表的是甚麼, 是可以解釋為關心的議題的距離差異, 當然分數越高就越接近, 只是不只跟這兩個部落格的關鍵字的交集數有關, 也有做比例的調整 (Normalization), 希望可信度或意義度有出來....

這個關係在未來大概只會一個星期更新一次, 畢竟這變化沒那麼大, 且算一次也是須要一定的資源的~~