2008年8月14日 星期四

有關好好讀的來源

目前好好讀取自於 1000 個從不同來源取樣的部落格, 這包含部落格觀察名次高的部落格, 得獎的部落格之類的, 當然以後會越來越多, 但這些來源還是有些部落格比較難列入好好讀, 所以排除在外, 主要是兩個原因:

1. 大部份都是轉貼, 網摘的部落格
2. 太多涉及成人的話題的內容

以下是理論上應該有資格列進好好讀, 但最後沒有包含在好好讀的 BlogID, 向下面這些部落格說聲抱歉, ....

76373
212
19007
30407
43410
30636
15466
22605
29907
30404
28600
36385
27071
35284
31724
21767
166

目前的計算方式是從抓取列入清單的 1000 個部落格, 然後取三天內每個部落格最新的文章標題與內容, 然後用部觀門的關鍵字, 以及最近使用者搜尋的關鍵字, 以及特別加入的關鍵字來計算, 最後算出熱門度, 在使用者讀取時算出並進入暫存檔..

目前是每兩時算一次, 所以快取 (Cache) 也是兩小時計算一次, 所以看到的當然是四小時內最新資料, 但因為每一個部落格的時區都不同, 所以有些部落格的時間怪怪的, 但我認為在這種誤差不會超過天, 所以是可以暫時不用去管時區的問題....

最後, 這系統的最近會出 Widget, 但也是希望真的把算式調到一定穩定再說吧...

1 則留言:

Unknown 提到...
網誌管理員已經移除這則留言。