2009年12月10日 星期四

最新爆衝關鍵字


當然在部觀門一開站時, 就在想如何 "萃取" 出即時關鍵字的方式, 後來想出個 "泡沫法" 之後, 覺得這是相當實用的小技巧, 簡單就是較長的關鍵字若在較少的次數下, 可以被子字串給包含, 而在經過幾次的 "疊迨" 運算後, 就是最後的結果.. anyway, 聽不懂沒關係, 就是簡化及取出真正的關鍵字的方法, 而不被 "條件", "歧異" 的問題所充斥失去資訊價值.

只是這個演算法必須要一定的量才能運作, 且有時還是會有 "誤差", 所以最後用更多的條件來去降低錯誤, 所以最後的方法是:

1. 從大家貼的部落格觀察貼紙的來源萃取出搜尋引擎的關鍵字
2. 每小時取出前兩小時區間的資料來算出前 3 名關鍵字
3. 若這個關鍵字超過一定的數, 以及至少分散在 3 至 5 個部落格以上, 就開始比對資料庫
4. 資料庫若是沒有出現過這個關鍵字, 則是 "新爆衝關鍵字", 寫入資料庫
5. 現在會發一則噗在噗浪 keyword 這個帳號

畢竟像部觀門的關鍵字是以天為單位的去計算, 是用人工的 "工人智慧" 去選出值得觀察的關鍵字, 雖然這是個有效的機制, 但有時以天為單位還是不夠, 所以才想到用小時來去萃取.

2009年3月13日 星期五

昨天資料庫掛掉....

昨天因為未名的原因重開機? (或之前有掛掉) 所以資料庫沒有重啟, 早成資料沒有寫入資料, 因此昨天的點閱數沒有被記錄到, ...

影響所及的, 包含今天就沒有新增關鍵字了, 關鍵字數也很小, 昨天的關鍵字 widget 資料也容易是空著的..

但想明天應該 OK 了....

2009年2月22日 星期日

終於計算完畢了....

雖然上一篇 部觀門正式回復運作 說已經開始回復運作, 指的是關鍵字的關聯分析已經開始算到最初 10/15 當站時的資料了, 但後來新增的資料還沒追上進度, 那時是 02/06 我生日那時候, 而今天 02/22 我剛進去 Server 看算到那邊時, 居然已經停下來計算了, 重新跑一次還真的已經算完了, 這次又花了 16 天去追上約 1500 個關鍵字, 現在已經有 7000 個關鍵字了...

本來想說追上這須要重算的 1500 個關鍵字可能還要好幾個月, 但經過一些調整與改變, 半個月就追上了, ...

雖然此時部觀門點閱數已經降到:

點閱數七日移動平均: 14578
點閱數28日移動平均: 17153

但這不是重點, 至少加機器的事就可以先放在一旁, 準備做 otaku part 2 的案子了...

前幾天把一些關鍵字的連結都改了一下, 不知大家習不習慣, 至少這是有目的 的..

只是目前這部落格的 FeedBurner 雖然寫著 38 人訂閱, 我自己當然不會訂啦, 但這 38 人大概也不少跟我一樣是資訊狂吧... 我倒是很想知道有多少人會用這系統, 我開個 plurk 來回應好了...

2009年2月7日 星期六

部觀門的 ToDo 列表 (復原部份)

現在已經追上計算進度了, 所以快要有多餘的資源慢慢去建立與復原系統了, 所以開始要做事了, 目前有兩個主要工作:

關鍵字後台分析部份:

1. 迴歸分析
2. 最高時期
3. 週期分析
4. 點閱數的圖

這部份是維持關鍵字頁的正常運作, 目前還是有很多資料是不正確的.

除外, 目前最主要還是要把每日工作給自動化:

1. Rotate 分析資料
2. 計算熱門關鍵字
3. 傳檔 (1, 2)
4. 傳結果
=> 人工挑出須要觀察的關鍵字
5. 開始計算
6. 建立暫存資料
7. 寄送結果 (1, 2, 3, 4)

每天要下視情況 11 個指令 (分散在三台機器) 才能夠正常運作, 但若我一忙往往會 Delay 或忘記下一兩個指令, 所以還是要想辦法自動化...

接下來就是下一部更新改良的部份, 但不見得會在部觀門做, 而是在其他的地方做..

2009年2月6日 星期五

部觀門正式回復運作

10-16 停機
11-21 恢復運作
11-26 機器掛點
12-01 繼續運作
02-06 計算趕上每日進度

原本只是停機約 25 + 5= 30 天, 但為了趕上這 30 天的進度花了 31+31+6+5=73 天來趕, ...

基本上每天的工作如下:

1. 點閱數
2. 延伸關鍵字
3. 關鍵字最佳文章
4. 計算資料

然後這個動作包含計算昨日新關鍵字資料, 而最麻煩的就是點閱數與延伸關鍵字了...

通常點閱數要花 10 ~ 12 個小時來計算, 其中大部份都是花在算新的關鍵字的點閱數, 而昨天的點閱數往往只花不到 2 小時就可以算完, 相對的, 延伸關鍵字也是要花 10~12 個小時來計算, 其中也是新關鍵字算一個至少要 15~20 分鐘....

通常一個新關鍵字建立資料總共要花 40~50 分鐘, 也就是說只是讓資料維持運作, 一天增加的關鍵字不能超過 20 個, 不然就會算不完, 而一天算完通常也只留 1 個小時空檔, 因此這損失的 30 天, 代表損失了 680 個計算時間, 若一天追 1 小時, 完美的話須要 68 天以上才能追到, 當然這是不可能完美的, 所以花了 73 天才追上...

因此這部落格也大約當了 2~3 個月左右, 而過完年了, 也該努力了, 剛好進度也追上來了, ok, let's go~~~