2009年2月22日 星期日

終於計算完畢了....

雖然上一篇 部觀門正式回復運作 說已經開始回復運作, 指的是關鍵字的關聯分析已經開始算到最初 10/15 當站時的資料了, 但後來新增的資料還沒追上進度, 那時是 02/06 我生日那時候, 而今天 02/22 我剛進去 Server 看算到那邊時, 居然已經停下來計算了, 重新跑一次還真的已經算完了, 這次又花了 16 天去追上約 1500 個關鍵字, 現在已經有 7000 個關鍵字了...

本來想說追上這須要重算的 1500 個關鍵字可能還要好幾個月, 但經過一些調整與改變, 半個月就追上了, ...

雖然此時部觀門點閱數已經降到:

點閱數七日移動平均: 14578
點閱數28日移動平均: 17153

但這不是重點, 至少加機器的事就可以先放在一旁, 準備做 otaku part 2 的案子了...

前幾天把一些關鍵字的連結都改了一下, 不知大家習不習慣, 至少這是有目的 的..

只是目前這部落格的 FeedBurner 雖然寫著 38 人訂閱, 我自己當然不會訂啦, 但這 38 人大概也不少跟我一樣是資訊狂吧... 我倒是很想知道有多少人會用這系統, 我開個 plurk 來回應好了...

2009年2月7日 星期六

部觀門的 ToDo 列表 (復原部份)

現在已經追上計算進度了, 所以快要有多餘的資源慢慢去建立與復原系統了, 所以開始要做事了, 目前有兩個主要工作:

關鍵字後台分析部份:

1. 迴歸分析
2. 最高時期
3. 週期分析
4. 點閱數的圖

這部份是維持關鍵字頁的正常運作, 目前還是有很多資料是不正確的.

除外, 目前最主要還是要把每日工作給自動化:

1. Rotate 分析資料
2. 計算熱門關鍵字
3. 傳檔 (1, 2)
4. 傳結果
=> 人工挑出須要觀察的關鍵字
5. 開始計算
6. 建立暫存資料
7. 寄送結果 (1, 2, 3, 4)

每天要下視情況 11 個指令 (分散在三台機器) 才能夠正常運作, 但若我一忙往往會 Delay 或忘記下一兩個指令, 所以還是要想辦法自動化...

接下來就是下一部更新改良的部份, 但不見得會在部觀門做, 而是在其他的地方做..

2009年2月6日 星期五

部觀門正式回復運作

10-16 停機
11-21 恢復運作
11-26 機器掛點
12-01 繼續運作
02-06 計算趕上每日進度

原本只是停機約 25 + 5= 30 天, 但為了趕上這 30 天的進度花了 31+31+6+5=73 天來趕, ...

基本上每天的工作如下:

1. 點閱數
2. 延伸關鍵字
3. 關鍵字最佳文章
4. 計算資料

然後這個動作包含計算昨日新關鍵字資料, 而最麻煩的就是點閱數與延伸關鍵字了...

通常點閱數要花 10 ~ 12 個小時來計算, 其中大部份都是花在算新的關鍵字的點閱數, 而昨天的點閱數往往只花不到 2 小時就可以算完, 相對的, 延伸關鍵字也是要花 10~12 個小時來計算, 其中也是新關鍵字算一個至少要 15~20 分鐘....

通常一個新關鍵字建立資料總共要花 40~50 分鐘, 也就是說只是讓資料維持運作, 一天增加的關鍵字不能超過 20 個, 不然就會算不完, 而一天算完通常也只留 1 個小時空檔, 因此這損失的 30 天, 代表損失了 680 個計算時間, 若一天追 1 小時, 完美的話須要 68 天以上才能追到, 當然這是不可能完美的, 所以花了 73 天才追上...

因此這部落格也大約當了 2~3 個月左右, 而過完年了, 也該努力了, 剛好進度也追上來了, ok, let's go~~~