1. 符合數量越多時, 自然是更高, 但不能成線性正比
2. 當一個關鍵字的字串長度越長時, 越難相符, 自然更顯著些
3. 一個關鍵字在所有的部落格量的比重也是要參考 (目前尚未寫入)
4. RSS 的篇數與長度也會影響計算的量 (目前尚未寫入)
但當時第三點與第四點是尚未寫入, 但當天晚上就改好了, 但這次又加入兩點:
5. 第四點的篇數當時不夠完整, 現在再度加強
6. 對於 keyword bomb 做了點個數的修正, 尤其是關鍵字出現的次數與比率~~
當然我知道 Data Mining 這種事最麻煩的是事後的 Tuning 到更精確, 因為資料的不定性太大了, 這部份的修改也是希望讓數值更貼近現實, 雖然這工作還有一大段路要走, 這包含資料的完整性~~~
我當然知道這個 "超準確" 是不可能的, 也只是要區分跟一些 "亂數" 所做出來的產生器做區別罷了, 倒不是說真的要做到甚麼準確, 而是真的有參考價值就夠了, 所以請以認真但不嚴肅的方式來看吧~~~~
沒有留言:
張貼留言