2008年12月1日 星期一

部觀門暫時開始運作~~~

目前狀況:

1. 新增關鍵字停在 11 月 24 日
2. 目前在計算在新增到 11 月 24 日的關鍵字點閱數
3. 關鍵字關係與推薦文章都還沒有開始跑, 也就是說停在 10 月 15 日

希望這次不要硬碟再掛掉, 不然就會翻臉了....

也希望下次的文章能夠寫得有意義些..

2008年11月25日 星期二

系統掛掉~~~~

現在部觀門因為機器掛掉的關係, 無法正常運作...
現在請 IDC 那邊重灌系統中, 等重灌後再進復元~~~

2008年11月20日 星期四

部觀門大搬家~~~

從 10/15 後, 部觀門處在暫停的狀態, 雖然宅度計, 好好讀看起來都很正常, 但少了一個資訊源後還是影響相當大...

所以經過了 5 天 4 夜的重新整理與計算, 慢慢的把資料轉到另一台國外的機器上, 也慢慢的數據更上進度, 我想再過 3 ~4 天的話, 把程式改寫, 部觀門就可以重新上了...

雖然我知道只有少數人了解部觀門是怎運作以及拿來做甚麼, 但這對網路觀察而言, 是相當重要的資料, 所以停擺了一個月, 很多資訊都有所沒有趕上, 現在就是要花一個星期左右來追上這失落的一個月了...

現在 Domain Name 正在轉換, 所以可能要到明天才會逐漸看, 而相關的資料派送, 也要有程式修改後跟上才行, 此時 "宅度計" 與 "好好讀" 等關鍵報告才能夠更有價值..

2008年11月13日 星期四

野草莓真的很熱嗎?

事實上有人問我說, 野草莓事件的確在部落格界是一件大事, 不只是幾個熱情網友的支持, 且在這種互動下讓這件事的效應越來越高...

但就好好讀的檢測來看, 野草莓事件從 8 月開始到現在, 就第一名時最高熱度只有 47 度, 就排名而言還輸給全球華文部落格大獎, 甚至要擠進前 3 名必須要超過 120 度, 目前前三名為:

第一名: 奧運, 156 度
第二名: 蘇麗文, 149 度
第三名: 颱風, 121 度

那前一陣子沸沸揚揚的陳雲林是以 111 引恨在第四名...

以下是目前前 20 名的列表, 最低分是墾丁與證交稅的 31 度, 甚至大家以為很熱的海角七號還排在 15 名說, 反倒是當時的 1025 遊行還跟搬家並列第 10 名...


當然部落格熱門議題跟社會議題是完全不同的狀況, 畢竟有時跟部落格或網路切身關係的題目會較高分, 例如 Google 一直是大熱門, 搬家與部落格大獎都是, 這些是跟社會比較沒有關係的...

但如此可以看得出來, 好像陳水扁都被壓著打, 雖然最高分時也蠻高的, 但總是有其他的話題去壓過他, 真不幸阿, 反倒是嗆馬與馬英九還排到前 20 名, 不知道是幸還是不幸阿?

2008年11月5日 星期三

部觀門維修中

事實上我在想有多少人因為部觀門沒有在運作傷腦筋的, 我承認我是一個, 畢竟像我這種有 "Johnny 5 syndrome" 的人, 看到 "Information" 的確會高呼, 若沒有部觀門, 我心中總是有個大石頭吊著~~

在 10/15 時, 部觀門就因為工作轉換的關係暫時停止營運, 但現在還在找資源恢復, 因為這系統是一個挺吃資源的東西, 雖然這個可以探知目前部落格界關心的事情與讀者關心的交集, 但由於資料過於龐大, 須要 2~3 台標準 5~7 萬的機器才能運作的順利....

在真正復原之前, 請大家以及我忍耐一下吧, ...

還是有誰有甚麼計劃與想法想提出的嗎?

2008年11月3日 星期一

陳雲林的話題性?

"面對我們友好祖國的特使, 不應該讓那些少數暴力激進份子, 來破壞兩岸和平的未來, 而是更應該攜手同心去促進台灣歷史新頁"

事實上我蠻意外陳雲林這次來訪的事件, 藍綠雙方有如此大的衝突, 或許在這時候大陸高層來台真的不是時候, 而馬英九又急著表現出對兩岸統一有無比的決心, 本來想說, 這也不算是壞事, 但一邊想要利用 "衝突" 來彰顯這議題, 但另一邊又用優勢 "警力" 想讓不同的聲音給壓下去, 造成這種狀況...

最近的最熱門部落格話題大約是如下:

10/1~10/3 (3天) 全球華文部落格大獎: 那時公佈初選名單, 大家總要宣誓一下
10/4~10/5 (2天) Google: 那時沒甚麼話題而言, 只好讓常用的話題出線了
10/6~10/12 (7天) 海角七號: 到現在還沒看的人就太超過了.. (阿, 我還沒看)
10/13 (1天) 誠品: 這種以知識份子跟中產階級為消費族群為目標的話題怎能不重要阿?
10/14~10/15 (2天) 工作: 說真的為甚麼那兩天大家都在討論工作我還不清楚
10/19~10/21 (3天) 搬家: 大家看到馬英九要搬家, 部落格也想搬家了
10/22~10/23 (2天) 張銘清: 一個人的小跌倒代表一大群人的大跌倒
10/24 (1天) 陳雲林: 張銘清話題消費完就該陳雲林出線
10/25~10/28 (4天) 遊行: 10/25 大遊行聽說有 60 萬人去走, 但在部落格只有 4 天效力
10/29~10/30 (2天) 陳雲林: 再追加陳雲林兩天
10/31~11/02 (3天) 旅展: 這個消費議題還是很重要的
10/3~ (?天) 陳雲林: 陳雲林第三次踏上排行榜首位, 真不容易阿...

接下來最近幾天的熱度為下:

陳雲林 歷史熱度

時間 熱度 文章
2008-11-02 62.7江陳會/陳雲林接待規格高 台聯民調:矮化
2008-11-01 29.6江陳會/馬若見陳雲林 呂:全民示威!
2008-10-31 33.1拍張陳雲林與中華民國國旗合照的照片
2008-10-30 47.6接受台媒聯訪 陳雲林為毒奶道歉
2008-10-29 39.5台北江陳會/籲馬別怕 7大工商團體挺陳雲�
2008-10-28 19.1總統受訪談陳雲林來台?府:可能範圍內安排
2008-10-27 19.1民進黨:陳雲林訪台時 白天嗆聲晚上守夜
2008-10-26 31.411/3陳雲林來台 台灣人向前衝
2008-10-25 29.6建議陳水扁,攔阻陳雲林的絕招,發情男女列
2008-10-24 18.7台北江陳會/馬怎見陳雲林?賴:身分是總統
2008-10-23 14.55成同意陳雲林來台 對執政黨不滿仍高
2008-10-22 14.1日媒競報導張銘清事件 關注陳雲林訪台動向
2008-10-21 16.3阿宅的上街頭相談室:抗議陳雲林的13種方法!

從這數字來看, 10月 25, 26 這兩天大概是因為遊行得關係有很高的話題性, 而從 29 號後, 已經是居高不下了, 說不定還會有新高的可能性, 而我看了一下新聞節目, 除了 TVBS 永遠的 "陳水扁案" 的討論外, 大家都在講陳雲林, 不知道是大家在追逐陳雲林的問題, 還是 TVBS 要表達台灣人民對陳水扁的深惡痛絕所造成的呢?

來研究一下吧~~~

2008年10月6日 星期一

偽不不 超進化版 格對 探知機

在說自定宅度計說很久了, 一直都沒做出來, 決定開始做了, 所以在洗澡時規劃了一下流程, ...

1. 每一個系統有自己的密碼來解密控制
2. 會自動化做前 300 名的部落格配對
3. 可以知道兩個部落格的關係度 (或以設計者來想像)
4. 設計者可以放自己的 Adsense
5. 登入者當然也可以取做 opt-in, opt-out
6. 貼紙就是排行榜或自己部落格在各探知機的分數囉...

然後就是名字了, 原本名稱是打算叫 "當我們宅在一起--自定宅度計產生器" 這個名字, 但這個名字真的有點遜, 所以想一個較好的名字吧...

因為這個算是 "部落" 的功能之一, 所以叫 "格對" 吧... 那既然聽起來像 "革對" 的話, 那就應該想到 Keroro 超劇場版, 所以就名正言順就取 "Webobo 超進化版", 因此就變成 " 偽不不 超進化版 格對 探知機".... 那網址名很自然就變成 webobo.datamining.tw 囉....

這樣的話, 看看那時候完成囉...

2008年10月1日 星期三

入圍年度最佳企業組織部落格-企業形象

有人要有壓力才能夠寫, 相反的我是有壓力時反而寫不下去, 打算去用這個部落格報名全球華文部落格大獎之後, 想說寫篇更不錯的文章再來報名, 但一想要寫好文章, 反而寫不出來了, 腦筋不是一片空白, 而是想太多, 多到不知如何下筆...

後來只好隨便挑三篇:
部落格的話題?
宅度計又是一個 SEO 檢核系統?
從部落格熱度來看奧運, 及部落格圈的關鍵字變化

這三篇不是多好的三篇, 只是再各個類別的內容有其意涵~~~
甚至我還寫出報名的短文:

來看關鍵字是部落格觀察中的部觀門, 部落格好好讀子計劃, 以及資料探勘計劃的宅度計與關鍵報告的官方個人部落格.
這四個計劃都是以 "關鍵字" 為出發, 因此稱為 "來看關鍵字".

雖說是官方部落格, 但並不是唯一代表官方說話的部落格, 而是由其參與成員之一的食夢黑貘,
自己對關鍵字及其這四個計劃的個人部落格, 但因為這計劃是以 "個人參與" 為出發點, 所以工作人員有各自的部落格經營,
且因為並沒有成立以計劃為單位的官方部落格, 所以每一個人都可以用官方的身份發表自己的想法.

部觀門是一個搜集部落格觀察使用者貼紙, 讀者對部落格所下的關鍵字記錄與整理.
宅度計是一個透過關鍵字判斷部落格的分類與屬性並計錄其歷史資料的系統.
部落格好好讀是算出目前 1000 大部落格的共同話題與熱度.
關鍵報告是一個關鍵字統整資訊.

此部落格希望成為一種網站創作中, 訴諸智慧人格權個人價值的宣告.

只是報名須要在 200 字內, 所以只好縮減一些...

而為甚麼要報名呢? 我是這樣跟幾個也有在經營官方部落格的朋友講的:

自己的部落格或許知道不夠好沒必要報名, 也沒有必要過於自我宣傳, 但官方部落格不只是要去宣傳原本的作品, 更要爭取任何曝光機會, 畢竟不只是為了這個部落格而已, 更不是只是為了自己~~

事實上我看來看去, 也是用這個部落格在這個類別說不定有脫頴而出的機會, 所以在 63 個部落格最後有 15 個部落格入圍, 比起大部份的十分之一的機會高了一些, 因為只有五分四的淘汰率, ...

我也知道這個部落格進到初選入圍不是問題, 到要進到決選的話可能還要加把勁... 所以還是多寫一些吧...

2008年8月31日 星期日

宅度計的關鍵字準備獨立

事實上在好好讀在做出來時, 就有所謂的獨立關鍵字的機制, 見沒有公開的 http://good.urs.tw/newkey.php , 目前有67 組外加的關鍵字, 來讓好好讀能夠有更貼近現實的呈現, 但宅度計一直沒有...

所以一直被垢病的就是 "2008", 這種數字, 以及 "台灣" 這個過於普遍被認為是地名的關鍵字等等的一些造成失效的關鍵字, 所以宅度計也必須該有這種正面與負面列表了..

正面列表在一開始就有規劃, 只是這個須要有對這分類的關鍵字有概念的人來設定, 例如可以規劃出一個 "日職棒球通" 這種東西, 或者是對像 "舞蹈類" 做更多關鍵字的設定, 畢竟部觀門有自己對關鍵字選擇的一套邏輯..

1. 單日搜尋量至少要 50 次以上, 且必須要有 3 個不同部落格被搜尋到...
2. 但若這個關鍵字出現在較多的部落格, 要求可能可以降到 20~30 次...
3. 必須要能夠跟之前有可辨識差異的能力..
4. 若足夠量到 100 次以上, 可以為了記錄不考慮重覆性...

事實上洋洋灑灑可以寫出 10 點以上, 但基本上還是由 "量" 來決定, 而不是為了辨識力, 這跟宅度計的目標差很遠..

當然原本還想寫 "你的部落格是藍是綠? 是左是右?" 等等, 但最大的問題是我個性的乖張, 還是希望有足夠的實務與理論基礎, 而不是純脆的趣味化而沒有價值...

所以慢慢的接下來真的會有幾個方向:

1. 延伸關鍵字, 包含在既有的分類或新分類
2. 部落格觀察 25 分類的完成
3. 部份關鍵字排除在宅度計的偵測
4. 建立專業的分類

然後事實上已經有 "達人" 的關鍵字投票互動系統的規劃, 甚至是自己設定關鍵字來記錄, 這個都會慢慢完成, 只是這種東西有沒有價值就見人見智了~~~

2008年8月30日 星期六

Feedburner 改版 ( Google 的企圖?)

這次大概是 Google 也想推動自己有關 Feed 的 Namespace, 就像是 Google Tool Bar 一樣, 所以原本一單純的 Feed, 現在就多了三組 NameSpace, 如下表:
xmlns:openSearch="http://a9.com/-/spec/opensearch/1.1/"
xmlns:gd
="http://schemas.google.com/g/2005"
xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0"
gd:etag="W/"AkQCQn45eSp7ImA9WxdaGEU.""

一個是 a9 推的 open search, 一個是 google 自己推的 google schemas, 另一個是 feedburner 自己推的 feedburner 的 name space...

比較好笑的是去看 http://schemas.google.com/g/2005 還是錯誤網址說, 事實上指的是 Sitemap 之類的 Namespace, 而 Open Search 的網址也換了, 這個也是輔助搜尋相關的功能, 而 gd:etag 也是 google data 想要推動的 tag 功能之一...

當然 Feedburner 這一個改版讓原本好好讀的 Parse 程式跟著失效, 所以又要改寫了, 所以最近這一陣子大家應該有看到很多 Feed 的標題都是怪怪的, 表示抓錯了, 所以剛剛把這問題修正, 所以在熱度上面的計算都多少有些問題, 但這問題過兩三天就會好了..

事實上我並不贊成在部落格觀察的 Feed 寫 Feedburner 的來源, 畢竟這把原本可以一手抓到資料的方式變成二手, 甚至在時效性會降低, 若沒有流量的考量沒必要為了 +1 個 feed 變成用 feedburner ...:)

只是這次 Feedburner 與所謂許多的 Google 的 Feed Proxy 等等的功能加強, 這代表的 RSS/Atom Feed 的應用在某方面因為 AJAX ( JSON ) 的 API 跟著加強, 能夠玩的東西更多了, 但面臨越來越複雜的 RSS, 已經越來越不 Really Simple 了, 讓我想到 RSS 1.1 與 RSS 2.0 的爭端, 對這有興趣的人可以自己去看~~

2008年8月24日 星期日

好讀指數

在之前, 我偷偷在這邊跟大家講目前 GR>=6 的部落格與最近成長不少的部落格有那些..

目前好讀為 6 的部落格
amarylliss。艾瑪[隨處走走] -
金柏妘
AV No.1 Blog
TVdeo - 免費線上電視機
魔鬼甄與天使嘉 -
阿榮福利味
彎彎~用漫畫寫日誌 -
SANA的網誌 -
AMYKAKU -
電腦玩物
osaki's Blog - 娛樂,網路,影片,Kuso,不可思議...
Christabelle的藝想世界

上面那個表並沒有按照分數排序~~~~
下面這個表是進步到 4 分以上的前 10 名~~~

最近成長不少的部落格原本
現在
海綾月兔兔認養專區4
5
Fun.New.Run.High. 放形浪駭34
水瓶面面書寫幸福 -34
寧靜海的銀色天空45
~Smilejean。紫色微笑~ :: PIXNET BLO34
Xuite日誌:簡睿隨筆 《科技篇�34
★雪倫★---Voulez-vous couchez avec 34
香腸炒魷魚45
BillyPan 的部落格45
花。水‧木34

基本上看起來還要做些調整, 例如就是對於點閱數的權重要放低一些, 大家快去看自己的好讀分數吧...

然後好讀指數是參考幾點算出一個部落格的意義:

1. 點閱數
2. 最近發文頻率
3. 獲獎的狀況
4. 部落格觀察指數
5. 一些部落格觀察沒有參考到社群活躍度
6. 其他

會採取這個數字最重要的原因是部落格觀察也太多盲點, 所以須要有一個更全面的指標來做為部落格選取的參考, ....

只是現在這指數還在做調整, 希望做到真正有參考的價值...

坐監服刑完畢 (又重新被 Google 信任了)

雖然知道, 判斷是否是 Link Farm (連結農場) 的演算法不難寫, 但說要誤判的機會是多大呢? 或者是說能夠操控的空間是多大呢?

上一篇文章事實上是發生在 7 月底到 8 月初的 Google Dance , 就發現這個部落格被丟進觀察名單, 只是平常知道這個觀察名單一坐就要坐兩三個月才對, 甚至是以半年做計算, 所以早就有不管這件事的覺悟, 畢竟這個部落格的 RSS/Atom 訂閱已經有 42 個人了, 且這個還不包含我, 所以說, 這樣寫, 至少有 40 個人會看, 因此即使只是為自己寫, 但看到有觀眾還是不一樣的...

但目前還有些事都還沒做:

1. 公布每個月部觀門的熱門關鍵字, 大家可以去翻舊文就知道
2. 本來這個部落格會每天寫出一組重要的關鍵字觀察, 但好像很久沒寫了

而我的確還是會持續寫下去, 只是可能頻率與心態會多少有所改變了...

當然還是多少也高興一下不到一個月就服刑完畢, 所以自認為自己做的是白手套且肯繼續是對的, 我原本還找人去 funp 幫忙推, 說這種自諷的文章應該可以拿到一顆星才對, 只是不好意思只有 5 個人推, 半顆星都拿不到~~~

的確這個事件直得給 SEOer 一個警惕, 但也可以證明內容夠充實, 很快就會復元了, 嗯, 下次來寫一篇有關 "好讀指數" 的文章吧, 至少要弄個 FAQ 才對,...

2008年8月22日 星期五

這個部落格被 Google 給 Ban 掉了....

這是一件很有趣的事, 在這次 Google Dance 之後, 這個部落格不只是 PageRank 被歸零, 甚至 "連結數" 也被歸零...

這個部落格當時只是我發現我為了研究網路行為, 花了很多時間在 "關鍵字", 尤其是在 "部觀門" 這計劃, 就建立了這個 "來看部觀門", 但在 "宅度計" 成立後, 就變成 "來看關鍵字"...

這個部落格也是我刻意想要推動的 "個人官方部落格", 畢竟這些計劃, 到底是歸屬於 MyZilla, 還是 "部落格觀察", 或是甚麼計劃, 我也不知道, 畢竟這大部份都是個人自己在玩, 也算是一種實驗的 Prototype (實驗原型), 即使是爾後我的工作要用這系統的核心做事, 這也都是獨力事件..

所以這些計劃, 我刻意除了自己唯一掛的 "只是捷運日記" 的連結外, 也掛了這個部落格的連結, 只是本來也是好好的寫, 沒想到一個 "豔照門" 事件把 "部觀門" 弄得大亂, 這個部落格也停下腳步, 所以從一月18號到 4月7號的 80 天, 只寫一篇文章, 但連結數卻持續著因為系統增加而增加, 就被 Google 認為是 Link Farm, 被打入黑名單...

事實上畢竟我寫作還是以內容為主, 不曾考慮過 SEO, 就像我都說, 我做的網站, 目前沒有 meta-data, 更沒有 sitemap, 甚至連 robots.txt 都沒寫, 就 SEO 教科書的觀點都是不及格, 但我相信只要有內容, 做得好自然在 "資訊獲取" 的概念是對的, 自然 SEO 就會起來...

所以這個站即使是被 Google 黑掉了, 的確是給大家一個警告, 若是沒有認真的產生內容, 即使你有系統幫你增加連結, 也是不被承認的, 我那一陣子的確是低潮期, 不要說是沒做新系統, 連新內容也沒有, 因此這對我也是個不錯的警惕~~~~

至少在某方面, 或許我該努力的不要讓這個部落格被 Google 認為是 Linking Farm, 所以在 copy and paste 一些表格時, 應該把連結拿掉, 不然真的被誤會就慘了...

2008年8月19日 星期二

第二次的部落格關鍵字關聯分析

上一次大約是算了 1 天多算完, 這次大約花了 3 天多, 主要是部落格數字變多了, 以及演算法稍微複雜了一些, ...

大家可以去宅度計看自己的 "配對榜", 我相信這次的準確度比之前好多了, 這也是我敢拿出來的原因, 雖然應該還是有改善的空間, 無論是演算法還是權重~~~

名次 名稱 關係度 絕對宅度
1MacBlog218.1468.49%
2放屁(Fun&Peace)17.9519.12%
3工程師級的顧問 / 【食夢黑貘】15.1967.30%
4Blog E15.0624.93%
5電影‧人生‧夢 -14.9323.52%
6豬言豬語14.7637.44%
7搖櫓水向天一方14.720.00%
8中時部落格-李偉文部落格14.6815.07%
9Duncan的網路日誌 -14.310.00%
10喲哪桑的軟體習作簿13.8632.51%
11宋東彬的部落格~蟲出江湖~爬向TVBS~我回來了!13.730.00%
12[ Blog Worker ] 工頭堅部落‧ 部落格臥客13.5247.47%
13CCB 2.0 (beta)13.5164.32%
14不取於相,如如不動 - Yam 樂多日誌12.8016.53%
15 終極邊疆BLOG12.7957.08%
16玉里書12.6629.94%
17抬起尊臀去敲門12.4120.99%
18Hi! I’m clsung12.260.00%
19紅色長角三倍速12.2634.16%
20生活在臺灣12.2190.98%
21Richy's 減肥部落格11.9773.53%
22 遊戲噗 11.9318.98%
23宣和EVA的交換日記 - Yam 樂多日誌11.5726.54%
24美艷派可愛風惡搞系人間 - Yahoo!奇摩部落格11.4950.47%
25Think of Joe - Yam 樂多日誌11.3927.69%
26張小P 過生活 - Yam 樂多日誌11.200.00%
27晚安! 203室10.8821.11%
28Soy Milk and Fried Bread Stick 豆漿和油條10.840.00%
29不自量力 の Weithenn10.4841.37%
30媒觀系10.4552.85%

上表是這個部落格的前 30 名的關鍵字關聯的排行榜, 整體看起來都還算可以接受, 但或許如在 "今天, 這個部落格的關鍵字關聯分析" 所說的, 那樣, 還要再更新完所有資料後, 時間性才會出來...

目前你的部落格是跟誰有關聯呢? 大家去看看吧...

2008年8月18日 星期一

從部落格熱度來看奧運, 及部落格圈的關鍵字變化

這幾天一直觀察奧運的熱度, 我些列出來目前的狀況好了...

日期奧運熱度第二名話題
熱度
08/18
41
華原朋美
23
08/1757
華原朋美23
08/1695
陳水扁
22
08/15128
民進黨
20
08/14156
Microsoft
17
08/13135
福建
21
08/1289
google
17
08/1181
星光大道
24
08/10123
馬英九
27
08/09148
情人節
50
08/0890
情人節
86
08/0766
情人節
50
08/0666
減肥
18
08/0558
減肥
44
08/04
42
減肥
42

從上表來看, 看得出來有兩波高鋒, 第一波就是開幕式到舉重奪得到兩個銅牌, 但隨著射箭隊失利後, 就開始冷卻了, 一直等到棒球開打到輸給中國隊, ...

在 8/4 之前第一名的不是奧運, 這個可以看前面的文章就知道, 那時是星光大道與超級偶像的天下...

在其中有幾個關鍵字曾經是第二高, 從這邊也可以看得出幾件有趣的事..

1. 減肥這話題總是部落格的長青樹, 除非有較有趣的話題, 不然這個很容易保持一定的熱度

2. 情人節這段期間必然是部落格熱門話題

3. 在 8/10 時, 還迷漫著倒馬的馬英九話題, 但在 8/15 話峰一轉變成陳水扁變落水狗

4. 因為前一陣子有一群部落客被邀請到福建參訪, 所以在 8/13 變成熱門話題, 雖然也是只有幾個人就夠了..

5. google 與 microsoft 的一舉一動都很受到部落格圈的重視

6. 最近大概是華原朋美的新聞不斷, 加上剛好她生日, 所以~~~

基本上我這個人最喜歡量化, 但從這量化的確可以看到一些質化有趣的事, 尤其是時事的脈動在主流媒體與非主流媒體之間的差距, 是相當有趣的...

2008年8月14日 星期四

有關好好讀的來源

目前好好讀取自於 1000 個從不同來源取樣的部落格, 這包含部落格觀察名次高的部落格, 得獎的部落格之類的, 當然以後會越來越多, 但這些來源還是有些部落格比較難列入好好讀, 所以排除在外, 主要是兩個原因:

1. 大部份都是轉貼, 網摘的部落格
2. 太多涉及成人的話題的內容

以下是理論上應該有資格列進好好讀, 但最後沒有包含在好好讀的 BlogID, 向下面這些部落格說聲抱歉, ....

76373
212
19007
30407
43410
30636
15466
22605
29907
30404
28600
36385
27071
35284
31724
21767
166

目前的計算方式是從抓取列入清單的 1000 個部落格, 然後取三天內每個部落格最新的文章標題與內容, 然後用部觀門的關鍵字, 以及最近使用者搜尋的關鍵字, 以及特別加入的關鍵字來計算, 最後算出熱門度, 在使用者讀取時算出並進入暫存檔..

目前是每兩時算一次, 所以快取 (Cache) 也是兩小時計算一次, 所以看到的當然是四小時內最新資料, 但因為每一個部落格的時區都不同, 所以有些部落格的時間怪怪的, 但我認為在這種誤差不會超過天, 所以是可以暫時不用去管時區的問題....

最後, 這系統的最近會出 Widget, 但也是希望真的把算式調到一定穩定再說吧...

2008年8月11日 星期一

新增模特兒分類

距離上次增加新分類已經是兩個多月的事了, 這次特地邀請到對模特兒與 show girl 都很專業的 wisely 來幫忙審視這些關鍵字的這個類別...

畢竟演員藝人不代表一定是模特兒或模特兒出身的, 自然也會排除 AV 女優出身的, 當然我是不太了解 wisely 是用甚麼標準啦, 但我是相信他的專業..

大家有空也可以去他的部落格看看...Wisely's 拍拍照.寫寫字, 但我猜他可能無法在這分類獨占螯頭, 畢竟他的部落格有部份美食, 部份攝影以及模特兒與 showgirl, 不像有些部落格, 如 beautypaper 等都是以這分類為主的, 但不一樣的是 Wisely 的照片都是他自己拍的, 跟那些部落格純脆收集的方向是不一樣的, 自然以原創為主的部落格在這方面會較吃虧一點...

說真的, 在好好讀與宅度計等最大的問題就是要解決何謂原創或者是 "轉貼" 甚至是 "侵權" 等等, 這些可能都還是要靠人工吧..

最近突然多了不少 feedburner 的訂閱, 所以再加註以前說過的話, 這個分類的排行必須要等到一星期到兩星期後才會穩定, 這段時間只能做參考...

2008年8月9日 星期六

部落格好好讀前五名的變化

這些資料, 目前是放在 "部落格頭版備存" 上面, 大家想不開可以訂閱, ....

若是以一天來看, 所謂的前 10 名的話題從早到晚變化不大, 但若是以幾天為單位來看, 事實上還是有變化的, 我來整理這八天的變化來看看..

8/1: 星光3, 心理測驗, 減肥, 颱風, 瓦力
8/2: 星光3, 黃靖倫, 星光大道, 籃球火, 徐佳瑩
8/3: 超級偶像, 減肥, 煙火, 超級偶像2, Code Blue
8/4: 奧運, 減肥, 命中注定我愛你, 煙火, 籃球火
8/5: 奧運, 減肥, 命中注定我愛你, 塔羅, 夜市
8/6: 奧運, 北京, 減肥, 情人節, 加拿大
8/7: 奧運, 情人節, 七夕, 北京, 棒球
8/8: 奧運, 情人節, 七夕, 北京, 父親節

首先要說明一下, 像為甚麼星光3 與星光大道跟超級偶像與超級偶像2 會同時存在呢? 因為在關鍵字的選取關係, 星光大道與超級偶像是屬於電視電影類別, 而星光3與超級偶像2在所謂的集數算是有時效性的話題所以不是在電視電影分類, 所以才會這樣子的結果...

前三天可以說是星光與超偶的日子, 此時颱風已經逐漸退燒, 而奧運在變成主要主題時, 兩個節日的話題性也增加, 就是情人節與父親節, 果然是相當應景的..

但這個以較意義並不大, 所以我會再加寫變化量, 不是單純的以總量來看, 這樣每日才會有變化, 不是五天才會變化一次~~

2008年8月7日 星期四

宅度計的計算改變

有些人發現宅度在最近一次的計算, 有 8 成的人分數大為下降, 但也有兩成的人宅度上升到新高, 這個改變最主要是針對發表文章的時間做權重的計算...

也就是說, 若一陣子都沒有新文章, 隨著時間的推移, 原本文章的權重會逐漸降低, 雖然不至於會變成零, 但若真的超過很久沒寫的話, 這個宅度自然就會變很小到看不見, 若不到 0.5 的話, 自然看起來就是零了 (因為會進位)...

相較的, 在部落格達人(權威部落格)的部份, 也會因為分數的不同, 讓每次計算時多了些變化, 也就是說, 原本只有當選或沒有當選, 此時還多了個 "當選次數", 畢竟要一直維持這個關鍵字的熱度不是那麼簡單, 像黑貘來說而言, 其達人代表為:

名次 名稱 第一次 最近一次 當選次數
1Web 2.02008-08-042008-08-041
2web2008-08-042008-08-041
3部落格2008-08-042008-08-041
4部落格觀察2008-06-202008-08-044
5SEO2008-06-092008-06-102
6宅度計2008-06-042008-08-044
7排行榜2008-06-042008-06-052
8食夢黑貘2008-06-032008-08-044

這代表說, 像宅度計, 食夢黑貘, 部落格觀察這三個字是最為權威的 (這是廢話), 而 SEO, 排行榜也有 2 次, 而最近 web 2.0 等三個是剛入選, 當然以後會以次數做排序, 因為當時並沒有當選次數...

這資訊可以在宅度計中每個部落格的 "達人" 選單看到, 也列出最近抓的一次的關鍵字數目, 只是這數目已經有經過時間的 Normalization 了, 不是真正的純數字...

而未甚麼會有少數人增加呢? 因為雖然大部份的次數都會因為時間而有權重而降低, 但反倒是在一定時間內文章內容會因為夠新而會有微幅上升, 但這個並不多是真的...

而想知道自己在那些關鍵字或領域是達人或權威嗎? 快去宅度計查查看吧...

2008年8月5日 星期二

部落格的話題?

有時我都覺得看新聞與看部觀門是相當有趣的, 此時至少有四個族群對一些事情有些不同的看法:

1. 大眾媒體新聞從業人員
2. 部落格寫手
3. 部落格讀者
4. 所有讀者

當然在去年初時, 開始研究搜尋關鍵字的脈動的時候, 我已經發現主流媒體對一些新聞處理的重視度跟讀者想要知道的東西有很大的落差, ....

在做出宅度計後, 更可以看到部落格讀者與寫手的關係, 而這四個族群不只面對一個話題事件處理的態度與比重不一樣, 甚至時間上有些交互關係, 例如大部份的政論都是由上而下, 而一些消費話題都是由下而上, 都會有一個有趣的時間軸~~~

甚至是我們可以劃分出一個有趣的事:

1. 重度部落客: 會積極參與部落圈活動, 或者是時常參與網摘的系統的人, 以及一群很有目的想要從網路賺錢的人.

2. 一般部落客: 只是純脆寫些自己的想法, 很少使用社群網摘書籤的系統, 更不會參與部落圈的活動的人. (通常也是一般部落格讀者)

當我把 "部落格好好讀" 給一些朋友看之後, 他認為這個正好可以表現出一般部落客對時事話題的比重, 而非經過活躍的重度部落客炒作的結果, 雖然這並不完全是我追求的目標.

就像是 BOF 及 Punch Party 可以說是部落圈重要的大事, 去網摘看的話, 可能是一大堆相關的文章, 但從 "部落格好好讀" 來看, 又承現不同的風貌.....

只是像 "全球華文不及格大獎", "台灣部落格大獎" 或 "[BOF]", "Punch Party" 等, 基本上是無法被列到部觀門的觀察列表, 因為太少人去搜尋了, 但在設計好好讀的時候, 本來就考慮這些部落格圈的特定議題或關鍵字的計算, 以及突發事件, 而最後算出現在部落格最夯的話題為:

名次 話題 熱度 分類
1奧運46時事話題
2減肥42
3命中注定我愛你36電視電影
4煙火22
5籃球火20電視電影
6超級偶像218時事話題
7超級偶像18電視電影
8非凡美食大探索16電視電影
9星座運勢14星座命理
10霹靂14電視電影
11夜市14美食店家
12Code Blue12電視電影
13環島12旅遊地名
14星光大道10電視電影
15北京10旅遊地名
16心理測驗10
17中華隊8運動類
18全球華文不及格大獎8時事話題
19大稻埕8旅遊地名
20高鐵8
21MLB8運動類
22倒馬8時事話題
23減碳6時事話題
24台灣部落格大獎6時事話題
25演唱會6音樂類
26京都6旅遊地名
27賴銘偉6人名團體
28煙火節6時事話題
29達人6
30康子與健兒6電視電影

而 BOF 在這邊是 4 分, 沒辦法進去排行榜, 雖然最高也曾到 6 分過, 只是那時第 30 名是 8 分, ...

但從這邊就可以看得出來, 新聞, 網摘 (funp, myshare, hemidemi), 部觀門, 跟這個好好讀的差異, 剛好表現出一般部落客(通常是讀者)與其他三種族群取向的不同, 只是這系統還未臻完善, 離真正的自動化以及全面化還有段距離, 嗯, 再看看吧....

系統出問題~~~~

應該是說昨天吧, 因為某人下載資料的關係, 造成連線對外都有問題, 所以重整所有的系統, 但此時造成一些問題:

1. 宅度計換 IP, 所以有些人在這一兩天連不上....
2. 貼紙搜集也在 8/4 14:30 到 8/5 2:30 這 12 小時沒有記錄到
3. 部觀門在這段時間也多有錯誤

除了第 1 點外, 第 2, 3 點目前已經恢復正常了~~~~

2008年6月5日 星期四

[Call for Help] 部落格入口計劃真正啟動!!??

部落格觀察有 20 個分類,
|心情日記|美食|圖文|寵物|音樂|旅行|影像|動漫遊戲|文學創作|藝術設計|運動健康|電影電視|閱讀文摘|資訊科技|網路應用|社會評論|財經投資|偶像名人|親子家庭|星座命理|

宅度計主要是 8 分類,
|人名團體| |電視電影| |網站軟體| |美食店家| |動漫遊戲| |廠商產品| |旅遊地名| |時事話題|

當然有些人知道還有所謂的追加分類
| AV女男優 || 3C商品類 || 攝影類別 || 音樂類 || 運動類 || 電影類 || 政經社會 || 日劇通 || 韓劇通 || 舞蹈 || 閱讀文學 || 星座命理 || 汽機車 || 線上遊戲 || 網管程設(IT) || 手機 || 筆電 || 歌曲 |

而目前部落格觀察這 20 分類是以經驗所整理出來的, 但相對部觀門是由使用者行為整理出來的, 且這些分類都是後設的...

目前有一個非常大, 且相當有用的工程, 就是整理出部觀門的關鍵字對應部落格觀察的 20 項分類的關鍵字類別..

這個有甚麼重要呢? 目前部落格觀察的分類是由使用者自己去決定的, 一時沒有個分析系統, 但若這個整理出來的話, 系統自動分類就相當可行也可以有 80% 以上的準確度也說不定, 讓 Blogger 做一個基本的自我檢視~~~~~

當然之後會有一個小計劃, 叫 DR 計劃, 也就是 DaRen (達人) 計劃, 是由前一篇的 "權威" 部落格所導引出來的, 在 otaku 這樣的交錯結果, 若真的配合 "好讀指數", 會是一個相當有趣的部落格入口, ....

有誰會有興趣一起來參與這計劃呢?

2008年6月4日 星期三

[宅度計] 關鍵字的主要部落格

在宅度計每一個部落格的資料中, 有一個 "資訊" 的欄位, 那個會放這個部落格的基本資訊, 目前第一筆資訊就是 "這個關鍵字最主要的部落格".....

這個主要的意思在某方面是 "達人" 或者是 "地位", 也就是這個部落格在這個關鍵字有不錯的表現, 只是這個表現包含這部落格的表現, 比重, 密度等等的幾個數字算出來的結果...

所以在每個關鍵字也會顯示出這個列表, 而每個部落格也會列出在那幾個關鍵字被列為代表部落格, 但可能只會列出最近被列入的 12 個關鍵字或最近 12 個部落格...

舉個例子來說, 走過的、學過的、看過的
名次 名稱 目前次數
1GRD16
2lightroom33
3Debian15
4adobe29
5RSS23
6sigma28
7feedburner17
8freebsd16
9wordpress22
10mybloglog16

我剛看了一下, 這個部落格的確在這 10 個關鍵字的確具有權威的地位沒錯~~~

而這個宅度計目前的主要部落格是: 來看部觀門, 黑貘來說, 我想這也不會有問題吧....

[宅度計] 更新週期確立

在上一篇 "更新週期" 有提到一些原則, 但現在已經真的有開始在算了...

1. 有貼貼紙, 且三天內有點閱記錄者, 更新週期為三天.
2. 有貼貼紙, 但三天之內無點閱者, 且貼紙數超過 3000 者更新週期為十四天.
3. 部落格觀察有認領過者, 更新週期為七天.
4. 部落格觀察排行榜在 3600 名者, 更新週期也為七天.
5. 部落格觀察排行榜在 12000 名者, 更新週期為十四天.
6. 不在上述條件的部落格, 不主動更新...

但上面出現兩個奇怪的數字是 3600 與 12000, 最主要我們知道部落格觀察的名次有 20% 的跳動, 所以原本應該是 3000 名與 10000 名, 追加 20% 上去, 所以才會有這奇怪數字~~~

當然上述是希望能夠認領或有用宅度計貼紙讓系統知道真的有在用, 我們才會持續的去更新計算, 畢竟這個系統目前沒有把握能夠持續更新所有的資料~~~~

目前貼紙使用超過 100 次的部落格有:

透明藍樂摸 - 11401
花水木 HANAMITSUKI - 6934
熊瓶、網路、部落格 - 4703
愛麗絲夢遊部落格仙境 - 4642
花。水‧木 - 4129
Vista 2.0 - 維斯塔日記 - 4113
法洛猛的天空球場 Falohmum's Sky Field - 3355
來看部觀門 - 2466
平常心 - 天空部落 - 1533
黑貘來說 - 1457
喃喃自語,一直是我的拿手強項 - - 769
*憂鬱の水藍色天空* :: PIXNET BLOG :: - 662
海島上的貓 - 659
只是捷運日記 - 644
邁向御宅族之路 - 樂多日誌 - 597
不是捷運日記 - 544
藍光的吃沙發休息室 - yam天空部落 - 521
Zeroplex 生活隨筆 - 495
Siren的愛美天地 ::PIXNET 痞客邦:: - 359
黑輪的Blog - 298
羚羊窩 - 150
一晌貪歡 ::PIXNET 痞客邦:: - 110

感謝上述部落格支持這計劃~~~

2008年5月30日 星期五

[宅度計] 新增歌曲類別....

當時在做部觀門八大類別的時候, 有關單曲與專輯的部份放進 "時事話題", 因為這種東西蠻有時間性的, 而原本也打算把 "書籍" 也放進去這個類別, 但當時好像能夠進排行到可以觀察的只有 "哈利波特", 所以也作罷~~~

但後來有了音樂類的選項後, 把所有藝人, 單曲, 專輯放進去, 結果這分類變成是跟 3C商品一樣成為大分類, 所以在某方面判別不出來...

我前幾天在黑貘來說寫了 "Way back into love", 提到部落格搜尋單曲的排行榜, 但這是用手整理的, 所以我就跟花水木講, 問她是否能夠整理一份單曲的關鍵字列表, 所以這系統就這樣起來了...

所以這樣的話, 部落格單曲排行就成行了:

1. 鬥牛要不要 (119/0)
2. way back into love (45/5)
3. bizarre love triangle (33/1)
4. 關於情歌 (26/0)
5. 你是我的眼 (19/44)
6. 揮著翅膀的女孩 (14/1)
7. 鬥牛‧要不要 (13/0)
8. 愛情轉移 (11/10)
9. 明天會更好 (8/5)
10. 聽說愛情回來過 (8/1)

但現在最大的問題是, 有些是電影電視劇名以及不同的寫法問題還是要解決....

2008年5月28日 星期三

[宅度計] 追加宅度權數調整

在上一篇有提到各項追加類別的數目,所以也跟著調整權數:

9. | AV女男優 |: 63 / 3 => 3
10. | 3C商品類 |: 212 / 2 => 1.5
11. | 攝影類別 |: 55 / 4 => 3.5
12. | 音樂類 |: 265 / 2 => 1.5
13. | 運動類 |: 77 / 3 => 3
14. | 電影類 |: 121 / 2.5 => 2.5
15. | 政經社會 |: 152 / 2 => 2
16. | 日劇通 |: 71 / 3 => 3
17. | 韓劇通 |: 35 / 4.5 => 4.5
18. | 舞蹈 |: 7 / 5 => 6
19. | 閱讀文學 |: 41 / 4.5 => 4
20. | 星座命理 |: 21 / 4.5 => 5
21. | 汽機車 |: 40 / 3.5 => 4
22. | 線上遊戲 |: 29 / 4.5 => 4.5
23. | 網管程設(IT) |: 88 / 3 => 3
24. | 手機 |: 41 / 3.5 => 4
25. | 筆電 |: 40 / 3.5 => 4

因為資料庫儲存的都是原始分數, 都是之後再去乘上這個 Factor 乘數, 所以對舊歷史本來就沒有影響, 最主要是用來顯示的結果不同罷了~~

[宅度計] 新增手機, 筆電兩個分類 (目前分類個數)

這也是一直要做還沒做的, 就是手機與筆記型電腦的宅度計, 這次是由 "透明藍樂摸" 獻出他的時間完成的...

目前這兩項初期都剛剛好是 40 種, 所以比重是 3.5, 但因為是剛加進去, 所以目前兩個都沒有破百的部落格..

1. |人名團體|: 559
2. |電視電影|: 284
3. |網站軟體|: 429
4. |美食店家|: 447
5. |動漫遊戲|: 224
6. |廠商產品|: 383
7. |旅遊地名|: 215
8. |時事話題|: 346

9. | AV女男優 |: 63
10. | 3C商品類 |: 212
11. | 攝影類別 |: 55
12. | 音樂類 |: 265
13. | 運動類 |: 77
14. | 電影類 |: 121
15. | 政經社會 |: 152
16. | 日劇通 |: 71
17. | 韓劇通 |: 35
18. | 舞蹈 |: 7
19. | 閱讀文學 |: 41
20. | 星座命理 |: 21
21. | 汽機車 |: 40
22. | 線上遊戲 |: 29
23. | 網管程設(IT) |: 88
24. | 手機 |: 41
25. | 筆電 |: 40

這數字跟大家想的是否差不多呢?

2008年5月26日 星期一

[宅度計] 新增線上遊戲與程設網管(IT)分類

很久沒有增加新的追加分類了, 因為整理一個分類往往要話上數小時, 是相當累的, 做過的工作人員都知道, 這次增加兩項分類.

線上遊戲是包含跟線上遊戲相關的資訊, 而這線上遊戲並不限定一定要 RPG, 像 CS, Diablo, 星海爭霸都算, 甚至 CGI Game (Web Game) 中的 Travian 等也包含在內, 目前已經有 29 個關鍵字被包含在這分類.

而 IT 網管與程設, 主要是對於一般使用者碰不到的專業術語, 非個人使用的程式, 設備, 概念, 只要在 IT 範圍之內的關鍵字都算, 但相對的一些常用的軟體, 網站, 廠商, 或者是以消費市場為主的設備, 都不算其中, 雖然目前是有 88 個關鍵字在內, 但隨著時間的定義, 還會更精確一些~~~

當然這個準不準呢?

我看 IT類 的排行榜, 目前前 10 名是:

名次部落格宅度關鍵字
1SeekING Bernie32.3 度程式
2Abin's Tech Note29.5 度程式
3gotoAndPlay()26.4 度線上掃毒
4Racklin's 阿土伯程式大�25.1 度javascript
5 真‧他媽的21.9 度虛擬主機
6科技 - 尤加利 @ Blogger21.5 度程式
7工程師級的顧問 / 【食21.0 度程式
8DearHoney 數位音樂工作�20.0 度程式
9程式設計人手札20.0 度程式
10阿榮福利味19.5 度免費防毒軟體

我是覺得頂多只有 1~3 個可能還是偏大眾或消費性報導或心得的, 但大部份真的是在職專業的人寫的, 所以只要再多做點調整, 我相信會更準了~~~