因為數年累積下來的垃圾讓光畫社的新聞Blog變得相當肥大,
現在找出元兇是plog_articles_comments和plog_bayesian_tokens這兩個資料表,
前者是包含一大堆垃圾迴響&引用的內容,
後面是貝氏過瀘所抓取到的token,
這兩個資料表在匯入資料庫之後就是一整個肥大。
首先利用vim將plog_articles_comments資料表中非正常迴響的欄位內容全部刪掉,
一共有4萬6千多篇的垃圾(正常的也才13篇…),
接著是清空plog_bayesian_tokens資料表,
因為也是超級多乾脆清掉讓它重新抓取,
最後再到plog_articles和plog_blogs兩個資料表,
將plog_articles資料表的num_trackbacks、num_nonspam_trackbacks,
和plog_blogs資料表的num_trackbacks共三個欄位直接清成0,
因為已經將所有的引用全部刪除,
所以這邊的資料也需要修改。
整個做完後資料庫空間佔不到2MB的空間,
原來之前有超過90%的空間都被垃圾佔去,
實在是很恐怖…