暑假即將結束,Andy 終於開始碰電腦寫程式了,前兩個月每天瘋狂玩西洋棋,甚至自己找西洋棋教室當助教工讀,以及找國手指導棋藝,假日和一些棋友棋聚,不過現在想從 chess.com 和 LiChess 網站,利用爬蟲程式爬出棋局資料,我想這應該是不錯的專案練習。
對爬蟲程式完全沒概念的他,我跟他說明網頁原始碼概念後,一天內就學會用 Python 抓出網頁原始碼,而解析網頁內容,他選擇正則表達式來處理,這已經超乎我的經驗與專長,本文主要做一個紀錄,有這麼一個東西,它可以更有效率處理字串,以後設計網路爬蟲程式不必再字串搜尋與擷取用土炮方法處理,回想二十年前個人就是這樣弄雅虎奇摩基金爬蟲程式。
正則表達式屬於資工領域的專業,最後附上 Pythex 正則表達式線上編輯器,興趣的朋友可以進一步研究。
延伸閱讀
沒有留言:
張貼留言