2022年9月6日 星期二

正則表達式 (Regular Expression - Pythex)

http://4rdp.blogspot.com/2022/09/regular-expression-pythex.html?m=0

暑假即將結束,Andy 終於開始碰電腦寫程式了,前兩個月每天瘋狂玩西洋棋,甚至自己找西洋棋教室當助教工讀,以及找國手指導棋藝,假日和一些棋友棋聚,不過現在想從 chess.comLiChess 網站,利用爬蟲程式爬出棋局資料,我想這應該是不錯的專案練習。

對爬蟲程式完全沒概念的他,我跟他說明網頁原始碼概念後,一天內就學會用 Python 抓出網頁原始碼,而解析網頁內容,他選擇正則表達式來處理,這已經超乎我的經驗與專長,本文主要做一個紀錄,有這麼一個東西,它可以更有效率處理字串,以後設計網路爬蟲程式不必再字串搜尋與擷取用土炮方法處理,回想二十年前個人就是這樣弄雅虎奇摩基金爬蟲程式。

正則表達式屬於資工領域的專業,最後附上 Pythex 正則表達式線上編輯器,興趣的朋友可以進一步研究。

延伸閱讀

沒有留言:

張貼留言