前言 這里以爬取博客園文章為例,僅供學習參考,某些AD滿天飛的網站太浪費爬蟲的感情了。 爬取 使用 BeautifulSoup 獲取博文 通過 html2text 將 Html 轉 Markdown 保存 Markdown 到本地文件 下載 ...
前言 通過 Python 爬取十萬博文之后,最重要的是要讓互聯網用戶訪問到,那么如何做呢 選型 從后台框架 前端模板 數據庫連接池 緩存 代理服務 限流等組件多個維度選型。 后台框架 SpringBoot JPA 前端框架 Vue 模塊框架 Thymeleaf 數據庫連接池 HikariCP 緩存 Redis 限流 Guava 代理服務 Nginx 文章編輯 Markdown 架構 博文 我們可 ...
2019-08-05 09:03 5 630 推薦指數:
前言 這里以爬取博客園文章為例,僅供學習參考,某些AD滿天飛的網站太浪費爬蟲的感情了。 爬取 使用 BeautifulSoup 獲取博文 通過 html2text 將 Html 轉 Markdown 保存 Markdown 到本地文件 下載 ...
、爬蟲造成大量空的命中,會對數據庫造成很大壓力 博客架構 案例分析 由於文章的地址是這樣 ...
前言 在開發十萬博客系統的的過程中,前面主要分享了爬蟲、緩存穿透以及文章閱讀量計數等等。爬蟲的目的就是解決十萬+問題;緩存穿透是為了保護后端數據庫查詢服務;計數服務解決了接近真實閱讀數以及數據庫服務的壓力。 架構圖 限流 就拿十萬博客來說,如果存在熱點文章,可能會有數十萬級別的並發 ...
前言 在十萬博文終極架構中,我們使用了Tomcat集群,但這並不能保證系統不會出問題,為了保證系統的穩定運行,我們還需要對 Tomcat 進行有效的運維監控手段,不至於問題出現或者許久一段時間才知道。凌晨一點這個鍋可誰都不想背,為此基於目前的情況搭建了以下這么一套監控預警系統。 架構圖 ...
前言 最近在做工作流的事情,正好有個需求,要添加一個附件上傳的功能,曾找過不少上傳插件,都不是特別滿意。無意中發現一個很好用的開源web文件管理器插件 elfinder,功能比較完善,社區也很活躍,還方便二次開發。 環境搭建 軟件 地址 ...
前言 在經歷了,緩存、限流、布隆穿透等等一系列加強功能,十萬博客基本算是成型,網站上線以后也加入了百度統計來見證十萬+ 的整個過程。 但是百度統計並不能對每篇博文進行詳細的瀏覽量統計,如果做一些熱點博文排行、48小時排行之類統計,還需要引入瀏覽量統計功能。 設計 通常情況下,我們只需要 ...
前言 在項目開發中,對於異常處理我們通常有多種處理方式,比如:控制層手動捕獲異常,攔截器統一處理異常。今天跟大家分享一種注解的方式,統一攔截異常並處理。 異常處理 在spring 3.2中,新增了@RestControllerAdvice 注解,可以用於定義@ExceptionHandler ...
前言 由於業務需要,需要在攔截器中操作Redis緩存,按照 controller,service層配置發現無法注入,一直報空指針異常。 解決方案 攔截器: 查詢原因 攔截器執行在Bean初始化之前導致這個問題的。在web.xml中各個元素的執行順序 ...