這個bug出現在一年前,當時自己大學還沒畢業,剛剛進入一家公司實習。那個時候還沒有用seajs或者requirejs那樣的模塊化管理的庫,也沒有用一個自執行的函數將要執行的代碼包裹起來,於是b ...
前段時間上了某論壇的技術討論區,習慣性的打開搜索看有沒有我需要的內容,一登陸賬號,發現自己被禁言了,連基本的搜索功能也被限制了。無奈只能手動的一個一個會找帖子。我去,竟然有 多頁,每頁有 第數據,這樣純手工的方式實在是太蛋疼了。 前段時間自己不是寫了一個小爬蟲嗎 於是我的個人論壇搜索器開始構建了。 一,整體構建 二,實際編碼 ,數據讀取編碼: 讀取網頁有很多種方法,第一讀取網頁我選擇的是最簡單的 ...
2012-11-17 15:59 9 3034 推薦指數:
這個bug出現在一年前,當時自己大學還沒畢業,剛剛進入一家公司實習。那個時候還沒有用seajs或者requirejs那樣的模塊化管理的庫,也沒有用一個自執行的函數將要執行的代碼包裹起來,於是b ...
0.序 我同學論文需要數據建模,想用爬蟲軟件爬取數據,就問有沒有人會用爬蟲軟件,我回了句:我不會用爬蟲軟件,但我會寫爬蟲。然后爬蟲事件就拉開了序幕。 1. 我同學要的數據是P2P借款人信息,她就選了翼龍貸上的數據,我先去瀏覽了翼龍貸網站,然后知道了數據的位置。先要進入產品列表 ...
事情的經過是這樣的: 一個夏日的午后,我在啪啪啪的敲代碼,正爽着呢,老大在背后拍了拍我的肩膀,說讓我寫個功能。 我說啥功能,他說:“operate 模塊那邊每次收到文件都會給你發一條消息。然后對消息進行計數,每隔一段時間,你把這個計數寫入一次數據庫。” 我說為什么。老大說對 ...
一次 ElasticSearch 搜索優化 1. 環境 ES6.3.2,索引名稱 user_v1,5個主分片,每個分片一個副本。分片基本都在11GB左右,GET _cat/shards/user 一共有3.4億文檔,主分片總共57GB。 Segment信息:curl -X GET ...
一:背景 1. 講故事 大概有11天沒發文了,真的不是因為懶,本想前幾天抽空寫,不知道為啥最近求助的朋友比較多,一天都能拿到2-3個求助dump,晚上回來就是一頓分析,有點意思的是大多朋友自己都分 ...
開發一個跨平台的項目的時候,大部分時候都是在VS下進行編碼,所以也就使用了VS的解決方案來管理項目。 因為要跨平台,當時網上看scons這個工具不錯,所以在linux下就使用了scons來作為編譯腳本。 linux(gcc)下與windows(vs)下的對於鏈接這一步稍有不同。當目標文件是一個 ...
【背景】 公司銷售談了一個重要的項目,與我們正在研發的一個產品關系比較大,可惜前期由於種種原因,耽擱了很長時間,等到我們研發部門知道消息的時候,已經很晚了。9月中旬啟動,11月下旬要求上線,按常 ...
前言 之前或多或少分享過一些內存模型、對象創建之類的內容,其實大部分人看完都是懵懵懂懂,也不知道這些的實際意義。 直到有一天你會碰到線上奇奇怪怪的問題,如: 線程執行一個任務遲遲沒有返 ...