(仿)火車頭采集器 源碼開源


菜鳥作品,不喜勿噴

前兩年自己花了很久想仿制一款火車頭采集器

然后也付出了很多努力,最終未能修成正果

代碼一直在電腦中吃灰,本着無私奉獻的精神

免費開源,給有需要的人參考和完善

軟件功能大部分都已實現

  • 任務新建和編輯
  • 網址采集
  • 標簽編輯
  • 數據采集
  • 數據發布
  • 發布配置的修改,編輯和測試
  • 發布模塊的修改和編輯

 

 

先上一些效果圖

運行效果

主窗口

 

 

任務窗口

 

 

 

采集內容

 

 

 

網址采集

 

 

 

發布選擇

 

 

多級網址采集

 

瀏覽器獲取信息

 

標簽編輯(這個部分耗時比較久)

 

 

 

接下來是發布部分

 

發布配置

 

 

 

發布模塊

 

發布測試

 

 

 

開發日志(當時手機記錄的,比較長,可跳過,下載地址在最后)

5.23
[窗口]主界面布局
[窗口]信息提示窗口
 
 
5.24
[窗口]任務分組列表
[新增]任務列表實現保存和讀取
[優化]主界面窗口尺寸自適應完善
 
 
5.25
[新增]分組增加,刪除以及修改功能實現,已xml文本形式保存文件
 
5.26
[優化]分組增刪改重寫,改用sqlite3
 
 
5.27
 [窗口]采集任務第一步布局
[窗口]動態提醒幫助窗口
[控件]PicMenu——菜單選擇改變文本框
[窗口]網址添加(半成品)
 
5.28
 [控件]高亮顯示編輯框
[控件]lable——選項修改代碼框
[窗口]添加采集地址添加窗口布局完成
[新增]網址添加部分各個規則生成預覽完成
 
5.29
 [優化]重新優化代碼高亮編輯框,更多屬性和配置,更多展現組合方式
[新增]任務編輯基本信息讀取(標題,備注等)
[窗口]多頁管理窗口布局完成
[新增]多頁管理網址替換和源碼中提取
 
5.30
[新增]GAC瀏覽器支持Xpath,可視化選取采集元素,支持多選和單選,網址自動糾正
 
5.31
[窗口]添加任務第一步全部布局完成(尺寸自適應)
[新增]通過xpath獲取網址
[優化]代碼高亮,支持post隨機值和分頁
[代碼]新增獲取規則網址列表(待測試)
 
6.1
[窗口]第一步讀取配置信息完成
[新增]多級網址規則增刪改
[新增]POST參數增刪改
[新增]自動獲取網址鏈接
[新增]手動獲取網址鏈接
[新增]GET和POST方式獲取鏈接6.2[新增]多級網址支持標簽
[新增]支持附加參數
[新增]列表分頁獲取
[核心]獲取網址列表(一級網址)
 
6.3
[新增]獲取網址列表支持Xpath
[新增]測試地址采集結果,實時狀態
[新增]測試結果的導出,復制,瀏覽
[新增]獲取網址列表支持多級
[新增]檢測重復網址
[新增]多級網址只測試第一級
[新增]網址列表結果支持標簽
[優化]瀏覽器獲取cookies自動跳轉第一個網址
 
6.4-6.9暫停開發六天
 
6.10
[優化]網址采集支持多級標簽
[布局]新建任務第三步布局完成
 
6.12
-16[輔助]xml生成實體類工具開發
 
6.17
暫停一天
 
6.18
[窗口]多頁管理實現
 
6.19
[窗口]標簽編輯基本布局
 
6.20
[新增]標簽處理列表讀取
 
6.21-6.22
[優化]部分標簽處理編輯
 
6.24
[優化]除ocr外所有標簽讀取編輯保存
[優化]固定格式讀取,測試 
后面懶得寫了
😂 分頁采集 拼音處理 翻譯 開發細節 多頁名稱禁用 分頁\d
 
 
2018-07-06
[修復]支持多頁保存
[新增]支持新增標簽
[優化]新建任務自帶標簽
[優化]制作啟動歡迎頁,改用本地文件,避免突然失效
[優化]添加多級網址采集部分的標簽存在檢測和標簽不存在檢測
 
2018-07-07
[修復]規則沒有默認值引起的錯誤
[修復]批量多頁導入沒有解碼
[新增]起始網址支持編輯
 
2018-07-08
[優化]保存任務時的各種參數賦值
[修復]編輯任務時多級網址不存在而引發的錯誤
 
2018-07-09
[新增]支持任務新增和保存
[修復]修復添加標簽處理時覆蓋舊的處理
[優化]保存最近測試的網址
 
2018-07-12
[優化]任務編輯界面循環匹配換行功能
[修復]標簽不存在引起的錯誤
[修復]多次保存任務導致的重復編碼問題
[修復]單條起始網址無法編輯的問題
[修復]沒有多級網址無法獲取網址列表的問題
 
2018-07-15
[新增]循環標簽添加為新記錄,循環不足第一條記錄補齊
[優化]標簽編輯中保存文件名,保存目錄和系統時間高亮顯示
[修復]循環獲取和非循環獲取同時存在時的邏輯
 
2018-07-16
[優化]將標簽測試代碼移植到類中,方便后期調用
[新增]標簽下載的各項功能實現
 
2018-07-17
[新增]下載部分布局
[優化]重寫http請求全部代碼,實現代理功能
[優化]增加默認頁重試
 
2018-07-18
[新增]增加標簽保留字段,禁止用戶使用
[優化]重寫網址爬取,實現類中爬取網址
[新增]實現列表標簽
[新增]實現標簽排序
[新增]支持開始任務,結束任務
[新增]支持任務抓取網址
[優化]禁止關閉歡迎窗口
[優化]采集網址進度展示
[優化]開啟任務或結束任務時判斷是否已存在
 
2018-07-19至21
[新增]實現數據庫轉換功能
[優化]支持access,sqlite,mysql,sqlserver
 
2018-07-25
[新增]實現采集網址,統計網址數量
[新增]實現采集待采集單條內容,錄入更新至數據庫
[修復]保存任務,任務狀態丟失
[修復]標簽自動獲取內容選項具體配置丟失
[優化]提升控件速度
[修復]多次開始並停止內容時注冊多次事件
[優化]每次開始任務時重新讀取配置
 
2018-07-26
[修復]固定標簽內容為空
[新增]標簽結果檢測
[新增]內容多線程采集
 
2018-07-27
[優化]實現標簽的內容過濾(標簽不得為空,包含,不得包含,重復檢測,長度判斷等)
[優化]實現一個網址多條結果的采集並錄入數據庫
[新增]實現采集完成后提示
 
2018-10-06
[修復]網址自定義規則存在多個標簽時的錯誤
[優化]保存存在錯誤時,自動跳轉對應界面
[修復]匹配時可能會有多種換行符的問題
[修復]采集網址時支持填寫多個標簽
[修復]采集網址時自動增減標簽 
[新增]增加標簽名導出功能
 
2018-10-09
[新增]支持文件發布
[優化]過濾保存文件時路徑或文件名包含特殊字符
[優化]實現發布時進度條
[新增]支持設置發布狀態,發布成功自動標注(支持全部成功才標記)
[新增]支持全部標記為已發和未發
 
2018-10-24
[新增]新增數據發布配置界面布局
 
2018-11-26
[新增]發布模塊配置界面
[新增]支持加載發布模塊
[新增]新增點選菜單控件
[優化]代碼框支持插入標簽
 
2018-11-27
[優化]支持新增和修改發布模塊
[優化]支持帶有密碼的火車頭模塊和GAC模塊
[優化]發布配置支持讀取模塊列表,支持點擊編輯模塊
 
2018-11-29
[優化]發布配置管理支持讀取數據庫中的配置
[優化]可以通過微型瀏覽器獲取cookies
[優化]發布配置可以修改和保存
[優化]重寫發布配置方面XML操作方式
[優化]重寫發布模塊的XML讀寫方式
 
2018-11-30
[優化]支持編輯和刪除發布配置信息
[新增]webpost可測試發布
[新增]支持測試發布模塊和配置
[優化]測試標簽自動保存,方便下次測試
[優化]登陸后的cookies進行保存
[優化]發布模塊支持導入,導出,刪除
至此,發布模塊編輯,發布配置全部完畢
 
2018-12-01
[新增]規則編輯支持導入發布模塊中的標簽
[新增]規則編輯支持添加發布配置,刪除,修改配置
 
2018-12-03
[新增]支持測試頁面測試web發布
[優化]修改web發布,迎合通用發布接口,使其可以實現正常發布內容
[修復]列表標簽編輯后成為標簽的bug
[優化]優化必須包含和不得包含返回結果,迎合測試日志
 
2018-12-21
[優化]修改采集規則和標簽規則迎合插件
[優化]修改下載列表迎合插件
[優化]修改采集迎合插件
 
2018-12-24
[優化]迎合插件合並網址采集和內容采集
[修復]采集網址列表時,范圍不支持(*)的bug
[優化]迎合插件重寫采集網址部分
 
2019-01-07
[修復]多個多級網址,會讓列表標簽消失
[修復]無法取消插件選擇的情況
[優化]迎合插件網址獲取結果改為List<KeyValuePair<string, Dictionary<string, string>>>
[修復]采集網址時,不是最后一層也入庫的情況
[修復]未勾選采內容依舊采集內容的情況
[修復]列表標簽多級繼承

 

最后的最后,代碼下載地址

鏈接: https://pan.baidu.com/s/1oyzO-Cnc_YS23svI9QiFYg 提取碼: nu4n 

代碼未完全完成,測試時發現的bug均已全部修復

由於代碼未進行大量測試,可能還存在過多問題,望見解

新手開發,僅供參考

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM