學信網 學籍、學歷在線驗證


聲明:本博客純屬技術學習,由於是用爬蟲形式實現的,不確定是否違反相關法律,若進行商用請自行咨詢學信網,學信網網址:https://www.chsi.com.cn/

 

 

1.添加依賴

外部依賴有jsoup,taip,fastjson。

jsoup用來解析html; taip是騰訊AI的java 非官方api包,碼雲網址為:https://gitee.com/xshuai/taip, 用於做 ocr識別,因為部分數據在圖片中,需要做ocr才能獲得,因此這部分數據的可靠性與騰訊的ocr識別率相關;fastjson是用來解析json字符串的。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.12.1</version>
</dependency>

<dependency>
    <groupId>cn.xsshome</groupId>
    <artifactId>taip</artifactId>
    <version>4.3.5</version>
</dependency>

<!-- fastjson依賴 -->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.58</version>
</dependency>

 

2.根據 在線驗證碼 獲取學信網html

這部分用的是RestTemplate來獲取

public static StuInfo parseUrl(String vcode) {
    RestTemplate restTemplate = new RestTemplate();
    String url = "https://www.chsi.com.cn/xlcx/bg.do?vcode=" + vcode + "&srcid=bgcx";
    String html = restTemplate.getForObject(url, String.class);
    return parseHtml(html);
}

這部分得到的是html,vcode可以是 學籍的,也可以是學歷的

 

3.學籍和學歷信息解析

一個vcode只能對應學籍或者學歷解析

/**
 * 這里建議添加異常捕捉操作,
 * 這是一個爬蟲方式來獲取的,一旦網頁發生變化,解析的部分沒做非空檢查,可能會拋出異常
 */
private static StuInfo parseHtml(String strHtml) {
    Document doc = Jsoup.parse(strHtml, "UTF-8");
    Elements eleDiv2 = doc.getElementsByClass("tableTitle");
    if (eleDiv2.text().contains("學歷")) {
        return parseXueLi(strHtml);
    } else if (eleDiv2.text().contains("學籍")) {
        return parseXueJi(strHtml);
    }
    return null;
}

學籍解析:

/**
 * 學籍解析
 */
private static StuInfo parseXueJi(String strHtml) {
    Document doc = Jsoup.parse(strHtml, "UTF-8");
    Elements eleDiv2 = doc.getElementsByClass("div2");
    if (eleDiv2 != null && !eleDiv2.isEmpty()) {
        Elements eleTd = eleDiv2.get(0).getElementsByTag("td");
        if (eleTd != null && !eleTd.isEmpty()) {
            StuInfo stuInfo = new StuInfo();
            // 姓名是圖片,調用騰訊API實現ocr識別
            String nameImg = eleTd.get(1).getElementsByTag("img").get(0).attr("src");
            stuInfo.setName(aiOcr(nameImg));
            stuInfo.setGender(eleTd.get(4).text());
            stuInfo.setIdCard(eleTd.get(6).text());
            stuInfo.setNation(eleTd.get(8).text());
            stuInfo.setBirthDay(eleTd.get(10).text());
            stuInfo.setUniversity(eleTd.get(12).text());
            stuInfo.setLevel(eleTd.get(14).text());
            stuInfo.setDepartment(eleTd.get(16).text());
            stuInfo.setSClass(eleTd.get(18).text());
            stuInfo.setDomain(eleTd.get(20).text());
            stuInfo.setStuNum(eleTd.get(22).text());
            stuInfo.setForm(eleTd.get(24).text());
            stuInfo.setEntranceDate(eleTd.get(26).text());
            stuInfo.setLenOfSchooling(eleTd.get(28).text());
            stuInfo.setType(eleTd.get(30).text());
            String[] status = eleTd.get(32).text().split("\\(");
            stuInfo.setStatus(status[0]);
            stuInfo.setGraduationDate(status[1].substring(0, status[1].length() - 1));
            return stuInfo;
        }
    }
    return null;
}

學歷解析:

/**
     * 學歷解析
     */
    private static StuInfo parseXueLi(String strHtml) {
        Document doc = Jsoup.parse(strHtml, "UTF-8");
        Elements eleDiv2 = doc.getElementsByClass("div2");
        if (eleDiv2 != null && !eleDiv2.isEmpty()) {
            Elements eleTd = eleDiv2.get(0).getElementsByTag("td");
            if (eleTd != null && !eleTd.isEmpty()) {
                StuInfo stuInfo = new StuInfo();
                // 姓名是圖片,調用騰訊API實現ocr識別
                String nameImg = eleTd.get(0).getElementsByTag("img").get(0).attr("src");
                stuInfo.setName(aiOcr(nameImg));
                stuInfo.setGender(eleTd.get(2).text());
                stuInfo.setBirthDay(eleTd.get(3).text());
                stuInfo.setEntranceDate(eleTd.get(4).text());
                stuInfo.setGraduationDate(eleTd.get(5).text());
                stuInfo.setType(eleTd.get(6).text());
                stuInfo.setLevel(eleTd.get(7).text());
                stuInfo.setUniversity(eleTd.get(8).text());
                stuInfo.setLenOfSchooling(eleTd.get(9).text());
                stuInfo.setDomain(eleTd.get(10).text());
                stuInfo.setForm(eleTd.get(11).text());
                stuInfo.setCertificateNum(eleTd.get(12).text());
                // 狀態是圖片,調用騰訊API實現ocr識別
                String statusImg = eleTd.get(13).getElementsByTag("img").get(0).attr("src");
                stuInfo.setStatus(aiOcr(statusImg));
                stuInfo.setPresident(eleTd.get(14).text());
                return stuInfo;
            }
        }
        return null;
    }

注意:本部分代碼中均沒有添加非空檢查,一般而言要先做非空檢查再獲取值,防止可能出現的異常。這里只是個人娛樂,為了代碼簡單易讀所以省了這部分。

學籍和學歷解析中有部分數據是再圖片中的,需要做 ocr識別才能獲取,aiOcr()函數就是做ocr識別的,下一步再說。

具體網頁有變化時,解析需要按照網頁變化進行對應調整。

 

4. 圖片信息獲取

圖片內信息的獲取調用的騰訊的OCR識別,依賴的taip客戶端接口。taip接口包含了騰訊AI的所有功能,很強大,感興趣的話可以玩玩,但需要先注冊騰訊AI開放平台,飛機票:https://ai.qq.com/product/nlpchat.shtml

/**
 * 這個地方可能需要調用多次,騰訊 ocr 並不是每次都會正確返回結果,有時候會報系統繁忙請稍后再試
 */
private static String aiOcr(String imgUrl) {
    String url = "https://www.chsi.com.cn" + imgUrl;
    TAipOcr aipOcr = new TAipOcr(APP_ID, APP_KEY);
    try {
        String result = aipOcr.handWritingOcrByUrl(url);
        // fastjson 解析的時候也可能報錯
        OcrResult ocrResult = JSONObject.parseObject(result, OcrResult.class);
        return ocrResult.getData().getItem_list().get(0).getItemstring();
    } catch (Exception e) {
        System.out.println("ocr 識別出錯");
        return "";
    }
}

這個地方的異常處理也有待補充,邏輯也有待補充。

 

完整代碼:https://gitee.com/betterwgo/chsi_api

 

 


 

 

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM