大眾點評加密評論的抓取


問題:

在評論中用csv圖片來代替顯示文字

(查看圖片建議右鍵-新標簽打開鏈接)

解決辦法:

  整體思路:

    1、找到這個<span class="tfagoa"></span> 表情的類名"tfagoa"和顯示的字的對應關系,比如 tfagoa =》 "謝",tfatx8=》"范"

  處理細節:

重點一:首先我們看到這個<span class="tfagoa"></span> 的css發現它的"width:14px;"background:-364px,-1218px"

(查看圖片建議右鍵-新標簽打開鏈接)

    

 

重點二:我們在鏈接http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/b97c31d7f34ed17de04fd2c38a11e064.css找到了所有的加密字className的css樣式值

(查看圖片建議右鍵-新標簽打開鏈接)

重點三:我們在鏈接http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/e90664f2dc11c63fff7ee3d5f0b190c8.svg找到了所有的加密的文字,

特別注意text的y屬性的值

 

 小結:

  到此我們找到了所有的加密的文字,加密的文字的className和css屬性值

  下一步:我們要把className和文字的對應關系匹配上

匹配規則:

  還拿上文的這個來舉例<span class="tfagoa"></span> 的css發現它的"width:14px;"background:-364px,-1218px"

   1、background的x -364取正值364/14(width的值)為26  即 abs(-364)/14=26

   2、background的y -1218取正值和上文text的y值比較   1203<1218 <1241 所以取 1241

        所以className 為tfagoa 對應<text xmlns="http://www.w3.org/2000/svg" x="0" y="1241">寫塞蠟少捉當唱攀酷賽腰啄參即綁咱派戶喊管登胸螞懶字衫謝萄路樣必內斜謹稠洽授謠賴恆速壯</text>這行文字的第26個(從0開始數),也就是剛好是""字

按照這種方式就可以把所有的加密文字的className和所顯示的字對應起來,做成字典,下次就可以直接通過className來獲取文字了

參考鏈接:https://blog.csdn.net/sinat_32651363/article/details/85123876


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM