Python--爬蟲之讀懂網頁結構HTML



1、服務器與本地交換機制

  當你打開一個網址時就是你對服務器的請求,你看到的頁面信息就是服務器返回給你的數據.

2、什么是HTML

  HTML就是用來描述網頁的一種語言

  HTML指的是超文本標記語言(Hyper Text Markup Language

  HTML不是一種編程語言,而是一種標記語言(Markup Language)標記語言是一套標記標簽(markup tag

  HTML使用標記標簽來描述網頁

3、標簽、元素、屬性  

(1)標簽:

    HTML標記標簽通常稱為HTML標簽(HTML tag

    HTML標簽是由尖括號包圍的關鍵字 <html>

    HTML標簽通常是成對出現,<b></b>標簽對中第一個標簽時開始標簽,第二個是結束標簽開始和結束標簽也被稱為開放標簽和閉合標簽

(2)元素:

    HTML元素指的是從開始標簽(start tag)到結束標簽(end tag)的所有代碼

    HTML元素以開始標簽起始,結束標簽終止某些元素具有空內容(empty content)大多數HTML元素可擁有屬性

(3)屬性:

    HTML標簽可以擁有屬性,屬性提供了有關HTML元素的更多信息

   屬性總是以名稱/值對的形式出現,name=”value

   屬性總是在HTML元素的開始標簽中規定

4、頭部信息和主體信息

  (1)頭部信息:<head>

     <head>元素是所有頭部元素的容器,<head>內的元素可以包含腳本,指示瀏覽器在何處可以找到樣式表,

     <meta>:標簽提供序HTML文檔的元數據,元數據不會顯示在頁面,但是對於機器是可讀的,meta元素被用於規定頁面的描述,關鍵詞。文檔作者。最后修改時間以及其他元數據

(2)主體信息:<body>

    body元素定義文檔的主體,包含文檔搜游內容顯示在網頁上

(3)body內的標簽

   1、標題:<title>

     標題(Heading)使通過<h1>---<h6>等標簽進行定義的

      <h1>定義最大的標題 <h6>定義最小的標題的主體

   2、段落:<p>

     段落使通過<p>標簽定義

   3、樣式:<style>

     提供一種改變所有HTML元素的樣式的使用方法(字體顏色、大小等等)

     通過HTML樣式能夠使用style屬性直接將樣式添加到HTML元素,或者間接地在獨立樣式表(CSS文件)進行定義

   4、鏈接:<a>

     超鏈接可以是一個字、詞,一組詞,也可以是一幅圖像,你可以點擊這些內容來跳轉到新的文檔或者當前文檔的某個部分

     鼠標指針移動到網頁中的某個鏈接上時,箭頭會變成一直小手

     通過使用href屬性創建指向另一文檔的鏈接

     通過使用name屬性創建文檔內的書簽

 

    5、圖像:<img>

      在HTML中,圖像有<img>標簽定義圖像的屬性中也可以加圖片鏈接,通過src屬性

     6、塊: <dvi>,<span>

       <div>:塊級元素,它使用於組合其他HTML元素的容器

       <span>內聯元素,可用作文本容器

    7、腳本:<script>

      用於定義客戶端腳本,

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM