1,使用html.fromString 函數的話,感覺不像是先解析成dom樹的,所以無論給的文檔是什么,it can always deal it.Sometimes,I delete all the titel , body and html tag,It doesn't matter actually.
2,html.fromstring 會解析html 頭部中charset屬性,並且自動的decode
3,它只看start 標簽,根據正則定位到該字符串出現的位置,然后開始尋找xpath 中下一個路徑,所以開始的標簽很重要。
