使用python爬取東方財富網機構調研數據

本文轉載自查看原文 2016-05-09 15:16 4296

　　最近有一個需求,需要爬取東方財富網的機構調研數據.數據所在的網頁地址為: 機構調研

　　網頁如下所示:

　　可見數據共有8464頁,此處不能直接使用scrapy爬蟲進行爬取,因為點擊下一頁時,瀏覽器只是發起了javascript網絡訪問,然后將服務器返回的數據插入網頁,無法通過網址直接獲取對應頁的的頁面數據.

　　通過chrome的開發者工具,我們可以看到點擊下一頁按鈕背后發起的網頁訪問:

　　在點擊下一頁時,瀏覽器向地址發起了訪問.我們分析一下這個地址的結構:

　　　　http://data.eastmoney.com/DataCenter_V3/jgdy/xx.ashx?pagesize=50&page=2&js=var%20ZUPcjFOK&param=&sortRule=-1&sortType=0&rt=48759234

　　上述地址中的&page= 之后指定的是需要獲取第幾個頁面的數據.所以我們可以通過修改&page=后面的數字來訪問不同頁面對應的數據.

　　現在看一下這個數據的結構:

　　可見這個數據是一個字符串,根據第一個出現的等於號對該字符串進行切分,切分得到的后半段是一個json字符串,里面存儲了我們想要獲取的數據. json數據中的字段pages的值就是頁面的總數.根據這一特性我們可以寫出下述函數獲取頁面的總數:

# 獲取頁數
def get_pages_count():
    url = '''http://data.eastmoney.com/DataCenter_V3/jgdy/xx.ashx?pagesize=50&page=%d''' % 1
    url += "&js=var%20ngDoXCbV&param=&sortRule=-1&sortType=0&rt=48753724"
    wp = urllib.urlopen(url)
    data = wp.read().decode("gbk")
    start_pos = data.index('=')
    json_data = data[start_pos + 1:]
    dict = json.loads(json_data)
    pages =dict['pages']
    return pages

　　在給定頁數范圍的情況下可以獲取數據地址列表,如下所示:

# 獲取鏈接列表
def get_url_list(start,end):
    url_list=[]
    while(start<=end):
        url = '''http://data.eastmoney.com/DataCenter_V3/jgdy/xx.ashx?pagesize=50&page=%d''' %start
        url += "&js=var%20ngDoXCbV&param=&sortRule=-1&sortType=0&rt=48753724"
        url_list.append(url)
        start+=1
    return url_list

　　為了保存這些數據,我使用sqlalchemy中的orm模型來表示數據模型,數據模型定義如下:

# 此處需要設置charset,否則中文會亂碼
engine =create_engine('mysql+mysqldb://user:passwd@ip:port/db_name?charset=utf8')
Base =declarative_base()

class jigoudiaoyan(Base):
    __tablename__ = "jigoudiaoyan"
    # 自增的主鍵
    id =Column(Integer,primary_key=True)
    # 調研日期
    StartDate = Column(Date,nullable=True)
    # 股票名稱
    SName =Column(VARCHAR(255),nullable=True)
    # 結束日期 一般為空
    EndDate=Column(Date,nullable=True)
    # 接待方式
    Description =Column(VARCHAR(255),nullable=True)
    # 公司全稱
    CompanyName =Column(VARCHAR(255),nullable=True)
    # 結構名稱
    OrgName=Column(VARCHAR(255),nullable=True)
    # 公司代碼
    CompanyCode=Column(VARCHAR(255),nullable=True)
    # 接待人員
    Licostaff=Column(VARCHAR(800),nullable=True)
    # 一般為空 意義不清
    OrgSum=Column(VARCHAR(255),nullable=True)
    # 漲跌幅
    ChangePercent=Column(Float,nullable=True)
    # 公告日期
    NoticeDate=Column(Date,nullable=True)
    # 接待地點
    Place=Column(VARCHAR(255),nullable=True)
    # 股票代碼
    SCode=Column(VARCHAR(255),nullable=True)
    # 結構代碼
    OrgCode=Column(VARCHAR(255),nullable=True)
    # 調研人員
    Personnel=Column(VARCHAR(255),nullable=True)
    # 最新價
    Close=Column(Float,nullable=True)
    #機構類型
    OrgtypeName=Column(VARCHAR(255),nullable=True)
    # 機構類型代碼
    Orgtype=Column(VARCHAR(255),nullable=True)
    # 主要內容,一般為空 意義不清
    Maincontent=Column(VARCHAR(255),nullable=True)
Session =sessionmaker(bind=engine)
session =Session()
# 創建表
Base.metadata.create_all(engine)
# 獲取鏈接列表

　　在上述基礎上,我們就可以定義下屬函數用於抓取鏈接的內容,並將其解析之后存入數據庫,如下所示:

#記錄並保存數據
def save_json_data(user_agent_list):
    pages =get_pages_count()
    len_user_agent=len(user_agent_list)
    url_list =get_url_list(1,pages)
    count=0
    for url in url_list:
        request = urllib2.Request(url)
        request.add_header('Referer','http://data.eastmoney.com/jgdy/')
        # 隨機從user_agent池中取user
        pos =random.randint(0,len_user_agent-1)
        request.add_header('User-Agent', user_agent_list[pos])
        reader = urllib2.urlopen(request)
        data=reader.read()
         # 自動判斷編碼方式並進行解碼
        encoding = chardet.detect(data)['encoding']
        # 忽略不能解碼的字段
        data = data.decode(encoding,'ignore')
        start_pos = data.index('=')
        json_data = data[start_pos + 1:]
        dict = json.loads(json_data)
        list_data = dict['data']
        count+=1
        for item in list_data:
            one = jigoudiaoyan()
            StartDate =item['StartDate'].encode("utf8")
            if(StartDate ==""):
                StartDate = None
            else:
                StartDate = datetime.datetime.strptime(StartDate,"%Y-%m-%d").date()
            SName=item['SName'].encode("utf8")
            if(SName ==""):
                SName =None
            EndDate = item["EndDate"].encode("utf8")
            if(EndDate==""):
                EndDate=None
            else:
                EndDate=datetime.datetime.strptime(EndDate,"%Y-%m-%d").date()
            Description=item['Description'].encode("utf8")
            if(Description ==""):
                Description= None
            CompanyName=item['CompanyName'].encode("utf8")
            if(CompanyName==""):
                CompanyName=None
            OrgName=item['OrgName'].encode("utf8")
            if(OrgName ==""):
                OrgName=None
            CompanyCode=item['CompanyCode'].encode("utf8")
            if(CompanyCode==""):
                CompanyCode=None
            Licostaff=item['Licostaff'].encode("utf8")
            if(Licostaff ==""):
                Licostaff=None
            OrgSum = item['OrgSum'].encode("utf8")
            if(OrgSum ==""):
                OrgSum=None
            ChangePercent=item['ChangePercent'].encode("utf8")
            if(ChangePercent ==""):
                ChangePercent=None
            else:
                ChangePercent=float(ChangePercent)
            NoticeDate=item['NoticeDate'].encode("utf8")
            if(NoticeDate==""):
                NoticeDate=None
            else:
                NoticeDate=datetime.datetime.strptime(NoticeDate,"%Y-%m-%d").date()
            Place=item['Place'].encode("utf8")
            if(Place==""):
                Place=None
            SCode=item["SCode"].encode("utf8")
            if(SCode==""):
                SCode=None
            OrgCode=item['OrgCode'].encode("utf8")
            if(OrgCode==""):
                OrgCode=None
            Personnel=item['Personnel'].encode('utf8')
            if(Personnel==""):
                Personnel=None
            Close=item['Close'].encode("utf8")
            if(Close==""):
                Close=None
            else:
                Close =float(Close)
            OrgtypeName =item['OrgtypeName'].encode("utf8")
            if(OrgtypeName==""):
                OrgtypeName=None
            Orgtype=item['Orgtype'].encode("utf8")
            if(Orgtype==""):
                Orgtype=None
            Maincontent=item['Maincontent'].encode("utf8")
            if(Maincontent==""):
                Maincontent=None
            one.StartDate=StartDate
            one.SName=SName
            one.EndDate=EndDate
            one.Description=Description
            one.CompanyName=CompanyName
            one.OrgName=OrgName
            one.CompanyCode=CompanyCode
            one.Licostaff=Licostaff
            one.OrgSum=OrgSum
            one.ChangePercent=ChangePercent
            one.NoticeDate=NoticeDate
            one.Place=Place
            one.SCode=SCode
            one.OrgCode=OrgCode
            one.Personnel=Personnel
            one.Close=Close
            one.OrgtypeName=OrgtypeName
            one.Orgtype=Orgtype
            one.Maincontent=Maincontent
            session.add(one)
            session.commit()
        print 'percent:' ,count*1.0/pages,"complete!,now ",count
        # delay 1s
        time.sleep(1)

　　為了加快抓取速度,我設置了user_agent池,每次訪問設置user_agent時隨機從池中取一條作為這次訪問的user_agent.對應列表user_agent_list ,定義如下:

# user_agent 池
user_agent_list=[]
user_agent_list.append("Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 ")
user_agent_list.append("Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50")
user_agent_list.append("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1")
user_agent_list.append("Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11")
user_agent_list.append("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 ")
user_agent_list.append("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36")

　　請注意,為了自動識別網頁編碼並解碼,我使用了chardet模塊識別網頁的編碼.為了應對極端情況下解碼失敗的問題,我在解碼時設置跳過那些不能正確解碼的字符串.相關代碼截取如下:

 encoding = chardet.detect(data)['encoding']
 # 忽略不能解碼的字段
 data = data.decode(encoding,'ignore')

補充:

　　網址中最后一個字段代碼時間戳,用於確定獲取哪一個時刻的最新價(maybe for ban crawler?),在查看網頁源代碼之后,我確定時間戳的生成代碼如下,給有需要的人(我發現東方財富網的這個字段都是這么生成的):

# 獲取當前的時間戳
def get_timstamp():
    timestamp =int(int(time.time())/30)
    return str(timestamp)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python之爬取東方財富網站中不同板塊的股票信息（僅供學習） python3爬取東方財富股東戶數2013-2019年數據 Python 東方財富網-股市行情數據抓取我的go練手項目--使用go獲取東方財富網站基金凈值數據 python爬蟲爬去東方財富財務數據 Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲 Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲爬蟲（一）-東方財富網字體利用東方財富網獲取股票代碼 Python——東方財富股民數據分析