文章說明
本文實現的方式大部分源碼是從借鑒別人的博客,再他們的基礎上修復了不能翻譯的問題和其他的一些bug。但是原文找不到了,沒法粘貼原文地址了,非常抱歉。
本文章解決的問題有:
- 翻譯不來,在之前基礎上對需要翻譯的文字進行urlEncode,實現方式
parse.quote(self.text)
- 結果處理,切片合成。過長文字谷歌翻譯會自動切片,翻譯的結果會變成多段。
- 修改之前的翻譯代碼結構,更好的封裝,方便調用。
- 使用多線程跑翻譯任務。
本文不介紹如何爬蟲解析谷歌接口,如需要可以翻看別人博客,很多介紹爬蟲過程。
代碼實現
#!/usr/bin/env python # -*- encoding: utf-8 -*- ''' @File : google_trans.py @Time : 2020/5/15 9:29 @Author : hxluo @Version : 1.0 @Contact : 465801795@qq.com @Desc : google translate ''' # import lib import requests import json from bs4 import BeautifulSoup import execjs from urllib import parse class Py4Js(): def __init__(self): self.ctx = execjs.compile(""" function TL(a) { var k = ""; var b = 406644; var b1 = 3293161072; var jd = "."; var $b = "+-a^+6"; var Zb = "+-3^+b+-f"; for (var e = [], f = 0, g = 0; g < a.length; g++) { var m = a.charCodeAt(g); 128 > m ? e[f++] = m : (2048 > m ? e[f++] = m >> 6 | 192 : (55296 == (m & 64512) && g + 1 < a.length && 56320 == (a.charCodeAt(g + 1) & 64512) ? (m = 65536 + ((m & 1023) << 10) + (a.charCodeAt(++g) & 1023), e[f++] = m >> 18 | 240, e[f++] = m >> 12 & 63 | 128) : e[f++] = m >> 12 | 224, e[f++] = m >> 6 & 63 | 128), e[f++] = m & 63 | 128) } a = b; for (f = 0; f < e.length; f++) a += e[f], a = RL(a, $b); a = RL(a, Zb); a ^= b1 || 0; 0 > a && (a = (a & 2147483647) + 2147483648); a %= 1E6; return a.toString() + jd + (a ^ b) }; function RL(a, b) { var t = "a"; var Yb = "+"; for (var c = 0; c < b.length - 2; c += 3) { var d = b.charAt(c + 2), d = d >= t ? d.charCodeAt(0) - 87 : Number(d), d = b.charAt(c + 1) == Yb ? a >>> d: a << d; a = b.charAt(c) == Yb ? a + d & 4294967295 : a ^ d } return a } """) def getTk(self, text): return self.ctx.call("TL", text) class Translate_as_google(object): def __init__(self, to_language, this_language='auto', read=False): ''' to_language:要翻譯成的語言 this_language:要轉換的文字,默認為auto自動 read:在指定位置生成text的朗讀文件 ''' self.this_language = this_language self.to_language = to_language self.read = read def open_url(self, url): '''請求''' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} req = requests.get(url=url, headers=headers , timeout=8) return req def buildUrl(self): '''封裝請求url sl:要轉換的文字 tl:轉換的結果類型 q要輸入的文字''' baseUrl = 'http://translate.google.cn/translate_a/single' baseUrl += '?client=webapp&' baseUrl += 'sl=%s&' % self.this_language baseUrl += 'tl=%s&' % self.to_language baseUrl += 'hl=zh-CN&' baseUrl += 'dt=at&' baseUrl += 'dt=bd&' baseUrl += 'dt=ex&' baseUrl += 'dt=ld&' baseUrl += 'dt=md&' baseUrl += 'dt=qca&' baseUrl += 'dt=rw&' baseUrl += 'dt=rm&' baseUrl += 'dt=ss&' baseUrl += 'dt=t&' baseUrl += 'ie=UTF-8&' baseUrl += 'oe=UTF-8&' baseUrl += 'clearbtn=1&' baseUrl += 'otf=1&' baseUrl += 'pc=1&' baseUrl += 'srcrom=0&' baseUrl += 'ssel=0&' baseUrl += 'tsel=0&' baseUrl += 'kc=2&' baseUrl += 'tk=' + str(self.tk) + '&' baseUrl += 'q=' + parse.quote(self.text) return baseUrl def read_go(self, args): '''朗讀截取 upload:下載到路徑及文件名稱 return_language:返回的語言類型 ''' upload, return_language = args[0], args[1] read_translate_url = 'http://translate.google.cn/translate_tts?ie=UTF-8&q=%s&tl=%s&total=1&idx=0&textlen=3&tk=%s&client=webapp&prev=input' % ( self.text, return_language, self.tk) data = self.open_url(read_translate_url) #請求的返回所有數據 with open(upload, 'wb') as f: f.write(data.content) def translate(self,text): '''翻譯截取''' self.text = text js = Py4Js() self.tk = js.getTk(self.text) if len(self.text) > 4891: raise ("翻譯的長度超過限制!!!") url = self.buildUrl() # print(url) _result = self.open_url(url) data = _result.content.decode('utf-8') tmp = json.loads(data) jsonArray = tmp[0] result = None for jsonItem in jsonArray: if jsonItem[0]: if result: result = result + " " + jsonItem[0] else: result = jsonItem[0] return result if __name__ == '__main__': text1 = "2019% ?= &:,? ;# [ Famous ] @ {}|*()^%$#@! Famous Brand Mens Suits Wedding Groom Plus Size 4 XL 3 Pieces ( Jacket + Vest + Pant ) Slim Fit Casual Tuxedo Suit Male" text2 = "Inflatable Mattress Air Cushion Car Backseat Bed Sleep with 2 Pillows & & & & &&& Pump" text3 = """[ New 2020 upgrade , intelligent digital display , see the power ] [ High - performance lithium battery , #placeholder15 hour fast charge , 50 - 60 minutes for full charge , 5 W high power ] [ multi - purpose , can shave head , shave , with hair clipper , nose hair clipper , cleansing brush head can also manage hair , nose hair and depth Clean the face ] [ Waterproof design , the whole body can be washed , the blade can be washed directly with a faucet after cleaning with a brush , easy to clean and hygienic ] [ Supports USB charging , can be charged in the car , or you can use a mobile phone charging head , charging treasure , Charging of USB interface such as computer , convenient and fast ] [ Genuine guarantee , after - sale guarantee : 30 - day free trial , I don't like to return directly ; 365 - day quality issues , direct replacement , no maintenance ] " " " Warm reminder : If someone is working on the page Order , please participate in the order , so that the shipment will be faster ! ! !""" ts = Translate_as_google('ja', 'en') # 目標語言:日語 result = ts.translate(text1) print(result) print(ts.translate(text2)) print(ts.translate(text3))
代碼運行結果:
2019%?=&:、? ;#[有名] @ {} | *()^%$#@! 有名ブランドメンズスーツ結婚式新郎プラスサイズ4 XL 3ピース(ジャケット+ベスト+パンツ)スリムフィットカジュアルタキシードスーツ男性 インフレータブルマットレスエアクッション車の後部座席ベッドスリープ2枕&&&&&&&ポンプ [新しい2020アップグレード、インテリジェントデジタルディスプレイ、電力を確認] [高性能リチウム電池、#placeholder15時間の高速充電、フル充電で50〜60分、5 Wの高電力] [多目的、ヘッドを剃る、剃る、 バリカン、鼻バリカン、クレンジングブラシヘッドで髪、鼻毛、深さを管理することもできます[顔をきれいにする]防水設計、全身を洗うことができ、ブレードはブラシで洗った後、蛇口で直接洗うことができます。 掃除が簡単で衛生的] [USB充電をサポートし、車內で充電可能、または攜帯電話の充電ヘッド、寶物を充電、コンピュータなどのUSBインターフェースの充電、便利で高速] [本物の保証、アフターセールス 保証:30日間の無料試用。直接戻るのは好きではありません。 365日間の品質問題、直接交換、メンテナンス不要] "" "溫かいリマインダー:誰かがページオーダーで作業している場合は、注文に參加して、発送を迅速化してください!!!
支持的國家
_language = { 'afrikaans': 'af', 'arabic': 'ar', 'belarusian': 'be', 'bulgarian': 'bg', 'catalan': 'ca', 'czech': 'cs', 'welsh': 'cy', 'danish': 'da', 'german': 'de', 'greek': 'el', 'english': 'en', 'esperanto': 'eo', 'spanish': 'es', 'estonian': 'et', 'persian': 'fa', 'finnish': 'fi', 'french': 'fr', 'irish': 'ga', 'galician': 'gl', 'hindi': 'hi', 'croatian': 'hr', 'hungarian': 'hu', 'indonesian': 'id', 'icelandic': 'is', 'italian': 'it', 'hebrew': 'iw', 'japanese': 'ja', 'korean': 'ko', 'latin': 'la', 'lithuanian': 'lt', 'latvian': 'lv', 'macedonian': 'mk', 'malay': 'ms', 'maltese': 'mt', 'dutch': 'nl', 'norwegian': 'no', 'polish': 'pl', 'portuguese': 'pt', 'romanian': 'ro', 'russian': 'ru', 'slovak': 'sk', 'slovenian': 'sl', 'albanian': 'sq', 'serbian': 'sr', 'swedish': 'sv', 'swahili': 'sw', 'thai': 'th', 'filipino': 'tl', 'turkish': 'tr', 'ukrainian': 'uk', 'vietnamese': 'vi', 'yiddish': 'yi', 'chinese_simplified': 'zh-CN', 'chinese_traditional': 'zh-TW', 'auto': 'auto' }
多線程跑翻譯任務
if __name__ == '__main__': import time import multiprocessing data_path = "../../data/last-ori/en-ja-all.csv" tgt_path = "../../data/last-ori/en-ja-all-tr.csv" pool = multiprocessing.Pool(processes=5) # 5個現場 with open(data_path,'r',encoding="utf-8") as rd,open(tgt_path, 'w', encoding="utf-8") as wd: # # time.sleep(1) for line in rd: line = line[:-1] if not line:continue count = count + 1 str_li = line.split(" :&: ") result = pool.apply(ts.translate, args=(str_li[0],)) print(count,", ",result) wd.write(str_li[0] + " :&: " + result + "\n") pool.close() pool.join()
谷歌服務器對過頻繁請求翻譯接口的ip會加入黑名單,所以多線程請求谷歌接口的時候,要注意控制好頻率,頻率太快了不是你不行就是她不行!
版權聲明:本文為lhxez6868原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。