實習記錄


准備每天下班前都會花幾分鍾總結一下實習的每一天干了什么。

本人是某大型農民工企業的人肉實習標記師,調參實習魔法師。

實習的最終目的:

1.學會該公司的核心技術,后端的搜索技術,至少得掌握的七七八八。

2.能夠靠實習期間學會的技術,找到一個算法工程師的工作。

2017年4月26日

早上入職。

中午食堂還挺好吃的,就是感覺人好多的樣子?

下午電腦有問題,拿給it服務部門重新配了個系統。

領到新手任務:熟悉一下shell腳本,重點可以看看awk。學習一下hadoop的使用,主要是streaming方式。

我找到的awk學習鏈接:http://coolshell.cn/articles/9070.html

2017年4月27日

今天的任務是學習hadoop。

中午簡單給了我三個shell的練習題,讓我練練手。

練習題鏈接:http://www.cnblogs.com/qscqesze/p/6774125.html

百度內部的度學堂非常贊,干貨特別多。

新的akw學習地址:http://awk.readthedocs.io/en/latest/

晚上被拖去聽核心技術去了,然后就和聽天書一樣,完全聽不懂。。。。

半天,shell從入門到跑路。

2017年4月28日

讓我寫爬蟲,寫個傻逼爬蟲

確定了自己的開發方式,本地寫代碼->gitlab->pull開發機->開發機調試的過程。

2017年5月2日 14:25:29

放了三天的假,回來一看原來的爬蟲效率好低,重構了一下,效率一下子就上來了。

然后扔在那兒爬了一上午。

我就去看公司內部的度學堂,去看了幾節Hadoop的公開課,但實際上那些都是講hadoop的原理,並沒有講怎么用,尷尬……

感覺以后只能結合任務,再來學習hadoop了。

下午去翻了翻sklearn的一些知識。

2017年5月3日 19:15:02

早上在做電子商務的作業,寫了個京東的動態爬蟲,抓了抓手機的參數。

下午當了一兩個小時的人肉標記師,標了數據交過去,好像結果不太理想,mentor讓我構造query去檢查一下什么的。

然后我就把我之前的爬蟲改了改,准備跑更多的數據出來,於是就扔在本地一直跑了。(公司的開發機並不能連外網。。

我順手和某個人組隊去玩了下騰訊的算法大賽,xjb處理了下數據,拿gdbr取跑了跑,log loss跑出來是0.24,感覺還是蠻好的。

我給我同學推銷我司的5折愛奇藝的時候,他以為我號被盜了,差點就把我拉黑了,阿西吧(x

2017年5月4日

早上一來,就發現爬蟲跑完了,比之前跑的數據多了400%,感覺很強。

然后鼓搗騰訊的算法比賽,找了個magic feature,loss 跑到了0.12,感覺也很強。

中午去聽李彥宏演講,見證了新使命的誕生,順手拿了本書,雖然感覺自己不會讀。。

下午就做分層,造query。做完了,就去kaggle找了個算法比賽,把騰訊那邊的比賽代碼拿過去用了下,不過結果不太理想,感覺自己還需要努力。

2017年5月5日

一早上都在人肉標數據,終於把這件事兒給干完了。

下午我覺得我在搜索組,不能浪費了這個資源,於是找了個百度內部的搜索框架公開課,把搜索框架大概的看了一遍。

至少知道了百度的搜索的框架是什么,如果我要做搜索引擎,究竟應該怎么做什么的。

下班的時候,陪着學長去打台球,結果沒位置,就直接滾回去了。

這周過的還是蠻好的吧。

2017年5月8日 18:49:55

早上在干瑣事,把qscoj的首頁更新了,把cf的題解做了。

下午把爬蟲這件事兒好像應該是弄完結了吧。

然后把騰訊的傻逼比賽調了調參數,弄到了0.11大關。

用公司安裝xgboost,死活安裝不上去,真是太氣。。。

晚上去度學堂學技術把。

2017年5月9日 19:19:23

今天一天好像都在打雜,都在忙一些雜事,雖然自己確實在寫代碼,但是好像這些事兒學不到任何東西。。。

今天看到了hadoop是怎么用的了,感覺好像是有點簡單呀,至少使用難度非常低。。。

2017年5月10日

今天好像啥都沒學會?誒不對,騰訊算法大賽混了件T-shirt。

看了下bs的一些教程,但是完全看不懂啊,我覺得這玩意兒沒人講,就很難看懂的= =

自己看了百度內部的人臉識別的教程,結果是教人如何使用API= =

2017年5月11日

GTMD內部調試工具,這個怎么能寫的這么爛?第二次和第一次調試出來的結果還不一樣???難道我每次都得調試四五次,然后取最好的嗎???GTMD百度,賊氣

今天學會了xgboost。

早上造query,下午邊造數據邊跑騰訊算法大賽的模型,晚上專心調整參數。

2017年5月15日

早上沒什么事兒干,就把騰訊模型重新跑了一遍,哇,玩了一早上提升了0.004的成績,真TM棒。

我搞不懂那個騰訊比賽了,我每次都在進步,排名卻越來越低,哎喲,心態炸了,心疼自己……

下午標數據,感覺

晚飯吃的沙拉,感覺就是在吃草,看着像草,聞着像草,吃着也像草。我覺得美帝人民居然天天都吃這玩意兒,果然是生活在水生火熱之中。

晚上拿xgboost,把kaggle的菜B比賽全部跑了一遍。

2017年5月16日

早上不停的標數據。

下午不停的跑模型。

晚上跑模型。。。

回家玩手游。。。

好頹廢呀。。。

2017年5月17日

出題出題,出玲瓏杯的題目中。。

早上寫了一早上的標程

下午老大給了我幾億的數據,讓我從這些數據中篩選出一些東西來。。

Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm

我感覺我就是在大海撈針呀。。。

手動玩了玩其中的200W數據,篩除了2000個,於是我只要重復這樣篩選大概200次好像就做完了,真強。

晚上看電影

2017年5月19日

早上加中午出題,把玲瓏杯糊弄過去了

下午大海撈針

晚上看公開課,學會了一些機器學習的奇淫技巧(x

2017年5月24日 17:19:19

好像一直忘記寫了。。。

這幾天在弄爬蟲,標數據。

讓我想辦法,找到XX的官網數據,這簡直是大海撈針。。。。

然后出完了玲瓏杯的題目。

玩騰訊的傻逼比賽。

機器學習從入門到跑路。(x

以及每天晚上回去都在趕學習的作業T T

2017年5月31日 15:20:53

好像還是忘記寫了,一直在大海撈針,划水上班……

2017年6月14日

完全忘了這個了。。

大海撈針弄完了,接了個新任務,任務大概就是要實現一個簡單的搜索引擎。

query -> query進行分詞 -> 計算每個單詞在url出現的權重 -> 分詞結果進行合並得到query權值 -> 權值排序

不過這個里面的第二步和第三步都已經被實現了,我只需要實現1,4,5這三部分就好了。

總結

百度里面我確實由於是短期實習,所以並沒有接觸到比較長線的項目,接觸的大概都是一些無關緊要,體力活偏多的東西。

不過我仍然學到了很多,非常感謝在百度的前輩。

印象比較深的就是跟着偉哥做的一個酒店相關數據收集的項目,雖然這個項目我覺得很傻逼(x。但是我學到了,做事情一定要做徹底,自己確定無誤之后,再去上交,以及遇到不懂的問題的時候,一定要及時和自己的leader溝通,不要自己悶着……

在百度里面,跟着鐵頭娃做了一個機器學習的比賽,讓我徹底入了機器學習的門,非常感謝鐵頭娃的不離不棄,到死都沒有拋棄我這個拖油瓶。

以及熟悉了大公司的流程,也開闊了眼界,還趁着去了青島旅游了一趟。這也是人生第一次看到海!

不得不說,百度食堂真的很好~

從后面來看,我應該是基本達到了最初自己定下的兩個目標:了解搜索引擎,學習機器學習。

感謝驍哥推薦的一本搜索引擎架構的書,讀了之后收獲良多。

機器學習我覺得我也成為了一個調包俠了(x

再次感謝前輩們,青山不改,綠水長流,日后江湖相見,自當杯酒言歡,咱們就此別過。

----------------------------------分界線!!!!!!-------------------------------------

初步目標:找到一份工作!!!!

2017年7月12日

百度實習已經離職了,現在到了今日頭條

今天是頭條的第一天上班,leader給了我一個(超級超級大的)代碼庫,讓我先看一天

然后我把git和vimrc都配置了

今日頭條比較好的就是公司食堂是免費的,空調溫度比百度的溫度低一點,好評!

而且電腦發的是最新的macpro,感覺超爽!

2017年7月13日

繼續讀代碼,找leader把項目的業務流程熟悉了一遍。

不過真的很想吐槽啊,幾萬行的代碼,注釋不超過十句。。。全是c++,這怎么看= =【和別人討論了一下,我感覺是我的C++姿勢水平太低

晚上幫人做了一下筆試題,感覺自己寶刀未老(x

2017年7月14日

今日頭條請假了,去百度把離職徹底弄完了,和他們還一起吃了一頓午飯。

比較好玩的事情,我交接離職信息的時候,發現管這事兒的人不在,然后我就打電話給她。

然后我bb了一會兒我交接的信息,然后她告訴我:“那個 我也離職了,你要不找XXX吧。”

對了,走之前,我去百度內部的超市,買了一個百度的卡套,算是留給自己的紀念了吧~

2017年7月16日

看一天代碼,不過效率很低,大概是因為自己蠢吧

然后順便把google的筆試做了,最后的排名還可以


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM