原文:(算法課大報告)大數據的查找與排序

前段時間寫的,把老師留的作業寫得詳細了些,現在把它貼上來,有錯誤歡迎指正,有需要改進的地方也歡迎提出 . 題目要求 .數據:sentencesFile.txt是英文語句集合文件。句子之間有字符 n 分割,sentencesFile.txt文件大小 lt GB,其中最短句子長度為 個字符,最長句子長度超過 Kbyte。 計算環境:機器內存為 GB, 個CPU。 要求:設計對於隨機輸入的句子X判斷s ...

2013-06-25 19:51 1 2727 推薦指數:

查看詳情

大數據算法

大數據算法 # 參考:http://blog.csdn.net/hguisu/article/details/7856239 http://www.cnblogs.com/allensun/archive/2011/02/16/1956532.html 程序員代碼面試指南-第六章 ...

Thu Jun 08 03:27:00 CST 2017 0 8104
怎樣查找自己想用的大數據

作者:曹婷婷 鏈接:https://www.zhihu.com/question/19766160/answer/92693568 來源:知乎 著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。 首先說下,找各行各業的行業報告的用途是什么? 如果是for公司 ...

Tue Aug 22 05:43:00 CST 2017 0 2769
大數據排序問題

問題 一個文件中有9億條不重復的9位整數,對這個文件中數字進行排序 直接想法 9億條(9e8)數據,每個數據能用int存儲 因此所需要內存 9e8x4B = 3.6e9B = 3.6GB,這是裝載所需要的 排序復雜度一般都是nlogn 因此需要的內存更大 方法一 數據排序 將文本文件 ...

Sat Apr 13 06:44:00 CST 2019 0 901
大數據量的排序算法 -最小堆排序算法

  今天有人推薦了一個排序算法:最小堆排序算法。號稱能處理10億數據排序問題.   正好將要面臨2.5億數據的查詢計算比對問題,從沒面對過如此大的數據量,之前處理過最大的表不過3000萬,心里正有些惴惴不安。正好把這個算法拿來學習揣摩一番。   剛開始隨手寫了個遞歸排序,本以為想法是比對一下 ...

Sat Jun 22 00:42:00 CST 2013 1 6894
大數據】Hadoop實驗報告

鏈接地址:【大數據】Hadoop實驗報告 目錄 實驗一 熟悉常用的Linux操作和Hadoop操作 1.實驗目的 2.實驗平台 3.實驗內容和要求 實驗二 熟悉常用的HDFS操作 1.實驗目的 2.實驗 ...

Tue Jun 22 23:37:00 CST 2021 0 247
大數據使用及現狀調研報告

大數據使用及現狀調研報告   大數據,指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據特征分析  大數據,不僅有“大”這個特點,除此之外,它還有很多其他特色。在這 ...

Sun Jun 30 10:23:00 CST 2019 0 2611
大數據算法題(一)

分類:海量數據處理面試題 1.海量日志數據,提取出某日訪問百度次數最多的那個IP。   首先是這一天,並且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。注意到ip是32位的,最多有個2^32個ip。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,在找出每個 ...

Fri Aug 14 19:30:00 CST 2015 0 5364
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM