Spark詳解(05-1) - SparkCore實戰案例 - 碼上歡樂

相關內容簡體繁體

Spark詳解(05-1) - SparkCore實戰案例

本文轉載自查看原文 2022-03-27 18:10 702 Spark

Spark詳解(05-1) - SparkCore實戰案例

數據准備

1）數據格式

本項目的數據是采集電商網站的用戶行為數據，主要包含用戶的4種行為：搜索、點擊、下單和支付。

（1）數據采用_分割字段

（2）每一行表示用戶的一個行為，所以每一行只能是四種行為中的一種。

（3）如果點擊的品類id和產品id是-1表示這次不是點擊

（4）針對下單行為，一次可以下單多個產品，所以品類id和產品id都是多個，id之間使用逗號分割。

如果本次不是下單行為，則他們相關數據用null來表示。

（5）支付行為和下單行為格式類似

2）數據詳細字段說明

編號	字段名稱	字段類型	字段含義
1	date	String	用戶點擊行為的日期
2	user_id	Long	用戶的ID
3	session_id	String	Session的ID
4	page_id	Long	某個頁面的ID
5	action_time	String	動作的時間點
6	search_keyword	String	用戶搜索的關鍵詞
7	click_category_id	Long	點擊某一個商品品類的ID
8	click_product_id	Long	某一個商品的ID
9	order_category_ids	String	一次訂單中所有品類的ID集合
10	order_product_ids	String	一次訂單中所有商品的ID集合
11	pay_category_ids	String	一次支付中所有品類的ID集合
12	pay_product_ids	String	一次支付中所有商品的ID集合
13	city_id	Long	城市 id

需求1：Top10熱門品類

需求說明：品類是指產品的分類，大型電商網站品類分多級，本項目中品類只有一級，不同的公司可能對熱門的定義不一樣。按照每個品類的點擊、下單、支付的量來統計熱門品類。

鞋點擊數下單數支付數

衣服點擊數下單數支付數

電腦點擊數下單數支付數

例如，綜合排名 = 點擊數*20% + 下單數*30% + 支付數*50%

本項目需求優化為：先按照點擊數排名，靠前的就排名高；如果點擊數相同，再比較下單數；下單數再相同，就比較支付數。

需求分析（方案一）分步計算

思路：分別統計每個品類點擊的次數，下單的次數和支付的次數。

（品類，點擊總數）（品類，下單總數）（品類，支付總數）

缺點：統計3次，需要啟動3個job，每個job都有對原始數據遍歷一次，效率低。

需求分析（方案二）常規算子

采用常規算子的方式實現。

需求分析（方案三）樣例類

采用樣例類的方式實現。

需求實現（方案三）

1）用來封裝用戶行為的樣例類

//用戶訪問動作表
case class UserVisitAction(date: String,//用戶點擊行為的日期
user_id: Long,//用戶的ID
session_id: String,//Session的ID
page_id: Long,//某個頁面的ID
action_time: String,//動作的時間點
search_keyword: String,//用戶搜索的關鍵詞
click_category_id: Long,//某一個商品品類的ID
click_product_id: Long,//某一個商品的ID
order_category_ids: String,//一次訂單中所有品類的ID集合
order_product_ids: String,//一次訂單中所有商品的ID集合
pay_category_ids: String,//一次支付中所有品類的ID集合
pay_product_ids: String,//一次支付中所有商品的ID集合
city_id: Long)//城市 id
// 輸出結果表
case class CategoryCountInfo(categoryId: String,//品類id
clickCount: Long,//點擊次數
orderCount: Long,//訂單次數
payCount: Long)//支付次數

注意：樣例類的屬性默認是val修飾，不能修改；需要修改屬性，需要采用var修飾。

case class CategoryCountInfo(var categoryId: String,//品類id
var clickCount: Long,//點擊次數
var orderCount: Long,//訂單次數
var payCount: Long)//支付次數

2）核心業務代碼實現

object require01_top10Category_method3 {
def main(args: Array[String]): Unit = {
//1.創建SparkConf並設置App名稱
val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")
//2.創建SparkContext，該對象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3 需求一：top10熱門品類
//3.1 獲取原始數據
val lineRDD: RDD[String] = sc.textFile("input/user_visit_action.txt")
//3.2 將原始數據進行轉換（分解）
val actionRDD: RDD[UserVisitAction] = lineRDD.map(
line => {
// 獲取一行數據
val datas: Array[String] = line.split("_")
// 將解析的數據封裝到 UserVisitAction
UserVisitAction(
datas(0),
datas(1).toLong,
datas(2),
datas(3).toLong,
datas(4),
datas(5),
datas(6).toLong,
datas(7).toLong,
datas(8),
datas(9),
datas(10),
datas(11),
datas(12).toLong
)
}
)
//CategoryCountInfo(鞋,1,0,0)
//CategoryCountInfo(鞋,0,1,0)
//CategoryCountInfo(鞋,0,0,1)
//=>希望變成：CategoryCountInfo(鞋,1,1,1)
//3.3 將轉換結構后的數據進行分解成CategoryCountInfo
val infoRDD: RDD[CategoryCountInfo] = actionRDD.flatMap {
case act: UserVisitAction => {
if (act.click_category_id != -1) { // 點擊信息處理
List(CategoryCountInfo(act.click_category_id.toString, 1, 0, 0))
} else if (act.order_category_ids != "null") { // 訂單信息處理
val list: ListBuffer[CategoryCountInfo] = new ListBuffer[CategoryCountInfo]
val ids: Array[String] = act.order_category_ids.split(",")
for (id <- ids) {
list.append(CategoryCountInfo(id, 0, 1, 0))
}
list
} else if (act.pay_category_ids != "null") { // 支付信息處理
val list: ListBuffer[CategoryCountInfo] = new ListBuffer[CategoryCountInfo]
val ids: Array[String] = act.pay_category_ids.split(",")
for (id <- ids) {
list.append(CategoryCountInfo(id, 0, 0, 1))
}
list
} else {
Nil
}
}
}
//3.4 將相同的品類分成一組
val groupRDD: RDD[(String, Iterable[CategoryCountInfo])] = infoRDD.groupBy(info => info.categoryId)
//3.5 將分組后的數據進行聚合處理: (品類id, (品類id, clickCount, OrderCount, PayCount))
val mapRDD: RDD[CategoryCountInfo] = groupRDD.mapValues(
datas => {
datas.reduce(
(info1, info2) => {
info1.orderCount = info1.orderCount + info2.orderCount
info1.clickCount = info1.clickCount + info2.clickCount
info1.payCount = info1.payCount + info2.payCount
info1
}
)
}
).map(_._2)
//3.6 將聚合后的數據排序，取前10名
val sortRDD: RDD[CategoryCountInfo] = mapRDD.sortBy(info => (info.clickCount, info.orderCount, info.payCount), false)
val takeRDD: Array[CategoryCountInfo] = sortRDD.take(10)
//3.7 打印
takeRDD.foreach(println)
//4.關閉連接
sc.stop()
}
}

需求分析（方案四）樣例類+算子優化

針對方案三中的groupBy，沒有提前聚合的功能，替換成reduceByKey

需求實現（方案四）

1）樣例類代碼和方案三一樣。（詳見方案三）

2）核心代碼實現

object require01_top10Category_method4 {
def main(args: Array[String]): Unit = {
//1.創建SparkConf並設置App名稱
val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
//2.創建SparkContext，該對象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 獲取原始數據
val dataRDD: RDD[String] = sc.textFile("input/user_visit_action.txt")
//3.2 將原始數據進行轉換
val actionRDD: RDD[UserVisitAction] = dataRDD.map {
data => {
val datas: Array[String] = data.split("_")
UserVisitAction(
datas(0),
datas(1).toLong,
datas(2),
datas(3).toLong,
datas(4),
datas(5),
datas(6).toLong,
datas(7).toLong,
datas(8),
datas(9),
datas(10),
datas(11),
datas(12).toLong
)
}
}
//3.3 將轉換結構后的數據進行分解成：(品類,CategoryCountInfo)
val infoRDD: RDD[(String, CategoryCountInfo)] = actionRDD.flatMap {
action => {
action match {
case act: UserVisitAction => {
if (act.click_category_id != -1) {
List((act.click_category_id.toString, CategoryCountInfo(act.click_category_id.toString, 1, 0, 0)))
} else if (act.order_category_ids != "null") {
val list: ListBuffer[(String, CategoryCountInfo)] = new ListBuffer[(String, CategoryCountInfo)]
val ids: Array[String] = act.order_category_ids.split(",")
for (id <- ids) {
list.append((id, CategoryCountInfo(id, 0, 1, 0)))
}
list
} else if (act.pay_category_ids != "null") {
val list: ListBuffer[(String, CategoryCountInfo)] = new ListBuffer[(String, CategoryCountInfo)]
val ids: mutable.ArrayOps[String] = act.pay_category_ids.split(",")
for (id <- ids) {
list.append((id, CategoryCountInfo(id, 0, 0, 1)))
}
list
} else {
Nil
}
}
case _ => Nil
}
}
}
//3.4 按照品類id相同，進行兩兩聚合
val mapRDD: RDD[CategoryCountInfo] = infoRDD.reduceByKey(
(info1, info2) => {
info1.orderCount = info1.orderCount + info2.orderCount
info1.clickCount = info1.clickCount + info2.clickCount
info1.payCount = info1.payCount + info2.payCount
info1
}
).map(_._2)
//3.6 將聚合后的數據排序，取前10名
val sortRDD: RDD[CategoryCountInfo] = mapRDD.sortBy(info =>(info.clickCount,info.orderCount,info.payCount),false)
val takeRDD: Array[CategoryCountInfo] = sortRDD.take(10)
//3.7 打印
takeRDD.foreach(println)
//4.關閉連接
sc.stop()
}
}

需求分析（方案五）累加器

需求實現（方案五）

1）累加器實現

//品類行為統計累加器
// ((鞋,click),1)
// ((鞋,order),1)
// ((鞋,pay),1)
// ((衣服,pay),1)
//3.3 繼承AccumulatorV2，聲明泛型
//3.4 重寫方法
class CategoryCountAccumulator extends AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]] {
var map = mutable.Map[(String, String), Long]()
override def isZero: Boolean = map.isEmpty
override def copy(): AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]] = {
new CategoryCountAccumulator()
}
override def reset(): Unit = map.clear()
override def add(action: UserVisitAction): Unit = {
// 鞋 click + 鞋 click ...+ 鞋 click => ((鞋,click),100)
// 鞋 order + 鞋 order ...+ 鞋 order =>((鞋,order),50)
if (action.click_category_id != -1) {
val key = (action.click_category_id.toString, "click")
map(key) = map.getOrElse(key, 0L) + 1L
} else if (action.order_category_ids != "null") {
val ids: Array[String] = action.order_category_ids.split(",")
for (id <- ids) {
val key = (id, "order")
map(key) = map.getOrElse(key, 0L) + 1L
}
} else if (action.pay_category_ids != "null") {
val ids: Array[String] = action.pay_category_ids.split(",")
for (id <- ids) {
val key = (id, "pay")
map(key) = map.getOrElse(key, 0L) + 1L
}
}
}
override def merge(other: AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]]): Unit = {
other.value.foreach {
case (category, count) => {
map(category) = map.getOrElse(category, 0L) + count
}
}
}
override def value: mutable.Map[(String, String), Long] = map
}

2）核心邏輯實現

object require01_top10Category_method5 {
def main(args: Array[String]): Unit = {
//1.創建SparkConf並設置App名稱
val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
//2.創建SparkContext，該對象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 獲取原始數據
val lineRDD: RDD[String] = sc.textFile("input/user_visit_action.txt")
//3.2 將原始數據進行轉換
val actionRDD: RDD[UserVisitAction] = lineRDD.map {
line => {
val datas: Array[String] = line.split("_")
UserVisitAction(
datas(0),
datas(1).toLong,
datas(2),
datas(3).toLong,
datas(4),
datas(5),
datas(6).toLong,
datas(7).toLong,
datas(8),
datas(9),
datas(10),
datas(11),
datas(12).toLong
)
}
}
//3.5 創建累加器
val acc: CategoryCountAccumulator = new CategoryCountAccumulator()
//3.6 注冊累加器
sc.register(acc, "CategoryCountAccumulator")
//3.7 累加器添加數據
actionRDD.foreach(action => acc.add(action))
//3.8 獲取累加器的值
// ((鞋,click),10)
// ((鞋,order),5)
// =>(鞋，(click,order,pay))=>CategoryCountInfo
val accMap: mutable.Map[(String, String), Long] = acc.value
// 3.9 將累加器的值進行結構的轉換
val group: Map[String, mutable.Map[(String, String), Long]] = accMap.groupBy(_._1._1)
val infoes: immutable.Iterable[CategoryCountInfo] = group.map {
case (id, map) => {
val click = map.getOrElse((id, "click"), 0L)
val order = map.getOrElse((id, "order"), 0L)
val pay = map.getOrElse((id, "pay"), 0L)
CategoryCountInfo(id, click, order, pay)
}
}
//3.10 將轉換后的數據進行排序（降序），取前10
infoes.toList.sortWith(
(left,right)=>{
if (left.clickCount > right.clickCount){
true
}else if(left.clickCount == right.clickCount){
if (left.orderCount > right.orderCount){
true
}else if(left.orderCount == right.orderCount){
left.payCount > right.payCount
}else {
false
}
}else{
false
}
}
).take(10).foreach(println)
//4.關閉連接
sc.stop()
}
}

需求2：Top10熱門品類中每個品類的Top10活躍Session統計

需求分析

需求實現

1）累加器實現

//品類行為統計累加器
// ((鞋,click),1)
// ((鞋,order),1)
// ((鞋,pay),1)
// ((衣服,pay),1)
//3.3 繼承AccumulatorV2，聲明泛型
//3.4 重寫方法
class CategoryCountAccumulator extends AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]] {
var map = mutable.Map[(String, String), Long]()
override def isZero: Boolean = map.isEmpty
override def copy(): AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]] = {
new CategoryCountAccumulator()
}
override def reset(): Unit = map.clear()
override def add(action: UserVisitAction): Unit = {
// 鞋 click + 鞋 click ...+ 鞋 click => ((鞋,click),100)
// 鞋 order + 鞋 order ...+ 鞋 order =>((鞋,order),50)
if (action.click_category_id != -1) {
val key = (action.click_category_id.toString, "click")
map(key) = map.getOrElse(key, 0L) + 1L
} else if (action.order_category_ids != "null") {
val ids: Array[String] = action.order_category_ids.split(",")
for (id <- ids) {
val key = (id, "order")
map(key) = map.getOrElse(key, 0L) + 1L
}
} else if (action.pay_category_ids != "null") {
val ids: Array[String] = action.pay_category_ids.split(",")
for (id <- ids) {
val key = (id, "pay")
map(key) = map.getOrElse(key, 0L) + 1L
}
}
}
override def merge(other: AccumulatorV2[UserVisitAction, mutable.Map[(String, String), Long]]): Unit = {
other.value.foreach {
case (category, count) => {
map(category) = map.getOrElse(category, 0L) + count
}
}
}
override def value: mutable.Map[(String, String), Long] = map
}

2）核心邏輯實現

object require02_top10Category_sessionTop10 {
def main(args: Array[String]): Unit = {
//1.創建SparkConf並設置App名稱
val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
//2.創建SparkContext，該對象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 獲取原始數據
val dataRDD: RDD[String] = sc.textFile("input/user_visit_action.txt")
//3.2 將原始數據進行轉換
val actionRDD: RDD[UserVisitAction] = dataRDD.map {
data => {
val datas: Array[String] = data.split("_")
UserVisitAction(
datas(0),
datas(1).toLong,
datas(2),
datas(3).toLong,
datas(4),
datas(5),
datas(6).toLong,
datas(7).toLong,
datas(8),
datas(9),
datas(10),
datas(11),
datas(12).toLong
)
}
}
//3.5 創建累加器
val acc: CategoryCountAccumulator = new CategoryCountAccumulator()
//3.6 注冊累加器
sc.register(acc, "CategoryCountAccumulator")
//3.7 累加器添加數據
actionRDD.foreach(action => acc.add(action))
//3.8 獲取累加器的值
// ((鞋,click),10)
// ((鞋,order),5)
// =>(鞋，(click,order,pay))=>CategoryCountInfo
val accMap: mutable.Map[(String, String), Long] = acc.value
// 3.9 將累加器的值進行結構的轉換
val group: Map[String, mutable.Map[(String, String), Long]] = accMap.groupBy(_._1._1)
val infoes: immutable.Iterable[CategoryCountInfo] = group.map {
case (id, map) => {
val click = map.getOrElse((id, "click"), 0L)
val order = map.getOrElse((id, "order"), 0L)
val pay = map.getOrElse((id, "pay"), 0L)
CategoryCountInfo(id, click, order, pay)
}
}
//3.10 將轉換后的數據進行排序（降序），取前10
val sort: List[CategoryCountInfo] = infoes.toList.sortWith(
(left, right) => {
if (left.clickCount > right.clickCount) {
true
} else if (left.clickCount == right.clickCount) {
if (left.orderCount > right.orderCount) {
true
} else if (left.orderCount == right.orderCount) {
left.payCount > right.payCount
} else {
false
}
} else {
false
}
}
)
val top10Info: List[CategoryCountInfo] = sort.take(10)
//********************需求二********************************
//4.1 獲取Top10熱門品類
val ids: List[String] = top10Info.map(_.categoryId)
//4.2 ids變成廣播變量
val broadcastIds: Broadcast[List[String]] = sc.broadcast(ids)
//4.3 將原始數據進行過濾（保留前10熱門品類的數據，保留點擊數據）
val filterActionRDD: RDD[UserVisitAction] = actionRDD.filter(
action => {
if (action.click_category_id != -1) {
broadcastIds.value.contains(action.click_category_id.toString)
} else {
false
}
}
)
//4.4 對session點擊次數進行轉換：(categoryid-session, 1)
val idAndSessionToOneRDD: RDD[(String, Int)] = filterActionRDD.map(
action => (action.click_category_id + "--" + action.session_id, 1)
)
//4.5 對session點擊次數進行統計：(categoryid-session, sum)
val idAndSessionToSumRDD: RDD[(String, Int)] = idAndSessionToOneRDD.reduceByKey(_+_)
//4.6 將統計結果進行結構的轉換：(categoryid, (session,sum))
val idToSessionAndSumRDD: RDD[(String, (String, Int))] = idAndSessionToSumRDD.map {
case (key, sum) => {
val keys: Array[String] = key.split("--")
(keys(0), (keys(1), sum))
}
}
//4.7 將轉換結構后的數據根據品類進行分組：(categoryid, Iterator[(session,sum)])
val idToSessionAndSumGroupRDD: RDD[(String, Iterable[(String, Int)])] = idToSessionAndSumRDD.groupByKey()
//4.8 將分組后的數據進行排序（降序），取前10名
val resultRDD: RDD[(String, List[(String, Int)])] = idToSessionAndSumGroupRDD.mapValues {
datas => {
datas.toList.sortWith(
(left, right) => {
left._2 > right._2
}
).take(10)
}
}
resultRDD.foreach(println)
//5.關閉連接
sc.stop()
}
}

需求3：頁面單跳轉化率統計

需求分析

1）頁面單跳轉化率

計算頁面單跳轉化率，什么是頁面單跳轉換率，比如一個用戶在一次 Session 過程中訪問的頁面路徑 3,5,7,9,10,21，那么頁面 3 跳到頁面 5 叫一次單跳，7-9 也叫一次單跳，那么單跳轉化率就是要統計頁面點擊的概率。

比如：計算 3-5 的單跳轉化率，先獲取符合條件的 Session 對於頁面 3 的訪問次數（PV）為 A，然后獲取符合條件的 Session 中訪問了頁面 3 又緊接着訪問了頁面 5 的次數為 B，那么 B/A 就是 3-5 的頁面單跳轉化率。

2）統計頁面單跳轉化率意義

產品經理和運營總監，可以根據這個指標，去嘗試分析，整個網站，產品，各個頁面的表現怎么樣，是不是需要去優化產品的布局；吸引用戶最終可以進入最后的支付頁面。

數據分析師，可以此數據做更深一步的計算和分析。

企業管理層，可以看到整個公司的網站，各個頁面的之間的跳轉的表現如何，可以適當調整公司的經營戰略或策略。

3）需求詳細描述

在該模塊中，需要根據查詢對象中設置的Session過濾條件，先將對應得Session過濾出來，然后根據查詢對象中設置的頁面路徑，計算頁面單跳轉化率，比如查詢的頁面路徑為：3、5、7、8，那么就要計算3-5、5-7、7-8的頁面單跳轉化率。

需要注意的一點是，頁面的訪問是有先后的，要做好排序。

1、2、3、4、5、6、7

1-2/ 1 2-3/2 3-4/3 4-5/4 5-6/5 6-7/6

4）需求分析

用戶行為數據采集模擬

需求實現

1）代碼實現

object require03_PageFlow {
def main(args: Array[String]): Unit = {
//1.創建SparkConf並設置App名稱
val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
//2.創建SparkContext，該對象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 獲取原始數據
val lineRDD: RDD[String] = sc.textFile("input/user_visit_action.txt")
//3.2 將原始數據進行轉換
val actionRDD: RDD[UserVisitAction] = lineRDD.map {
line => {
val datas: Array[String] = line.split("_")
UserVisitAction(
datas(0),
datas(1).toLong,
datas(2),
datas(3).toLong,
datas(4),
datas(5),
datas(6).toLong,
datas(7).toLong,
datas(8),
datas(9),
datas(10),
datas(11),
datas(12).toLong
)
}
}
//3.3 定義要統計的頁面（只統計集合中規定的頁面跳轉率）
val ids = List(1, 2, 3, 4, 5, 6, 7)
// 准備過濾數據
val idZipList: List[String] = ids.zip(ids.tail).map {
case (pageId1, pageId2) => {
pageId1 + "-" + pageId2
}
}
//4 計算分母
val idsMap: Map[Long, Long] = actionRDD
// 過濾出要統計的page_id(由於最后一個頁面總次數，不參與運算，所以也過濾了)
.filter(action => ids.init.contains(action.page_id))
// 結構變換
.map(action => (action.page_id, 1L))
// 統計每個頁面的總次數
.reduceByKey(_ + _).collect().toMap
//5 計算分子
//5.1 將原始數據根據Session進行分組：(session,Iterable[UserVisitAction])
val sessionGroupRDD: RDD[(String, Iterable[UserVisitAction])] = actionRDD.groupBy(_.session_id)
//5.2 將分組后的數據根據時間進行排序（升序）:List((pageId1-pageId2))
val pageFlowRDD: RDD[List[String]] = sessionGroupRDD.mapValues(
datas => {
//5.2.1 對分組后的數據進行排序
val actions: List[UserVisitAction] = datas.toList.sortWith(
(left, right) => {
left.action_time < right.action_time
}
)
//5.2.2 獲取PageId
val pageidList: List[Long] = actions.map(_.page_id)
//5.2.3 形成單跳元組(pageId1, pageId2) (1,2,3,4…).zip((2,3,4…))
val pageToPageList: List[(Long, Long)] = pageidList.zip(pageidList.tail)
//5.2.4 變換結構
//=>List((pageId1-pageId2),(pageId2-pageId3),(pageId3-pageId4),(pageId4-pageId5),(pageId5-pageId6),(pageId6-pageId7))
val pageJumpCounts: List[String] = pageToPageList.map {
case (pageId1, pageId2) => {
pageId1 + "-" + pageId2
}
}
//5.2.5 再次進行過濾，減輕計算負擔
// 1-2 2-3 3-4 4-5 5-6 6-7
pageJumpCounts.filter(data => idZipList.contains(data))
}
).map(_._2)
// pageFlowRDD.foreach(println)
//6.聚合統計結果：(pageId1-pageId2, sum)
val pageFlowMapRDD: RDD[(String, Long)] = pageFlowRDD.flatMap(list => list).map((_, 1L)).reduceByKey(_ + _)
//7 計算頁面單跳轉換率
pageFlowMapRDD.foreach {
case (pageflow, sum) => {
val pageIds: Array[String] = pageflow.split("-")
val pageIdSum: Long = idsMap.getOrElse(pageIds(0).toLong, 1L)
println(pageflow + "=" + sum.toDouble / pageIdSum)
}
}
//8.關閉連接
sc.stop()
}
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sparkcore入門到實戰之（12）Spark讀取Hbase中的數據 Spark（十五）SparkCore的源碼解讀 [Spark] - SparkCore程序優化總結 spark學習（RDD案例實戰） spark 隨機森林算法案例實戰 Spark學習之路（十一）SparkCore的調優之Spark內存模型 Spark學習之路（八）SparkCore的調優之開發調優 Spark學習之路（九）SparkCore的調優之數據傾斜調優 Spark學習之路（十）SparkCore的調優之Shuffle調優 Spark-Sql之DataFrame實戰詳解

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM