数据结构前言
数据结构是为实现对计算机数据有效使用的各种数据组织形式,服务于各类计算机操作。不同的数据结构具有各自对应的适用场景,旨在降低各种算法计算的时间与空间复杂度,达到最佳的任务执行效率。
如下图所示,常见的数据结构可分为「线性数据结构」与「非线性数据结构」,具体为:「数组」、「链表」、「栈」、「队列」、「树」、「图」、「散列表」、「堆」。
数组
数组是将相同类型的元素存储于连续内存空间的数据结构,其长度不可变。
「可变数组」是经常使用的数据结构,其基于数组和扩容机制实现,相比普通数组更加灵活。常用操作有:访问元素、添加元素、删除元素。
链表
链表以节点为单位,每个元素都是一个独立对象,在内存空间的存储是非连续的。链表的节点对象具有两个成员变量:「值 val
」,「后继节点引用 next
」 。
栈
栈是一种具有 「先入后出」 特点的抽象数据结构,可使用数组或链表实现。
队列
队列是一种具有 「先入先出」 特点的抽象数据结构,可使用链表实现。
树
树是一种非线性数据结构,根据子节点数量可分为 「二叉树」 和 「多叉树」,最顶层的节点称为「根节点 root」。以二叉树为例,每个节点包含三个成员变量:「值 val」、「左子节点 left」、「右子节点 right」 。
图
图是一种非线性数据结构,由「节点(顶点)vertex」和「边 edge」组成,每条边连接一对顶点。根据边的方向有无,图可分为「有向图」和「无向图」。本文 以无向图为例 开展介绍。
表示图的方法通常有两种:
邻接矩阵: 使用数组 vertices存储顶点,邻接矩阵 edges 存储边; edges[i][j] 代表节点 i + 1 和 节点 j + 1 之间是否有边。
邻接表: 使用数组 vertices 存储顶点,邻接表 edges 存储边。edges 为一个二维容器,第一维i 代表顶点索引,第二维edges[i] 存储此顶点对应的边集和;例如 edges[0]=[1,2,3,4] 代表 vertices[0] 的边集合为 [1, 2, 3, 4]。
邻接矩阵 VS 邻接表 :
邻接矩阵的大小只与节点数量有关,即 N^2,其中 N为节点数量。因此,当边数量明显少于节点数量时,使用邻接矩阵存储图会造成较大的内存浪费。
因此,邻接表 适合存储稀疏图(顶点较多、边较少); 邻接矩阵 适合存储稠密图(顶点较少、边较多)。
散列表
散列表是一种非线性数据结构,通过利用 Hash 函数将指定的「键 key
」映射至对应的「值 value
」,以实现高效的元素查找。
以上设计只适用于此示例,实际的 Hash 函数需保证低碰撞率、 高鲁棒性等,以适用于各类数据和场景。
堆:
堆是一种基于「完全二叉树」的数据结构,可使用数组实现。以堆为原理的排序算法称为「堆排序」,
基于堆实现的数据结构为「优先队列」。堆分为「大顶堆」和「小顶堆」,大(小)顶堆:任意节点的
值不大于(小于)其父节点的值
完全二叉树定义: 设二叉树深度为 k ,若二叉树除第 kk 层外的其它各层(第 1 至 k-1层)的节点
达到最大个数,且处于第 k 层的节点都连续集中在最左边,则称此二叉树为完全二叉树。