数据结构 -- 图与图存储
我们在使用像QQ ,微信,微博,快手,抖音等社交软件的过程中经常需要添加好友,关注好友和被好友关注。这个过程中 这样的社交网络中的好友关系就需要被存储下来,存储在各个公司的后台服务器之上,都会作为每个公司的数据资产来进行自己核心业务的开发(视频推荐、好友推荐。。。)
这个用来保存好友关系的数据结构就是 图,接下来探索一下这个非线性数据结构的基本实现。
图的一些基本概念如上导图,已经描述的很清楚了,这里重点说的是图的图存储方式。
基本的存储方式有两种:
- 邻接矩阵
- 邻接表
邻接矩阵的底层依赖一个二维数组。对于无向图来说,如果顶点i与顶点j之间有边,我们就将A[i][j]
和A[j][i]
标记为1;对于有向图来说,如果顶点i到顶点j之间,有 一条箭头从顶点i指向顶点j的边,那我们就将A[i][j]
标记为1。同理,如果有一条箭头从顶点j指向顶点i的边,我们就将A[j][i]
标记为1。对于带权图,数组中就存储 相应的权重。
用数组表示的底层数据结构能够提供高效的查找能力,但是缺点也很明显,就是浪费空间过于严重,针对无向图的存储中只需要保存一个A[i][j]
即可。
邻接表底层依赖链表进行数据存储,能够解决邻接矩阵浪费空间严重的问题,链表只有添加了新节点才会分配空间。整体的实现有点像散列表。
对于无向图来说,每一个顶点表示一个链表,与该顶点相连的其他顶点依次添加到该顶点的链表之上,类似如下:
有向图也是类似的,链表上仅保存该顶点指向的顶点
链表本身的查找效率比较低,需要顺链访问,在邻接表中可以将底层的链表存储结构用更加高效的动态查找数据结构来代替(链表和红黑树)。
以上数据结构都是存放在内存中的,但是实际的线上环境社交关系数据量以TB级别进行存储,这个时候数据量远超内存,便需要有持久化能力,需要对图的内存数据结构进行编码。
以邻接表距离,遍历邻接表,将顶点和对应链接顶点别编码为(user_id, follower_id),后续的关系依次追加。像常见的分布式图存储,大体也是类似的方式进行存储,只不过底层磁盘的编码格式更为复杂一点。可以类似与sst中的data_block,index block,footer 依次索引到datablock中,datablock保存实际的user_id和follower_id信息。
同时图存储 系统也希望将依赖于图的众多查找算法(bfs,dfs,djs,djkstra,A*,启发式搜索等)下沉到存储层,从而节省计算层的CPU开销。这时候,一个高效的分布式图存储系统的雏形边有了(只是单机的,分布式能力还是一大部分工作量),当然为用户提供可以访问的图语言也是完善系统的一部分。
接下来简单实现一下邻接表和邻接矩阵的图存储功能:
- 邻接表
graph_list.c
#include <stdio.h> #include <stdlib.h> #include <string.h>typedef struct Graph_vertex vertex;typedef struct Graph_edge { // 边struct Graph_vertex *v; // 该边链接的顶点struct Graph_edge *next; // 用链表管理的链接同一顶点的下一条边 }edge;typedef struct Graph_vertex { // 顶点int data; // 顶点的值edge *e; // 顶点的边 链表管理的相连接的边 }vertex;#define MAX_GRAPH (1 << 8) typedef struct Graph{vertex *vxs[MAX_GRAPH]; }graph;void init_graph(graph *g){int i = 0;for (;i < MAX_GRAPH; i++) {g->vxs[i] = NULL;} }/* 创建顶点 */ vertex *create_vertex(int data) {if(data < 0) {return NULL;}vertex * v = NULL;v = (vertex *)malloc(sizeof(vertex));if(v == NULL) {return NULL;}v->data = data+1;v->e = NULL;return v; }/* 创建边 */ edge *create_edge(vertex *v){if(v == NULL) {return NULL;}edge *e;e = (edge *)malloc(sizeof(edge));if(e == NULL) {return NULL;}e->v = v;e->next = NULL;return e; }/* 为顶点v1 插入边 */ void insert_edge(vertex *v1, vertex *v2) {if (v1 == NULL || v2 == NULL) {return;}edge **e;e = &v1->e;while(*e) {e = &(*e)->next;}*e = create_edge(v2); }/* 打印邻接表 */ void dump_graph(graph *g) {int i;for(i = 0;i < MAX_GRAPH; ++i) {vertex *v = g->vxs[i];edge *e;if(v == NULL) {continue; }printf("Vertex[%d]:%2d->",i+1, v->data);e = v->e;while(e) {if(e->next != NULL) {printf("%2d->", e->v->data);}else {printf("%2d", e->v->data);}e = e->next; }printf("\n");} }/* 1 ----- 2 ----- 3| / | /| / | / | / | / | / | / | / | / 4 ----- 5 */ void create_graph(graph *g) {int i = 0;init_graph(g);for (;i < 5; ++i) {g->vxs[i] = create_vertex(i);}// 链接1--2, 1--4insert_edge(g->vxs[0],g->vxs[1]);insert_edge(g->vxs[0],g->vxs[3]);// 链接2--1,2--3,2--4,2--5insert_edge(g->vxs[1],g->vxs[0]);insert_edge(g->vxs[1],g->vxs[2]);insert_edge(g->vxs[1],g->vxs[3]);insert_edge(g->vxs[1],g->vxs[4]);// 链接3--2,3--5insert_edge(g->vxs[2],g->vxs[2]);insert_edge(g->vxs[2],g->vxs[4]);// 链接4--1,4--2,4--5insert_edge(g->vxs[3],g->vxs[0]);insert_edge(g->vxs[3],g->vxs[1]);insert_edge(g->vxs[3],g->vxs[5]);// 链接5--2,5--3,5--4insert_edge(g->vxs[4],g->vxs[1]);insert_edge(g->vxs[4],g->vxs[2]);insert_edge(g->vxs[4],g->vxs[3]); }int main() {graph g;create_graph(&g);dump_graph(&g);return 0; }
- 邻接矩阵
graph_matrix.c
#include <stdio.h> #include <stdlib.h> #include <string.h>#define MAX_GRAPH (1 << 8)int *graph[MAX_GRAPH];void init_graph(int size) {if (size > MAX_GRAPH) {return ;}int i = 0;int j = 0;for (; i < size; ++i) {graph[i] = (int*)malloc(size*sizeof(int));for (;j < size; ++j){graph[i][j] = 0;}} }void add_edge(int v1, int v2) {graph[v1][v2] = 1;graph[v2][v1] = 1; }void print_graph(int size) {int i = 0;int j = 0;for (; i < size; ++i) {for (; j < size; ++j) {printf("%d ", graph[i][j]);}printf("\n");} }/* 1 ----- 2 ----- 3| / | /| / | / | / | / | / | / | / | / 4 ----- 5 */ void create_graph(int size) {init_graph(size);add_edge(0,1);add_edge(0,3);add_edge(1,0);add_edge(1,2);add_edge(1,3);add_edge(1,4);add_edge(2,1);add_edge(2,4);add_edge(3,0);add_edge(3,1);add_edge(3,4);add_edge(4,1);add_edge(4,2);add_edge(4,3); }int main() {create_graph(6);print_graph(6);return 0; }
相关文章:

Struts2 验证规则配置文件
1. Action级别校验命名格式: ActionClassName-validation.xml 2. Action中某个方法的校验命名格式: ActionClassName-ActionAliasName-validation.xml 注意:这里的ActionAliasName(action别名)指的是struts.xml中Action name"XX"的…

c语言中手机系统,一种手机课堂C语言编程系统的制作方法
技术特征:1.一种手机课堂C语言编程系统,其特征在于:该系统由手机端C语言编译运行单元、嵌入式主机端传输单元、台式机端显示单元和投影仪端显示单元组成;所述手机端C语言编译运行单元、嵌入式主机端传输单元、台式机端显示单元和投…

cpp中sizeof与指针
一直不清楚c的sizeof,现在通过实验得到了一些了解。 1 #include<iostream>2 3 using namespace std;4 5 class A{6 private:7 char * a1;8 // ! static int totalPeople0; //error: ISO C forbids in-class initialization of non-const static me…

利用Python制作简单的小程序:IP查看器
前言 说实话,查看电脑的IP,也挺无聊的,但是够简单,所以就从这里开始吧。IP地址在操作系统里就可以直接查看。但是除了IP地址,我们也想通过IP获取地理地址和网络运营商情况。IP地址和地理地址并没有固定的关系ÿ…

一文带你看透 GDB 的 实现原理 -- ptrace真香
文章目录Ptrace 的使用GDB 的基本实现原理Example1 通过ptrace 修改 被追踪进程的内存数据Example2 通过ptrace 对被追踪进程进行单步调试Ptrace的实现PTRACE_TRACEMEPTRACE_ATTACHPTRACE_CONTPTRACE_SINGLESTEPPTRACE_PEEKDATAPTRACE_POKEDATAPTRACE_GETREGSGDB本身能够attach…

线程使用 c语言,如何用C语言实现多线程
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼Windows操作系统,C语言实现多线程:#include #include DWORD APIENTRY ThreadOne ( LPVOID threadArg ){printf ( "线程开始啦,参数是:%s\n" , (char *)threadArg );return …

eclipse设置保护色非原创
eclipse操作界面默认颜色为白色。对于我们长期使用电脑编程的人来说,白色很刺激我们的眼睛,所以我经常会改变workspace的背景色,使眼睛舒服一些。设置方法如下:1、打开window->Preference,弹出Preference面板2、展开General标签…

markdown 使用
1:新手建议 2:windows下使用 http://markdownpad.com/ 3:linux http://benweet.github.io/stackedit/# 二:使用工具 mac http://moustand.com/windows http://markdownpad.com/http://wowubuntu.com/markdown/注:建议 …

python第九章:面向对象--小白博客
面向对象介绍 一、面向对象和面向过程 面向过程:核心过程二字,过程即解决问题的步骤,就是先干什么后干什么 基于该思想写程序就好比在这是一条流水线,是一种机械式的思维方式 优点:复杂的过程流程化 缺点&…

分布式一致性(共识)算法(Paxos,raft,ZAB)的一些总结
文章目录前言CAP理论C consistency 一致性A availability 可用性P partition tolerance 分区容错性一致性模型弱一致性强一致性强一致性算法需要明确的问题强一致算法: 主从同步强一致性算法:多数派强一致算法:PaxosBasic PaxosMulti Paxos第…

dedecms 财付通接口
用织梦做了个旅游网站,网址:http://www.redtourism.cn/ 客户要求财付通支付,上网找了下 不是要买就是要钱,只有自己写了。 代码: <?phpif(!defined(DEDEINC)) exit(Request Error!);/** *财付通接口类 */class ten…
r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记?
作者:一只想飞的喵审稿:童蒙编辑:angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值,且添加显著性标记。通常情况根据显著性p值的数值大小,分为四类:(1)0.01≤p<…

linux yum命令详解
yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器。基於RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软体包…

OpenCV编译viz模块
首先需要编译vtk。注意不要使用最新的master版本,而是使用tag分支下的最新版本。当前最新版本是https://gitlab.kitware.com/vtk/vtk/tree/v8.2.0版本。直接点击下载源码即可。 Cmake选项设置: 如果需要编译成静态库,需要在CXX_FLAGS、C_FLAG…

vim 成“神“之路 (一)
文章目录1. 安装1.1 linux1.2 MacOs的安装1.3 Windows的安装1.4 vim中文帮助文档安装2. vim基本概念和基础命令2.1 基本的键位映射如下:2.2 vim模式2.3 vim的选项和基本配置2.3.1 备份和跨会话撤销文件2.3.2 vim中支持鼠标3. vim 常用命令 -- 应对稍复杂任务3.1 光标移动3.2 文…

android 添加头参数,Retrofit添加header参数的几种方法
(1)使用注解的方式添加一个Header参数publicinterfaceUserService {Headers("Cache-Control: max-age640000")GET("/tasks")Call> getTasks();}添加多个Header参数publicinterfaceUserService {Headers({"Accept: application/vnd.yourapi.v1.full…

redis下载地址
http://www.newasp.net/soft/67186.html转载于:https://www.cnblogs.com/phpxuetang/p/4190999.html

Ubuntu 13.10 安装软件失败后出现的问题——已安装 post-installation 脚本 返回了错误号 1...
安装Oracle-java7-installer失败后,再次重新安装后出现错误~~ dpkg: error processing oracle-java7-installer (--configure): 子进程 已安装 post-installation 脚本 返回了错误号 1 索性执行 sudo apt-get install -f,我勒个…

C. Edgy Trees Codeforces Round #548 (Div. 2) 【连通块】
一、题面 here 二、分析 这题刚开始没读懂题意,后来明白了,原来就是一个数连通块里点数的问题。首先在建图的时候,只考虑红色路径上的点。为什么呢,因为为了不走红色的快,那么我们可以反着想只走红色的路径,…

设计模式 之美 -- 策略模式
策略模式作为行为型设计模式中的一种,主要封装相同功能的不同实现算法,用于在用户程序内部灵活切换。对用户来说能够快速替换对应的算法,能够让算法的实现独立于使用的用户。 基本的UML类图如下: 用户使用Stratey的实例能够快速…

Good Bye 2014 B. New Year Permutation(floyd )
题目链接 题意:给n个数,要求这n个数字小的尽量放到前面,求一个最小的。 给一个矩阵s[i][j]1,表示位置 i 的数字可以和 位置 j 的数字交换。 分析: 刚开始用的是3个循环,每次都找一个能直接连接的最小的放到前面&#x…

android数据库查找一个字符,Android - 如何在Firebase数据库中对字符串进行简单搜索?_android_开发99编程知识库...
这个问题可能很旧,但是,有一种文档化方式,如何实现这种方式,很简单,引用 :要启用云Firestore数据的全文搜索,请使用第三方搜索服务(如Algolia ,考虑一个笔记记录应用程序,…

料酒有什么用?
http://zhidao.baidu.com/question/201086759.html?frala&devicemobile&ssid0&from844b&uid0&pusz%401320_1001%2Cta%40iphone_2_4.1_3_537%2Cusm%400&bd_page_type1&baiduidDFA2DBA38D5C3AEB12431C4258DC1F40&tjzhidao_1_0_10_title

jmeter对自身性能的优化
测试环境 apache-jmeter-2.13 1. 问题描述 单台机器的下JMeter启动较大线程数时可能会出现运行报错的情况,或者在运行一段时间后,JMeter每秒生成的请求数会逐步下降,直到为0,即JMeter运行变得很“卡”。 2. 解决方法 1&#x…

站在历史的长河中做农活
苹果的生长周期 国庆节回老家呆了3天时间,陪爸爸妈妈吃喝吃睡,除此之外就是帮爸爸妈妈去家里的果园做一些农活。 我们老家的 苹果种植是家庭主要的收入,每一家人或多或少都有一些果园。从春的剪枝(高中生物中的降低顶端优势&…
html 基本用法
html表单表格基本用法,直接贴代码。 [html] view plaincopy<html> <head> <title>html基础</title> </head> </body> <center><h2><font color"CYAN">html基础&…

ecliplse 调试android 断点,如何在Github maven项目上开始调试
您将需要在 nifi-registry.sh 脚本中编辑此行以启用远程调试run_nifi_registry_cmd"${JAVA} -cp ${BOOTSTRAP_CLASSPATH} -Xms12m -Xmx24m ${BOOTSTRAP_DIR_PARAMS} org.apache.nifi.registry.bootstrap.RunNiFiRegistry $"它只是我,还是记忆足迹真的很小…

Linux认证体系
就像网络工程师的认证有思科系统和华为系列一样,Linux认证方面,不同的机构也有不同的证书,比如国内有红旗Linux的认证RCE(红旗Linux认证工程师),国际方面有红帽的认证RHCSA(Redhat认证的Linux系…

python2.7 Cheetah You don't have the C version of NameMapper installed
python2.7 Cheetah You dont have the C version of NameMapper installed 问题:You dont have the C version of NameMapper installed sudo vi /usr/lib/python2.7/site-packages/Cheetah/Compiler.py 将第1506行起以下代码注释掉: if not NameMapper.…

C++ 从双重检查锁定问题 到 内存屏障的一些思考
文章目录1. 问题描述2. DCLP 的问题 和 指令执行顺序2.1 Volatile 关键字2.2 C11 的内存模型3. C11内存模型 解决DCLP问题3.1 内存屏障和获得、释放语义3.2 atomic 的完整介绍3.2.1 原子操作的三种类型3.2.2 atomic 内存序3.2.3 atomic 成员函数4. 总结1. 问题描述 单例模式 是…