当前位置：首页 > 编程日记 > 正文

C语言的HashTable简单实现

编程日记 2024-12-03 23:10:00

原文地址：http://blog.csdn.net/zmxiangde_88/article/details/8025541

HashTable是在实际应用中很重要的一个结构，下面讨论一个简单的实现，虽然简单，但是该有的部分都还是有的。

一，访问接口

创建一个hashtable.

hashtable hashtable_new(int size) // size表示包含的接点个数。

存入key-value至hashtable中。

void hashtable_put(hashtable h,const char* key,void *val);

根据key从hashtable中取出value值。

void * hashtable_get(hashtable h,const char *key);

释放hashtable。

void hashtable_free(hashtable h);

释放单个hash 接点

void hashtable_delete_node(hashtable h, const char *key);

二，数据结构

hash接点的结构：

typedef struct hashnode_struct{struct hashnode_struct *next;const char *key;void *val;
}*hashnode,_hashnode;

这个结构还是很容易理解的，除了必须的key-value之外，包含一个用于冲突的链表结构。

hashtable的数据结构：

typedef struct hashtable_struct{pool_t p;int size;int count;struct hashnode_struct *z;
}*hashtable,_hashtable;

对这个结构说明如下：

pool_t：内存池结构管理hashtable使用的内存。结构参考"C语言内存池使用模型"

size：当前hash的接点空间大小。

count：用于表示当前接点空间中可用的hash接点个数。

z：用于在接点空间中存储接点。

三，创建hashtable

代码如下：

hashtable hashtable_new(int size)
{hashtable ht;pool_t p;p = _pool_new_heap(sizeof(_hashnode)*size + sizeof(_hashtable));ht= pool_malloc(p, sizeof(_hashtable));ht->size = size;ht->p = p;ht->z = pool_malloc(p, sizeof(_hashnode)*prime);return ht;
}

这个函数比较简单，先定义并初始化一个内存池，大小根据size而定，所以在实际使用时，我们的size应该要分配的相对大点，比较好。

四，存入key-value值

在这个操作之前，先要定义一个根据KEY值计算hashcode的函数。

static int hashcode(const char *s, int len)
{const unsigned char *name = (const unsigned char *)s;unsigned long h = 0, g;int i;for(i=0;i<len;i++){h = (h << 4) + (unsigned long)(name[i]); //hash左移4位，当前字符ASCII存入hash  if ((g = (h & 0xF0000000UL))!=0)     h ^= (g >> 24);h &= ~g;  //清空28-31位。 }return (int)h;
}

这个函数采用精典的ELF hash函数。

代码如下：

void hashtable_put(hashtable h, const char *key, void *val)
{if(h == NULL || key == NULL) 
<span>	</span>return;int len = strlen(key);int index = hashcode(key,len);hashtable node;h->dirty++;if((node = hashtable_node_get(h, key,len, index)) != NULL)  //如果已经存在，就替换成现在的值，因为现在的比较新。{n->key = key;n->val = val;return;}node = hashnode_node_new(h, index);  // 新建一个HASH NODE接点。node->key = key;node->val = val;
}

hashtable_node_get用于查找该KEY是否在HASH中已经存在，实现很简单，如下：

static hashnode hashtable_node_get(hashtable h, const char *key, int len, int index)
{hashnode node;int i = index % h->size;for(node = &h->z[i]; node != NULL; node = node->next) // 在index值 [HASH值] 所对应的HASH桶上遍历寻找if(node->key != NULL && (strlen(node->key)==len) && (strncmp(key, node->key, len) == 0))return node;return NULL;
}

新建一个HASH NODE接点如下：

static hashnode hashnode_node_new(hashtable h, int index)
{hashnode node;int i = index % h->size;h->count++;for(node = &h->z[i]; node != NULL; node = node->next)if(node->key == NULL)   //这里的处理是：如果在HASH桶中存在某个值，KEY是空的，表明这个值已经没有用了，就用它来替换为现在准备写入的新接点。return node;node = pool_malloc(h->p, sizeof(_hashnode)); // 新建一个接点node->next = h->z[i].next;   // 加入到桶中，就是加到链表的第一个接点。h->z[i].next = node;return node;
}

五，从HASHTABLE中获取接点

根据KEY从hashtable中获取接点，步骤是先根据KEY计算hash值，然后从hashtable中找到指定的接点或者接点链表。如下：

void *hashtable_get(hashtable h, const char *key)
{if(h == NULL || key == NULL) 
return NULL;
hashnode node;int len = strlen(key);
if(h == NULL || key == NULL || len <= 0 || (node = hashtable_node_get(h, key, len, hashcode(key,len))) == NULL)
{
return NULL;
}
return node->val;
}

这个函数就很容易理解了。

六，释放HASHTABLE

hashtable的释放就比较简单了，因为我们所有的内存申请都在内存池上完成的，就只需要释放内存池，如下：

void hashtable_free(hashtable h)
{if(h != NULL)pool_free(h->p);
}

七，释放单个hash接点

代码如下：

void hashtable_delete_node(hashtable h, const char *key)
{if(h == NULL || key == NULL) 
return;
hashnode node;int len = strlen(key);
if(h == NULL || key == NULL || (node = hashtable_node_get(h, key, len, hashcode(key,len))) == NULL)  //没有这个接点
return;node->key = NULL;
node->val = NULL;
h->count--;
}

void hashtable_delete_node(hashtable h, const char *key)
{if(h == NULL || key == NULL) return;hashnode node;int len = strlen(key);if(h == NULL || key == NULL || (node = hashtable_node_get(h, key, len, hashcode(key,len))) == NULL)  //没有这个接点return;node->key = NULL;node->val = NULL;h->count--;
}

这个就实现了一个简单的HASHTABLE结构，当然后还是有不足的，比如遍历HASHTABLE，如果用数组的方式来遍历，效率肯定很低，下面讨论一种实现方案，用于遍历hashtable.

八，hashtable的遍历讨论

直接用数组，就是hashtable中的struct hashnode_struct数组是可以遍历，但如果只包含一个接点，也要遍历所有的数组，如下遍历：

void hashtable_traverse(hashtable h)
{int i;hashnode node;if(h == NULL)return;for(i = 0; i < h->prime; i++)for(node = &h->z[i]; node != NULL; node = node->next)if(node->key != NULL && node->val != NULL)XXXXXXXXXXXXXXXXX  // 这里是一些操作。
}

这样效率很低，其实在接点中包含了next域，可以用这个来实现遍历。

需要对前面hashtable数据结构做简单的改动，增加两个域：

typedef struct hashtable_struct{pool_t p;int size;int count;struct hashnode_struct *z;int bucket;hashnode node;
}*hashtable,_hashtable;

就是增加了bucket和node两个域，加这两个域的思路是这样的：

node表示当前遍历的游标，在遍历过程中，不断的移动这个接点所指向的接点。
bucket是和node相关联的，用于记录当前的node在哪个桶上。

首先建立连接，就是将所有的接点都连接起来，按照惯例，也采用XXX_iter_first函数，先初始化，如下：

int hashtable_iter_first(hashtable h) {if(h == NULL) return 0;h->bucket = -1;h->node = NULL;return hashtable_iter_next(h);
}

hashtable_iter_next用于获取下一个接点，如果这时游标已经确定，那下一个接点就会被很快的被确定，定义如下：

int xhash_iter_next(xht h) {if(h == NULL) return 0;while(h->node != NULL) {h->node = h->node->next;   // 移向下一个接点，如果接点合法，返回成功if(h->node != NULL && h->node->key != NULL && h->node->val != NULL)return 1;}for(h->bucket++; h->bucket < h->prime; h->bucket++) {h->node = &h->z[h->bucket];while(h->node != NULL) {if(h->node->key != NULL && h->node->val != NULL)return 1;h->node = h->node->next;}}h->bucket = -1;  // 不存在下一个接点。h->node = NULL;return 0;
}

有了上面两个方法之后，遍历操作如下：

hashtable ht
if(hashtable_iter_first(ht))   //取第一个接点。 
do{// 此时可以处理ht->node，表示当前的接点。
}while(hashtable_iter_next(ht));  //取下一个接点

这样处理的话，是不是高效多了。当然在第一遍的时候，还是需要遍历整个数组和数组下的桶中接点。不过这样操作之后，在删除一个结点的时候，就需要做一些操作。删除一个接点时，需要考虑当前的h->node是不是当前被删除的接点，如果是，就把h->node称至下一个接点。就是删除之后，要作如下处理，假如删除了。

假如被删除的接点为node,需要如下处理：

    if(h->node == n)hashtable_iter_next(h);

    if(h->node == n)hashtable_iter_next(h);

将h->node移动到下一个接点。

https://www.dkcj.cn/info/30269.html

GitHub标星2000+，如何用30天啃完TensorFlow2.0？

作者 | 梁云1991来源 | Python与算法之美（ID:Python_Ai_Road）天下苦tensorflow久矣！尽管tensorflow2.0宣称已经为改善用户体验做出了巨大的改进，really easy to use，但大家学得并不轻松。tensorflow2.0官方文档和tenso…

编程日记2024/12/03 23:00:00

【Struts2学习笔记（1）】Struts2中Action名称的搜索顺序和多个Action共享一个视图--全局result配置...

一、Action名称的搜索顺序 1．获得请求路径的URI，比如url是：http://server/struts2/path1/path2/path3/test.action 2．首先寻找namespace为/path1/path2/path3的package，假设不存在这个package则运行步骤3；假…

编程日记2024/12/03 22:50:00

大话卷积神经网络CNN，小白也能看懂的深度学习算法教程，全程干货建议收藏！...

来源 | 程序员管小亮本文创作的主要目的，是对时下最火最流行的深度学习算法的基础知识做一个简介，作者看过许多教程，感觉对小白不是特别友好，尤其是在踩过好多坑之后，于是便有了写这篇文章的想法。由于文章较长&#x…

编程日记2024/12/03 22:40:00

频繁分配释放内存导致的性能问题的分析--brk和mmap的实现

现象1 压力测试过程中，发现被测对象性能不够理想，具体表现为： 进程的系统态CPU消耗20，用户态CPU消耗10，系统idle大约70 2 用ps -o majflt,minflt -C program命令查看，发现majflt每秒增量为0&…

编程日记2024/12/03 22:30:00

Linux 服务器日志文件查找技巧精粹

用来在日志文件里搜索特定活动事件的工具不下几十种，本文将介绍搜索日志文件时应该采取的策略。然后，通过几个具体示例介绍一些使用grep命令手动搜索日志文件的办法。接下来，我们将看到 logwatch工具和logsurfer工具的用法。最后，…

编程日记2024/12/03 22:20:00

程序猿面试什么最重要？

程序猿面试一直是社区乐于讨论的热门话题。我自己从06年实习以来。先后经历了4家软件公司。所有是外企。当中有世界500强的通信企业，有从事期权期货交易的欧洲中等规模的金融公司，也有为大型汽车制造商开发Android智能汽车的新兴公司。跨入IT行业以来。我…

编程日记2024/12/03 22:10:00

http://blog.chinaunix.net/uid-223060-id-2127385.html http://blog.csdn.net/hhtang/article/details/6605951 查看磁盘分区： #df -h #tune2fs -l /dev/mapper/VolGroup-lv_root 或者 #dumpe2fs /dev/mapper/VolGroup-lv_root|grep -i "block size"…

编程日记2024/12/03 22:00:00

2020 年，AI 芯片内存哪家强？

编程日记2024/12/03 21:50:00

Excel数字、文本混合列导入SQL Server出现的问题＆解决办法

编程日记2024/12/03 21:40:00

ARM 位置无关代码（PIC）的分析理解

2019独角兽企业重金招聘Python工程师标准>>> PIC的特点是： 它被加载到任意地址空间都可以正确的执行。其原理是PIC对常量和函数入口地址的操作都是基于PC偏移量的寻址方式。即使程序被移动，但是PC也变化了，而偏移量是不变的&#…

编程日记2024/12/03 21:30:00

Linux压缩/解压缩

编程日记2024/12/03 21:20:00

为什么校招面试中总被问“线程与进程的区别”？我该如何回答？

作者 | 宇宙之一粟责编 | 徐威龙出品 | AI 科技大本营（rgznai100）进程与线程？（Process vs. Thread？）面试官（正襟危坐中）：给我说说“线程”与“进程”吧。我（总…

编程日记2024/12/03 21:10:00

Linux线程编程

1.编译 undefined reference to pthread_create问题解决出现如下错误： undefined reference to pthread_create undefined reference to pthread_join 问题原因： pthread 库不是 Linux 系统默认的库，连接时需要使用静态库 libpthread…

编程日记2024/12/03 21:00:00

PHP引擎php.ini 和fastcti优化

1.1 php引擎缓存优化加速1）eaccelerator2）Zend3）xcache1.2 使用tmpfs作为缓存加速的的文件目录[rootLNMP ~]# mount -t tmpfs /dev/shm -o size256m[rootLNMP ~]# mount -t tmpfs /dev/shm/ /tmp/eaccelerator/提示：1、上传图片缩…

编程日记2024/12/03 20:50:00

从*p++说指针,数组,结构和函数

说明文中*p和*s都是一个东西，不做字面上的统一了。因为右结合性，*p 其实就是 *(p) 1.strlen的实现 #include <stdio.h> main(){char str[] "Abcde";printf("\n string %s length %d \n",str,str_length(str)); }int str…

编程日记2024/12/03 20:40:00

8比特数值也能训练模型？商汤提训练加速新算法丨CVPR 2020

出品 | AI科技大本营（ID:rgznai100）在CVPR 2020上，商汤研究院链接与编译团队、高性能计算团队和北航刘祥龙老师团队合作提出了用于加速卷积神经网络训练过程的INT8训练技术。该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传…

编程日记2024/12/03 20:30:00

×××作，不知写些什么

博客，老是有写的冲动，不过，没什么韧劲坚持，自己感觉文采一般般啦，有时兴起，挥毫泼墨，蜡笔重唱一番，呵呵，自个爽朗了，呵呵所以，自己坚持&#xff…

编程日记2024/12/03 20:20:00

centos7 install 安装mysql

CentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件，需要去官网上下载 # wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm # rpm -ivh mysql-community-release-el7-5.noarch.rpm # yum install mysql-community-server成功安装之…

编程日记2024/12/03 20:10:00

AI四巨头Google、DeepMind、Microsoft、Uber深度学习框架大比拼

编者按：Google、Uber、DeepMind和Microsoft这四大科技公司是当前将深度学习研究广泛应用于自身业务的典型代表，跻身全球深度学习研究水平最高的科技公司之列。GPipe、Horovod、TF Replicator和DeepSpeed分别是这四家公司开发应用的深度学习框架&#xff…

编程日记2024/12/03 20:00:00

转《刘润的数字化家庭》

数字家庭也是我的一大梦想，感谢刘润让我的想法更加丰富和具体。。。转载自刘润的博客，原文地址：http://blog.run2me.com/runliu/archive/2010/06/12/37082.aspx 1 of 22 （大图）：用数字化的技术&#xff0c…

编程日记2024/12/03 19:50:00

自己写的内存池Slabs

看memcached的源码写的，虽然很粗糙，但是基本思想还是有的，自娱自乐，后期不断改进。 #include <stdio.h> #include <stdlib.h> #include <string.h>struct st{void * start;void * end;char ptr[10]; }; struct …

编程日记2024/12/03 19:40:00

Eclispse Che（2）：启动Che服务，进入IDE界面

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/50888878 未经博主允许不得转载。博主地址是：http://blog.csdn.net/freewebsys 1，关于Docker 上次使用Che的时候没有成功创建Project。其实主要问题就是docker的网络问题。使用…

编程日记2024/12/03 19:30:00

使用strace和ltrace跟踪程序调用

ltrace能够跟踪进程的库函数调用,它会显现出哪个库函数被调用,而strace则是跟踪程序的每个系统调用.1.系统调用的输出对比程序代码：#include <stdio.h> main(){char str[] "Abcde";printf("\n string %s length %d \n",str,str_length(…

编程日记2024/12/03 19:20:00