当前位置: 首页 > 编程日记 > 正文

【NEON 】初探

NEON

文章目录

    • NEON
      • 1 neon窥探
        • 1.1 neon用途
        • 1.2 neon处理机制
        • 1.3 neon发展历程中的优缺点对比
        • 1.4 为什么使用neon
        • 1.5 Armv7/v8详细差异
        • 1.6 Register寄存器
        • 1.7 指令系统间的关系与1.3相似
      • 2 neon 使用
        • 2.1 neon 指令格式
        • 2.2 AArch64 NEON 指令语法
        • 2.3 NEON 指令
      • 3.1 RK3399资料

1 neon窥探

参考资料

1.1 neon用途

NEON 技术是适用于Arm Cortex-A 系列处理器的高级 SIMD(单指令多数据)架构。它可以加速多媒体和信号处理算法,例如视频编码器/解码器、2D/3D 图形、游戏、音频和语音处理、图像处理、电话和声音。

1.2 neon处理机制

NEON 指令执行“Packed SIMD”处理:

  1. 寄存器被视为相同数据类型元素的向量
  2. 数据类型可以是: ARM 32 位平台上的有符号/无符号 8 位、16 位、32 位、64 位、单精度浮点、单精度浮点和双精度浮点指向 ARM 64 位平台。
  3. 指令在所有通道中执行相同的操作

1.3 neon发展历程中的优缺点对比

在这里插入图片描述

在这里插入图片描述
Armv6:

  1. 在 32 位通用 ARM 寄存器上运行
  2. 8 位/16 位整数
  3. 每条指令 2x16 位/4x8 位操作

Armv7-A:

  1. 独立的寄存器组,32x64 位 NEON 寄存器
  2. 8/16/32/64 位整数
  3. 单精度浮点数
  4. 每条指令最多 16x8 位操作

Armv8-A AArch64:

  1. 独立的寄存器组,32x128 位 NEON 寄存器
  2. 8/16/32/64 位整数
  3. 单精度浮点数
  4. 双精度浮点,两者都符合IEEE
  5. 每条指令最多 16x8 位操作

1.4 为什么使用neon

  1. 对整数和浮点运算的支持确保了广泛的应用程序的适应性,从编解码器到高性能计算再到 3D 图形。
  2. 与 Arm 处理器的紧密耦合提供单一指令流和统一的内存视图,以更简单的工具流程呈现单一开发平台目标

1.5 Armv7/v8详细差异

Armv8-A 是对 Arm 架构的根本性改变。它支持称为“AArch64”的 64 位执行状态和新的 64 位指令集“A64”。为了提供与 Armv7-A(32 位架构)指令集的兼容性,提供了 Armv8-A“AArch32”的 32 位变体。大多数现有的 Armv7-A 代码都可以在 Armv8-A 的 AArch32 执行状态下运行。

本节比较了 Armv7-A 和 Armv8-A 架构的 NEON 相关特性。另外,NEON编程中经常用到的通用Arm寄存器和Arm指令也会被提及。但是,重点仍然是 NEON 技术。

1.6 Register寄存器

Armv7-A 和 AArch32 具有相同的通用 Arm 寄存器——16 x 32 位通用 Arm 寄存器 (R0-R15)。

Armv7-A 和 AArch32 具有 32 x 64 位 NEON 寄存器 (D0-D31)。这些寄存器也可以视为 16x128 位寄存器 (Q0-Q15)。每个 Q0-Q15 寄存器映射到一对 D 寄存器,如下图所示。
在这里插入图片描述
相比之下,AArch64 有 31 个 64 位通用 Arm 寄存器和 1 个具有不同名称的特殊寄存器,具体取决于使用它的上下文。这些寄存器可以被视为 31 x 64 位寄存器 (X0-X30) 或 31 x 32 位寄存器 (W0-W30)。

AArch64 有 32 x 128 位 NEON 寄存器 (V0-V31)。这些寄存器也可以被视为 32 位 Sn 寄存器或 64 位 Dn 寄存器。

在这里插入图片描述

1.7 指令系统间的关系与1.3相似

下图说明了 Armv7-A、Armv8-A AArch32 和 Armv8-A AArch64 指令集之间的关系。
在这里插入图片描述
Armv8-A AArch32指令集由A32(Arm指令集,32位定长指令集)和T32(Thumb指令集,16位定长指令集;Thumb2指令集,16或32位长指令集)组成指令系统)。它是 Armv7-A 指令集的超集,因此它保留了运行现有软件所需的向后兼容性。对 A32 和 T32 进行了一些添加以保持与 A64 指令集的对齐,包括 NEON 除法和加密扩展指令。还支持 NEON 双精度浮点(符合 IEEE)。

2 neon 使用

2.1 neon 指令格式

Armv7-A/AArch32 指令语法

Armv7-A/AAArch32 NEON 指令(与 VFP 一样)的所有助记符都以字母“V”开头。指令通常能够对不同的数据类型进行操作,这在指令编码中指定。尺寸用指令的后缀表示。元素的数量由指定的寄存器大小和操作的数据类型指示。指令具有以下一般格式:
指令具有以下一般格式:

V{<mod>}<op>{<shape>}{<cond>}{.<dt>}{<dest>}, src1, src2

其中:
== mod 修饰符
Q:指令采用饱和算法,使结果在指定数据类型范围内饱和,如VQABS、VQSHL等。
H:指令将结果减半。它通过右移一位(实际上是除以二并截断)来实现,例如 VHADD、VHSUB。
D:指令将结果加倍,如VQDMULL、VQDMLAL、VQDMLSL和VQ{R}DMULH
R:指令会对结果进行四舍五入,相当于在截断前给结果加0.5,如VRHADD、VRSHR。
op - 操作(例如,ADD、SUB、MUL)。==

<cond> - Condition, used with IT instruction<.dt> - Data type, such as s8, u8, f32 etc.<dest> - Destination<src1> - Source operand 1<src2> - Source operand 2

注: {} represents and optional parameter.代表可选参数。

Neon 数据处理指令通常有 Normal、Long、Wide 和 Narrow 变体。(注:vector对应32bit)
在这里插入图片描述

2.2 AArch64 NEON 指令语法

在 AArch64 执行状态下,NEON 指令的语法发生了变化。它可以描述如下:

{<prefix>}<op>{<suffix>} Vd.<T>, Vn.<T>, Vm.<T>

其中:

<prefix> - prefix, such as using S/U/F/P to represent signed/unsigned/float/bool data type.<op> – operation, such as ADD, AND etc.<suffix> - suffixP: “pairwise” operations, such as ADDP.
V: the new reduction (across-all-lanes) operations, such as FMAXV.
2:new widening/narrowing “second part” instructions, such as ADDHN2, SADDL2.

ADDHN2:将两个 128 位向量相加,产生一个 64 位向量结果,作为 NEON 寄存器的高 64 位部分存储。

SADDL2:将NEON寄存器的两个高64位向量相加,产生128位向量结果。


<T> - 数据类型,8B/16B/4H/8H/2S/4S/2D。
B 代表字节(8 位)。H 代表半字(16 位)。S 代表字(32 位)。D 代表一个双字(64 位)。
将两个 128 位向量相加,产生一个 64 位向量结果,作为 NEON 寄存器的高 64 位部分存储。

例如:

UADDLP    V0.8H, V0.16BFADD V0.4S, V0.4S, V0.4S

2.3 NEON 指令

3.1 RK3399资料

2大核A57 主频G1.8 ,4核A53 主频G1.4
https://www.forlinx.com/product/rk3399-99.html

相关文章:

sql 常用 语法

2019独角兽企业重金招聘Python工程师标准>>> 1. 字段 不重复 ALTER TABLE sys_workday ADD UNIQUE (ymd) ; 转载于:https://my.oschina.net/u/1760858/blog/838385

moravec 角点检测

#include <opencv2/opencv.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> using namespace std; using namespace cv; // MoravecCorners角点检测 cv::Mat MoravecCorners(cv::Mat srcImage, int kSize, int thresho…

js控制视频播放

2019独角兽企业重金招聘Python工程师标准>>> 1、js控制视频播放 1、页面html <div id"slide" class"videoWrap"></div><canvas v-show"!isShowVideoCover" id"canvas" class"videoCanvas"><…

valgrind-yyds——memcheck检查程序中的内存问题,如泄漏、越界、非法指针等。

Valgrind 用户手册 文章目录1. valgrind概述2. Valgrind 原理及安装2.1 [Valgrind 做了什么](https://www.valgrind.org/docs/manual/manual-core.html)2.2 安装3 内存检测3.1 memcheck 常用检测指令3 .2 内存检测结果3 .3 内存检测含义3 .4 内存检测更多例子1. valgrind概述 …

数据传送到后端(二)

先在myeclipse里建立上图文件&#xff0c;然后在TestServlet.java里面的doGet{}括号里面填入以下内容&#xff1a; public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { //解决中文乱码 request.setCharacte…

HSV 通道分离

// 转换成hsv cv::Mat img_h, img_s, img_v, imghsv;std::vector<cv::Mat> hsv_vec;cv::cvtColor(srcImage, imghsv, CV_BGR2HSV);cv::imshow("hsv", imghsv);cv::waitKey(0);// 分割hsv通道cv::split(imghsv, hsv_vec);img_h hsv_vec[0];img_s hsv_vec[1];i…

阿里云安全肖力:安全基础建设是企业数字化转型的基石

2019独角兽企业重金招聘Python工程师标准>>> 企业在享受数字化转型带来利好的同时&#xff0c;其面临的安全问题也愈发复杂。一方面&#xff0c;外部威胁不断升级&#xff0c;近期利用海量移动设备发起DDoS攻击的案例表明&#xff0c;黑灰产作案手法也在随着时代的发…

Shell 函数、数组与正则表达式

防伪码&#xff1a;白日依山尽&#xff0c;黄河入海流。5.1 函数格式&#xff1a;func() {command}示例 1&#xff1a;#!/bin/bashfunc() {echo "This is a function."}func# bash test.shThis is a function.Shell 函数很简单&#xff0c;函数名后跟双括号&#xf…

valgrind——Cachegrind分析CPU的cache命中率、丢失率,用于进行代码优化。

功能扩展1 Cachegrind 1.1 指令范式 单行最重要指令&#xff1a; valgrind --tool [default: memcheck] sunsun:~/workspace/deptrum$ valgrind --tool //table 查看工具 cachegrind callgrind drd exp-bbv exp-dhat exp-sgcheck getoff he…

细化 Sobel 边缘提取

bool SobelVerEdge(cv::Mat srcImage, cv::Mat& resultImage) {CV_Assert(srcImage.channels() 1);srcImage.convertTo(srcImage, CV_32FC1);// 水平方向的 Sobel 算子cv::Mat sobelx (cv::Mat_<float>(3, 3) << -0.125, 0, 0.125,-0.25, 0, 0.25,-0.125, 0,…

PRD 的编写和修改注意事项

2019独角兽企业重金招聘Python工程师标准>>> 每个操作的发生时机&#xff08;状态&#xff09;要搞清楚&#xff0c;表达逻辑时一定要用准确的词语&#xff0c;避免对自己和别人造成误会。状态图&#xff0c;标识状态的流转和事件发生点评审PRD时最好记录下修改的内…

valgrind——Callgrind检测程序代码的运行时间和调用过程,程序分析性能。

功能扩展1 callgrind 1.1 指令范式 valgrind --toolcallgrind --separate-threadsyes ./run1.2 install sudo apt-get update -y sudo apt-get install -y kcachegrind ref: 1.3 分析工具Kcachegrind Callgrind通过Valgrind框架使用运行时检测来进行缓存模拟和调用图生成…

车牌疑似区域点提取

// hsv 限定范围元素提取cv::Mat bw_blue ((img_h>0.45) &(img_h<0.75) &(img_s>0.15) &(img_v>0.25));int height bw_blue.rows;int width bw_blue.cols;cv::Mat bw_blue_edge cv::Mat::zeros(bw_blue.size(), bw_blue.type());cv::imshow("…

MySQL编码引发的两个问题

2019独角兽企业重金招聘Python工程师标准>>> 概述 先讲一下写该文章的原因&#xff0c;首先&#xff0c;工作中又遇到一条很熟悉的MySQL报错信息 Cause: java.sql.SQLException: Incorrect string value:Cause: java.sql.SQLException: Incorrect string value… &a…

valgrind——hisi平台valgrind

valgrind——hisi平台valgrind https://blog.csdn.net/lizhangping/article/details/51833997

Java23种设计模式学习笔记【目录总贴】

创建型模式&#xff1a;关注对象的创建过程 1、单例​模式&#xff1a;保证一个类只有一个实例&#xff0c;并且提供一个访问该实例的全局访问点 主要&#xff1a; 饿汉式&#xff08;线程安全&#xff0c;调用效率高&#xff0c;但是不能延时加载&#xff09; 懒汉式&#xff…

Hystrix 超时配置重写

2019独角兽企业重金招聘Python工程师标准>>> Configuration ConditionalOnProperty(value "spring.sleuth.feign.enabled", havingValue "false") Slf4j public class CommonHystrixConfiguration {/*** hystrix 超时时间*/static int hystri…

Linux系统/boot目录破损无法启动怎么办

豌豆贴心提醒&#xff0c;本文阅读时间5分钟&#xff0c;文末有秘密&#xff01;linux系统中的/boot目录存放着系统开机所需要的各种文件&#xff0c;其中包含内核、开机菜单及所需配置文件等等。但是当不小心删除了/boot目录里的某些文件或者干脆整个/boot目录都不见了的情况下…

分水岭图像分割

Mat watershedSegment(Mat & srcImage, int & noOfSegments) {Mat grayMat;Mat otsuMat;cvtColor(srcImage, grayMat, CV_BGR2GRAY);imshow("grayMat", grayMat);// 阈值操作threshold(grayMat, otsuMat, 0, 255, CV_THRESH_BINARY_INV CV_THRESH_OTSU);ims…

linux(armv7/8)下gdb的安装及查看方法

1. gdb安装 1.1 将gdb-10.1.tar.gz拷贝的/usr/local/目录下 &#xff08;可以拷贝到任何你愿意的Linux目录下&#xff09;或者进入 /usr/local中下载地址&#xff1a;http://ftp.gnu.org/gnu/gdb/ sudo wget http://ftp.gnu.org/gnu/gdb/gdb-10.1.tar.gz1.2 解压 gdb-10.1.t…

【数据排序】车厢重组

车厢重组 【题目描述】 在一个旧式的火车站旁边有一座桥&#xff0c;其桥面可以绕河中心的桥墩水平旋转。一个车站的职工发现桥的长度最多能容纳两节车厢&#xff0c;如果将桥旋转180度&#xff0c;则可以把相邻两节车厢的位置交换&#xff0c;用这种方法可以重新排列车厢的顺序…

adb部署记录

文章目录[1 \[NDK部署\]](https://dl.google.com/android/repository/android-ndk-r10e-linux-x86_64.zip?hlzh_cn)1.1 首先在本地部署adb&#xff08;NDK&#xff0c;已经完成编译&#xff0c;可以直接运行&#xff09;1.2 其次在远端部署 gdbserver2 系统依赖配置2.1 拉去远…

“”开天眼“”,天地分割效果

每日一句&#xff1a;Node.js uses an event-driven, non-blocking I/O model that makes it lightweight and efficient. (源于&#xff1a;nodejs的官网) 翻译&#xff1a;nodejs使用了事件驱动&#xff0c;非阻塞I/o的模型&#xff0c;这些模型是的它运行起来轻便而且有效率…

分水岭分割合并

void segMerge(Mat & image, Mat & segments, int & numSeg) {// 对一个分割部分进行像素统计vector<Mat> samples;// 统计数据更新int newNumSeg numSeg;// 初始化分割部分for (int i 0; i < numSeg; i){Mat sampleImage;samples.push_back(sampleImag…

post请求中的序列化

1.application/x-www-form-urlencoded序列化&#xff1a;encodeGET方式&#xff0c;会将表单中的数据&#xff08;键值对&#xff09;经过urlencode编码后追加到url中。POST方式&#xff0c;会将表单中的数据经过urlencode编码后放在request body 中。 ajax 之POST请求&#xf…

Vim----ma6174

ma6174 linux vim https://www.runoob.com/linux/linux-vim.html 具体详见&#xff1a;https://github.com/ma6174/vim https://www.cnblogs.com/ma6174/archive/2011/12/10/2283393.html set sw4 set ts4 set et set smarttab set smartindent set lbr set fomB set sm set…

FloodFill 图像分割

#include "opencv2/imgproc/imgproc.hpp" #include "opencv2/highgui/highgui.hpp" #include <iostream> using namespace cv; using namespace std; // 初识化参数 Mat image, gray, mask; int ffillMode 1; int loDiff 20, upDiff 20; int conn…

一起来学习PID

一起来学习PID

【Hello CSS】第一章-CSS的语法与工作流

作者&#xff1a;陈大鱼头github&#xff1a; KRISACHAN在上一篇【Hello CSS】的序章CSS起源中介绍了CSS的诞生原因以及发展历史&#xff0c;了解了CSS的存在意义。从正篇篇开始将会正式开始介绍CSS这门语言的特点与功能。本篇则主要介绍CSS的语法与CSS是如何工作的。 CSS语法 …

Gitlab CI(一)

Gitlab CI流程设计与思考 repo添加ci完整流程 新增Repo CI注册需要开发者提供的信息和我们这边需要反馈的信息。 CI注册需要提供的信息&#xff1a; 1. Repo url 2. 需要注册哪些CI服务器&#xff1a;Linux CI服务器、Windows CI服务器、rk3399性能测试CI服务、rk3399内存检测…