【NEON 】初探
NEON
文章目录
- NEON
- 1 neon窥探
- 1.1 neon用途
- 1.2 neon处理机制
- 1.3 neon发展历程中的优缺点对比
- 1.4 为什么使用neon
- 1.5 Armv7/v8详细差异
- 1.6 Register寄存器
- 1.7 指令系统间的关系与1.3相似
- 2 neon 使用
- 2.1 neon 指令格式
- 2.2 AArch64 NEON 指令语法
- 2.3 NEON 指令
- 3.1 RK3399资料
1 neon窥探
参考资料
1.1 neon用途
NEON 技术是适用于Arm Cortex-A 系列处理器的高级 SIMD(单指令多数据)架构。它可以加速多媒体和信号处理算法,例如视频编码器/解码器、2D/3D 图形、游戏、音频和语音处理、图像处理、电话和声音。
1.2 neon处理机制
NEON 指令执行“Packed SIMD”处理:
- 寄存器被视为相同数据类型元素的向量
- 数据类型可以是: ARM 32 位平台上的有符号/无符号 8 位、16 位、32 位、64 位、单精度浮点、单精度浮点和双精度浮点指向 ARM 64 位平台。
- 指令在所有通道中执行相同的操作
1.3 neon发展历程中的优缺点对比
Armv6:
- 在 32 位通用 ARM 寄存器上运行
- 8 位/16 位整数
- 每条指令 2x16 位/4x8 位操作
Armv7-A:
- 独立的寄存器组,32x64 位 NEON 寄存器
- 8/16/32/64 位整数
- 单精度浮点数
- 每条指令最多 16x8 位操作
Armv8-A AArch64:
- 独立的寄存器组,32x128 位 NEON 寄存器
- 8/16/32/64 位整数
- 单精度浮点数
- 双精度浮点,两者都符合IEEE
- 每条指令最多 16x8 位操作
1.4 为什么使用neon
- 对整数和浮点运算的支持确保了广泛的应用程序的适应性,从编解码器到高性能计算再到 3D 图形。
- 与 Arm 处理器的紧密耦合提供单一指令流和统一的内存视图,以更简单的工具流程呈现单一开发平台目标
1.5 Armv7/v8详细差异
Armv8-A 是对 Arm 架构的根本性改变。它支持称为“AArch64”的 64 位执行状态和新的 64 位指令集“A64”。为了提供与 Armv7-A(32 位架构)指令集的兼容性,提供了 Armv8-A“AArch32”的 32 位变体。大多数现有的 Armv7-A 代码都可以在 Armv8-A 的 AArch32 执行状态下运行。
本节比较了 Armv7-A 和 Armv8-A 架构的 NEON 相关特性。另外,NEON编程中经常用到的通用Arm寄存器和Arm指令也会被提及。但是,重点仍然是 NEON 技术。
1.6 Register寄存器
Armv7-A 和 AArch32 具有相同的通用 Arm 寄存器——16 x 32 位通用 Arm 寄存器 (R0-R15)。
Armv7-A 和 AArch32 具有 32 x 64 位 NEON 寄存器 (D0-D31)。这些寄存器也可以视为 16x128 位寄存器 (Q0-Q15)。每个 Q0-Q15 寄存器映射到一对 D 寄存器,如下图所示。
相比之下,AArch64 有 31 个 64 位通用 Arm 寄存器和 1 个具有不同名称的特殊寄存器,具体取决于使用它的上下文。这些寄存器可以被视为 31 x 64 位寄存器 (X0-X30) 或 31 x 32 位寄存器 (W0-W30)。
AArch64 有 32 x 128 位 NEON 寄存器 (V0-V31)。这些寄存器也可以被视为 32 位 Sn 寄存器或 64 位 Dn 寄存器。
1.7 指令系统间的关系与1.3相似
下图说明了 Armv7-A、Armv8-A AArch32 和 Armv8-A AArch64 指令集之间的关系。
Armv8-A AArch32指令集由A32(Arm指令集,32位定长指令集)和T32(Thumb指令集,16位定长指令集;Thumb2指令集,16或32位长指令集)组成指令系统)。它是 Armv7-A 指令集的超集,因此它保留了运行现有软件所需的向后兼容性。对 A32 和 T32 进行了一些添加以保持与 A64 指令集的对齐,包括 NEON 除法和加密扩展指令。还支持 NEON 双精度浮点(符合 IEEE)。
2 neon 使用
2.1 neon 指令格式
Armv7-A/AArch32 指令语法
Armv7-A/AAArch32 NEON 指令(与 VFP 一样)的所有助记符都以字母“V”开头。指令通常能够对不同的数据类型进行操作,这在指令编码中指定。尺寸用指令的后缀表示。元素的数量由指定的寄存器大小和操作的数据类型指示。指令具有以下一般格式:
指令具有以下一般格式:
V{<mod>}<op>{<shape>}{<cond>}{.<dt>}{<dest>}, src1, src2
其中:
== mod 修饰符
Q:指令采用饱和算法,使结果在指定数据类型范围内饱和,如VQABS、VQSHL等。
H:指令将结果减半。它通过右移一位(实际上是除以二并截断)来实现,例如 VHADD、VHSUB。
D:指令将结果加倍,如VQDMULL、VQDMLAL、VQDMLSL和VQ{R}DMULH
R:指令会对结果进行四舍五入,相当于在截断前给结果加0.5,如VRHADD、VRSHR。
op - 操作(例如,ADD、SUB、MUL)。==
<cond> - Condition, used with IT instruction<.dt> - Data type, such as s8, u8, f32 etc.<dest> - Destination<src1> - Source operand 1<src2> - Source operand 2
注: {} represents and optional parameter.代表可选参数。
Neon 数据处理指令通常有 Normal、Long、Wide 和 Narrow 变体。(注:vector对应32bit)
2.2 AArch64 NEON 指令语法
在 AArch64 执行状态下,NEON 指令的语法发生了变化。它可以描述如下:
{<prefix>}<op>{<suffix>} Vd.<T>, Vn.<T>, Vm.<T>
其中:
<prefix> - prefix, such as using S/U/F/P to represent signed/unsigned/float/bool data type.<op> – operation, such as ADD, AND etc.<suffix> - suffixP: “pairwise” operations, such as ADDP.
V: the new reduction (across-all-lanes) operations, such as FMAXV.
2:new widening/narrowing “second part” instructions, such as ADDHN2, SADDL2.
ADDHN2:将两个 128 位向量相加,产生一个 64 位向量结果,作为 NEON 寄存器的高 64 位部分存储。
SADDL2:将NEON寄存器的两个高64位向量相加,产生128位向量结果。
<T> - 数据类型,8B/16B/4H/8H/2S/4S/2D。
B 代表字节(8 位)。H 代表半字(16 位)。S 代表字(32 位)。D 代表一个双字(64 位)。
将两个 128 位向量相加,产生一个 64 位向量结果,作为 NEON 寄存器的高 64 位部分存储。
例如:
UADDLP V0.8H, V0.16BFADD V0.4S, V0.4S, V0.4S
2.3 NEON 指令
3.1 RK3399资料
2大核A57 主频G1.8 ,4核A53 主频G1.4
https://www.forlinx.com/product/rk3399-99.html
相关文章:

sql 常用 语法
2019独角兽企业重金招聘Python工程师标准>>> 1. 字段 不重复 ALTER TABLE sys_workday ADD UNIQUE (ymd) ; 转载于:https://my.oschina.net/u/1760858/blog/838385

moravec 角点检测
#include <opencv2/opencv.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> using namespace std; using namespace cv; // MoravecCorners角点检测 cv::Mat MoravecCorners(cv::Mat srcImage, int kSize, int thresho…

js控制视频播放
2019独角兽企业重金招聘Python工程师标准>>> 1、js控制视频播放 1、页面html <div id"slide" class"videoWrap"></div><canvas v-show"!isShowVideoCover" id"canvas" class"videoCanvas"><…

valgrind-yyds——memcheck检查程序中的内存问题,如泄漏、越界、非法指针等。
Valgrind 用户手册 文章目录1. valgrind概述2. Valgrind 原理及安装2.1 [Valgrind 做了什么](https://www.valgrind.org/docs/manual/manual-core.html)2.2 安装3 内存检测3.1 memcheck 常用检测指令3 .2 内存检测结果3 .3 内存检测含义3 .4 内存检测更多例子1. valgrind概述 …

数据传送到后端(二)
先在myeclipse里建立上图文件,然后在TestServlet.java里面的doGet{}括号里面填入以下内容: public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { //解决中文乱码 request.setCharacte…

HSV 通道分离
// 转换成hsv cv::Mat img_h, img_s, img_v, imghsv;std::vector<cv::Mat> hsv_vec;cv::cvtColor(srcImage, imghsv, CV_BGR2HSV);cv::imshow("hsv", imghsv);cv::waitKey(0);// 分割hsv通道cv::split(imghsv, hsv_vec);img_h hsv_vec[0];img_s hsv_vec[1];i…

阿里云安全肖力:安全基础建设是企业数字化转型的基石
2019独角兽企业重金招聘Python工程师标准>>> 企业在享受数字化转型带来利好的同时,其面临的安全问题也愈发复杂。一方面,外部威胁不断升级,近期利用海量移动设备发起DDoS攻击的案例表明,黑灰产作案手法也在随着时代的发…

Shell 函数、数组与正则表达式
防伪码:白日依山尽,黄河入海流。5.1 函数格式:func() {command}示例 1:#!/bin/bashfunc() {echo "This is a function."}func# bash test.shThis is a function.Shell 函数很简单,函数名后跟双括号…

valgrind——Cachegrind分析CPU的cache命中率、丢失率,用于进行代码优化。
功能扩展1 Cachegrind 1.1 指令范式 单行最重要指令: valgrind --tool [default: memcheck] sunsun:~/workspace/deptrum$ valgrind --tool //table 查看工具 cachegrind callgrind drd exp-bbv exp-dhat exp-sgcheck getoff he…

细化 Sobel 边缘提取
bool SobelVerEdge(cv::Mat srcImage, cv::Mat& resultImage) {CV_Assert(srcImage.channels() 1);srcImage.convertTo(srcImage, CV_32FC1);// 水平方向的 Sobel 算子cv::Mat sobelx (cv::Mat_<float>(3, 3) << -0.125, 0, 0.125,-0.25, 0, 0.25,-0.125, 0,…

PRD 的编写和修改注意事项
2019独角兽企业重金招聘Python工程师标准>>> 每个操作的发生时机(状态)要搞清楚,表达逻辑时一定要用准确的词语,避免对自己和别人造成误会。状态图,标识状态的流转和事件发生点评审PRD时最好记录下修改的内…

valgrind——Callgrind检测程序代码的运行时间和调用过程,程序分析性能。
功能扩展1 callgrind 1.1 指令范式 valgrind --toolcallgrind --separate-threadsyes ./run1.2 install sudo apt-get update -y sudo apt-get install -y kcachegrind ref: 1.3 分析工具Kcachegrind Callgrind通过Valgrind框架使用运行时检测来进行缓存模拟和调用图生成…

车牌疑似区域点提取
// hsv 限定范围元素提取cv::Mat bw_blue ((img_h>0.45) &(img_h<0.75) &(img_s>0.15) &(img_v>0.25));int height bw_blue.rows;int width bw_blue.cols;cv::Mat bw_blue_edge cv::Mat::zeros(bw_blue.size(), bw_blue.type());cv::imshow("…

MySQL编码引发的两个问题
2019独角兽企业重金招聘Python工程师标准>>> 概述 先讲一下写该文章的原因,首先,工作中又遇到一条很熟悉的MySQL报错信息 Cause: java.sql.SQLException: Incorrect string value:Cause: java.sql.SQLException: Incorrect string value… &a…

valgrind——hisi平台valgrind
valgrind——hisi平台valgrind https://blog.csdn.net/lizhangping/article/details/51833997

Java23种设计模式学习笔记【目录总贴】
创建型模式:关注对象的创建过程 1、单例模式:保证一个类只有一个实例,并且提供一个访问该实例的全局访问点 主要: 饿汉式(线程安全,调用效率高,但是不能延时加载) 懒汉式ÿ…

Hystrix 超时配置重写
2019独角兽企业重金招聘Python工程师标准>>> Configuration ConditionalOnProperty(value "spring.sleuth.feign.enabled", havingValue "false") Slf4j public class CommonHystrixConfiguration {/*** hystrix 超时时间*/static int hystri…
Linux系统/boot目录破损无法启动怎么办
豌豆贴心提醒,本文阅读时间5分钟,文末有秘密!linux系统中的/boot目录存放着系统开机所需要的各种文件,其中包含内核、开机菜单及所需配置文件等等。但是当不小心删除了/boot目录里的某些文件或者干脆整个/boot目录都不见了的情况下…

分水岭图像分割
Mat watershedSegment(Mat & srcImage, int & noOfSegments) {Mat grayMat;Mat otsuMat;cvtColor(srcImage, grayMat, CV_BGR2GRAY);imshow("grayMat", grayMat);// 阈值操作threshold(grayMat, otsuMat, 0, 255, CV_THRESH_BINARY_INV CV_THRESH_OTSU);ims…

linux(armv7/8)下gdb的安装及查看方法
1. gdb安装 1.1 将gdb-10.1.tar.gz拷贝的/usr/local/目录下 (可以拷贝到任何你愿意的Linux目录下)或者进入 /usr/local中下载地址:http://ftp.gnu.org/gnu/gdb/ sudo wget http://ftp.gnu.org/gnu/gdb/gdb-10.1.tar.gz1.2 解压 gdb-10.1.t…

【数据排序】车厢重组
车厢重组 【题目描述】 在一个旧式的火车站旁边有一座桥,其桥面可以绕河中心的桥墩水平旋转。一个车站的职工发现桥的长度最多能容纳两节车厢,如果将桥旋转180度,则可以把相邻两节车厢的位置交换,用这种方法可以重新排列车厢的顺序…

adb部署记录
文章目录[1 \[NDK部署\]](https://dl.google.com/android/repository/android-ndk-r10e-linux-x86_64.zip?hlzh_cn)1.1 首先在本地部署adb(NDK,已经完成编译,可以直接运行)1.2 其次在远端部署 gdbserver2 系统依赖配置2.1 拉去远…

“”开天眼“”,天地分割效果
每日一句:Node.js uses an event-driven, non-blocking I/O model that makes it lightweight and efficient. (源于:nodejs的官网) 翻译:nodejs使用了事件驱动,非阻塞I/o的模型,这些模型是的它运行起来轻便而且有效率…

分水岭分割合并
void segMerge(Mat & image, Mat & segments, int & numSeg) {// 对一个分割部分进行像素统计vector<Mat> samples;// 统计数据更新int newNumSeg numSeg;// 初始化分割部分for (int i 0; i < numSeg; i){Mat sampleImage;samples.push_back(sampleImag…

post请求中的序列化
1.application/x-www-form-urlencoded序列化:encodeGET方式,会将表单中的数据(键值对)经过urlencode编码后追加到url中。POST方式,会将表单中的数据经过urlencode编码后放在request body 中。 ajax 之POST请求…

Vim----ma6174
ma6174 linux vim https://www.runoob.com/linux/linux-vim.html 具体详见:https://github.com/ma6174/vim https://www.cnblogs.com/ma6174/archive/2011/12/10/2283393.html set sw4 set ts4 set et set smarttab set smartindent set lbr set fomB set sm set…

FloodFill 图像分割
#include "opencv2/imgproc/imgproc.hpp" #include "opencv2/highgui/highgui.hpp" #include <iostream> using namespace cv; using namespace std; // 初识化参数 Mat image, gray, mask; int ffillMode 1; int loDiff 20, upDiff 20; int conn…

一起来学习PID
一起来学习PID

【Hello CSS】第一章-CSS的语法与工作流
作者:陈大鱼头github: KRISACHAN在上一篇【Hello CSS】的序章CSS起源中介绍了CSS的诞生原因以及发展历史,了解了CSS的存在意义。从正篇篇开始将会正式开始介绍CSS这门语言的特点与功能。本篇则主要介绍CSS的语法与CSS是如何工作的。 CSS语法 …

Gitlab CI(一)
Gitlab CI流程设计与思考 repo添加ci完整流程 新增Repo CI注册需要开发者提供的信息和我们这边需要反馈的信息。 CI注册需要提供的信息: 1. Repo url 2. 需要注册哪些CI服务器:Linux CI服务器、Windows CI服务器、rk3399性能测试CI服务、rk3399内存检测…