当前位置: 首页 > 编程日记 > 正文

为pony程序添加IACA标记(二)

在上一篇文章介绍了一种加IACA标记的方法,但使用还是很麻烦,所以我尝试修改pony编译器,直接增加了IACA支持,目前代码在iaca分支。

使用方法

因为还没发PR到上游,所以要自己克隆编译。

git clone https://github.com/oraoto/ponyc.git
cd ponyc
git checkout iaca

然后安装官方的编译步骤编译就好了,通常就是一句make

在需要添加IACA标记的代码加上IACA.start()IACA.stop()就可以了。以pony-websocket里的代码为例:

while (i + 4) < size doIACA.start()p(i)?     = p(i)?     xor m1p(i + 1)? = p(i + 1)? xor m2p(i + 2)? = p(i + 2)? xor m3p(i + 3)? = p(i + 3)? xor m4i = i + 4
end
IACA.stop()

编译后就可以用iaca进行分析了:

$ iaca ./echo-server.exeF:\build > iaca .\echo-server.exe
Intel(R) Architecture Code Analyzer Version -  v3.0-28-g1ba2cbb build date: 2017-10-23;17:30:24
Analyzed File -  .\echo-server.exe
Binary Format - 64Bit
Architecture  -  SKL
Analysis Type - ThroughputThroughput Analysis Report
--------------------------
Block Throughput: 6.74 Cycles       Throughput Bottleneck: Dependency chains
Loop Count:  22
Port Binding In Cycles Per Iteration:
--------------------------------------------------------------------------------------------------
|  Port  |   0   -  DV   |   1   |   2   -  D    |   3   -  D    |   4   |   5   |   6   |   7   |
--------------------------------------------------------------------------------------------------
| Cycles |  2.5     0.0  |  2.5  |  4.0     4.0  |  4.0     4.0  |  4.0  |  2.5  |  2.5  |  0.0  |
--------------------------------------------------------------------------------------------------DV - Divider pipe (on port 0)
D - Data fetch pipe (on ports 2 and 3)
F - Macro Fusion with the previous instruction occurred
* - instruction micro-ops not bound to a port
^ - Micro Fusion occurred
# - ESP Tracking sync uop was issued
@ - SSE instruction followed an AVX256/AVX512 instruction, dozens of cycles penalty is expected
X - instruction not supported, was not accounted in Analysis| Num Of   |                    Ports pressure in cycles                         |      |
|  Uops    |  0  - DV    |  1   |  2  -  D    |  3  -  D    |  4   |  5   |  6   |  7   |
-----------------------------------------------------------------------------------------
|   1*     |             |      |             |             |      |      |      |      | cmp rax, rbx
|   0*F    |             |      |             |             |      |      |      |      | jbe 0x95
|   4      |             | 0.5  | 1.0     1.0 | 1.0     1.0 | 1.0  |      | 0.5  |      | xor byte ptr [rdi+rbx*1], r8b
|   1      |             | 0.5  |             |             |      | 0.5  |      |      | lea rsi, ptr [rbx+0x1]
|   1*     |             |      |             |             |      |      |      |      | cmp rax, rsi
|   0*F    |             |      |             |             |      |      |      |      | jbe 0x8b
|   4      | 0.5         |      | 1.0     1.0 | 1.0     1.0 | 1.0  |      | 0.5  |      | xor byte ptr [rdi+rbx*1+0x1], r9b
|   1      | 0.5         |      |             |             |      | 0.5  |      |      | add rsi, 0x1
|   1*     |             |      |             |             |      |      |      |      | cmp rax, rsi
|   0*F    |             |      |             |             |      |      |      |      | jbe 0x80
|   4      |             | 0.5  | 1.0     1.0 | 1.0     1.0 | 1.0  |      | 0.5  |      | xor byte ptr [rdi+rbx*1+0x2], r10b
|   1      | 0.5         |      |             |             |      | 0.5  |      |      | add rsi, 0x1
|   1*     |             |      |             |             |      |      |      |      | cmp rax, rsi
|   0*F    |             |      |             |             |      |      |      |      | jbe 0x75
|   4      |             | 0.5  | 1.0     1.0 | 1.0     1.0 | 1.0  |      | 0.5  |      | xor byte ptr [rdi+rbx*1+0x3], r11b
|   1      |             | 0.5  |             |             |      | 0.5  |      |      | lea rdx, ptr [rsi+0x5]
|   1      | 0.5         |      |             |             |      |      | 0.5  |      | add rsi, 0x1
|   1*     |             |      |             |             |      |      |      |      | cmp rdx, rax
|   0*F    |             |      |             |             |      |      |      |      | jb 0xffffffffffffffab
|   1      | 0.5         |      |             |             |      | 0.5  |      |      | add rbx, 0x4
Total Num Of Uops: 27

实现方式

pony的builtin包里,有些代码是这样的:

fun _apply(i: USize): this->A =>compile_intrinsicfun ref _update(i: USize, value: A!): A^ =>compile_intrinsicfun _offset(n: USize): this->Pointer[A] =>compile_intrinsic

函数体只有一句compile_intrinsic,这些函数编译器内置的,可以直接生成代码。所以我直接在builtin包里加了

primitive IACAfun start(): None => compile_intrinsicfun stop(): None => compile_intrinsic

这时编译是不通过的,因为编译器还不知道怎样编译这两个函数,所以要在编译器里“注册”,这里只要参考Platform包的处理就可以了。

实际生成代码的方法:

static void iaca_start(compile_t* c, reach_type_t* t, token_id cap)
{FIND_METHOD("start", cap);compile_type_t* t_result = (compile_type_t*)m->result->c_type;start_function(c, t, m, t_result->use_type, &c_t->use_type, 1);LLVMAddFunctionAttr(c_m->func, LLVMAlwaysInlineAttribute);LLVMTypeRef void_fn = LLVMFunctionType(c->void_type, NULL, 0, false);LLVMValueRef asmstr = LLVMConstInlineAsm(void_fn,".byte 0xbb, 0x6f, 0, 0, 0, 0x64, 0x67, 0x90", "", true, false);LLVMValueRef call = LLVMBuildCall(c->builder, asmstr, NULL, 0, "");LLVMBuildRet(c->builder, t_result->instance);codegen_finishfun(c);
}

就是是生成一句inline asm的LLVM IR。不经优化生成的IR是这样的:

while_body:                                       ; preds = %invoke13, %while_init%28 = call fastcc %IACA* @IACA_val_create_o(%IACA* @IACA_Inst), !dbg !5828, !pony.newcall !3%29 = call fastcc %None* @IACA_val_start_o(%IACA* %28), !dbg !5830; Function Attrs: alwaysinline
define fastcc %None* @IACA_val_start_o(%IACA* noalias readonly dereferenceable(8)) unnamed_addr #7 !pony.abi !3 {
entry:call void asm sideeffect ".byte 0xbb, 0x6f, 0, 0, 0, 0x64, 0x67, 0x90", ""()ret %None* @None_Inst
}

没错,生成的是个函数调用,所以我们依赖于优化把这个函数内联到调用点,优化的结果是:

; <label>:38:                                     ; preds = %35, %67%39 = phi i64 [ %71, %67 ], [ 0, %35 ]tail call void asm sideeffect ".byte 0xbb, 0x6f, 0, 0, 0, 0x64, 0x67, 0x90", ""() #2%40 = icmp ugt i64 %4, %39br i1 %40, label %43, label %41

这就是我们要的。

目前的不足是,因为还是生成了函数的代码,iaca有时会分析错位置,会出现下面的结果:


| Num Of   |                    Ports pressure in cycles                         |      |
|  Uops    |  0  - DV    |  1   |  2  -  D    |  3  -  D    |  4   |  5   |  6   |  7   |
-----------------------------------------------------------------------------------------
|   1      |             |      |             |             |      | 1.0  |      |      | lea rax, ptr [rip+0x71a8]
|   3^#    |             |      | 1.0     1.0 |             |      |      | 0.1  |      | ret
|   1      | 0.4         |      |             |             |      |      | 0.6  |      | mov ebx, 0x6f
|   1      | 0.6         |      |             |             |      |      | 0.4  |      | addr32 nop
|   1      |             | 1.0  |             |             |      |      |      |      | lea rax, ptr [rip+0x71a8]
|   3^     |             |      |             | 1.0     1.0 |      |      |      |      | ret
Total Num Of Uops: 10

编译结果居然不是确定的?遇到这种情况,现在只能再编译,直到出现正确的结果。

相关文章:

Python培训就业怎么样?

学习Python技术的同学越来越多&#xff0c;很多人都比较看好Python这项技术&#xff0c;觉得Python的前景是不错的&#xff0c;那么具体Python培训就业怎么样呢?来看看下面的详细介绍就知道了。 Python培训就业怎么样?国家大力推行互联网人工之智能技术、大数据技术等&#x…

Oracle Connect to an idle instance

意思是数据库没有启动。转载于:https://www.cnblogs.com/vigarbuaa/archive/2012/09/05/2671825.html

【青少年编程】【Scratch】10 画笔模块

10 画笔模块 有关于画笔模块&#xff0c;需要掌握以下两个方面的内容&#xff1a; 能够设置画笔的属性&#xff1a;颜色、粗细、亮度/饱和度/透明度能够使用画笔绘制各种图案&#xff1a;抬笔、落笔、擦除 1. 使用者可以设置各种画笔属性。 另外&#xff0c;可以将角色设置为…

4-1 ADO.NET简介

第四章ADO.NET数据库访问技术本章内容4-1 ADO.NET 简介4-2 ADO.NET&#xff0d;插入、删除、修改、检索数据4-3 DataGridView 控件 — 显示和操作数据4-4本章小结 本章重点介绍WINDOWS应用程序对数据访问所涉及的SYSTEM.DATA.SQLCLIENT、SYSTEM.DATA.OLEDB、SYSTEM.DATA.ORA…

Java培训出来后一般多少工资

学完Java培训出来后一般多少工资呢?这是很多人都比较关心的一个问题&#xff0c;小编在这里告诉大家&#xff0c;java技术这个岗位分为初级、中级和高级&#xff0c;每个等级的工资情况也是不一样&#xff0c;来看看下面的详细介绍。 Java培训出来后一般多少工资?Java程序员薪…

NeHe OpenGL第四十一课:体积雾气

NeHe OpenGL第四十一课&#xff1a;体积雾气 体积雾气 把雾坐标绑定到顶点&#xff0c;你可以在雾中漫游&#xff0c;体验一下吧。 这一课我们将介绍体积雾&#xff0c;为了运行这个程序&#xff0c;你的显卡必须支持扩展"GL_EXT_fot_coord"。 #include <wi…

如何做中文文本的情感分析?

如何做中文文本的情感分析&#xff1f; 这是本学期在大数据哲学与社会科学实验室做的第三次分享了。 第一次分享的是&#xff1a;如何利用“wordcloudjieba”制作中文词云&#xff1f; 第二次分享的是&#xff1a;如何爬取知乎中问题的回答以及评论的数据&#xff1f; 本次…

java游戏开发--连连看-让程序运行更稳定、更高效

之六&#xff09;优化&#xff1a;让程序运行更稳定、更高效 改善游戏的合理性 到目前为止&#xff0c;我们的游戏基本上算是完成了&#xff0c;为了使程序更合理&#xff0c;我们还需要将整个程序从头再理一遍&#xff0c;看看有没有改进的地方。 首先&#xff0c;在变量的…

学java是不是必须要参加java培训班?

学java是不是必须要参加java培训班?java技术对于零基础的同学来说学习起来是比较困难的&#xff0c;所以对于这个问题&#xff0c;小编的回答是当然要参加java培训班进行系统学习&#xff0c;下面来看看到底有没有必要报班学习? 学java是不是必须要参加java培训班?学习Java无…

【青少年编程】黄羽恒:我要背单词

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

【转载】:最佳注释

原文地址&#xff1a;http://blog.xiqiao.info/2012/08/29/1240 转载于:https://www.cnblogs.com/TianFang/archive/2012/09/05/2672558.html

从 C++ 到 Objective-C

开始一个新的系列《从 C 到 Objective-C》。欢迎感兴趣的童鞋看看。在做完《让你的 Qt 桌面程序看上去更加 native》之后&#xff0c;也会把这个系列搬到这里来吧。不过这是后话了…;-P 地址&#xff1a;http://www.devbean.info PS&#xff1a;话说 wordpress 还是更好用一些……

参加UI设计培训如何高效学习

想要成为一名合格的UI设计师&#xff0c;扎实的基础知识是要到位的&#xff0c;那么如何在短时间内学会UI设计技术呢?那么就要了解高效的学习方法了&#xff0c;下面就为大家详细的介绍一下参加UI设计培训如何高效学习? 参加UI设计培训如何高效学习? 一、1%原则 让自己变得更…

访问级别约束0906

1 访问级别约束子类访问级别不能比父类高 儿子能去的地方老子一定能去方法、属性等暴露的返回值、参数的数据类型不能比方法、属性或者所在类的可访问级别低&#xff0c;因为这些方法、属性要能在高级场合出现&#xff0c;如果用到的类型却不能在这个场合出现就明显不合理了&am…

VSCode环境下配置ESLint 对Vue单文件的检测

本文介绍了在VSCode环境下如何配置eslint进行代码检查&#xff0c;并介绍了如何对.vue单文件进行支持。 ESLint 安装1.在工程根目录下&#xff0c;安装eslint及初始化 $ npm install eslint --save-dev $ ./node_modules/.bin/eslint -- --init //会输出几个问题&#xff0c;指…

【青少年编程】黄羽恒:加减乘除法小测试

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

Python Cookie HTTP获取cookie并处理

本期Python培训教程是教大家如何进行HTTP获取cookie并处理的方法&#xff0c;希望本期教程能够给大家带来帮助&#xff0c;请看以下详细内容介绍。 Cookie模块同样是Python标准库中的一员&#xff0c;它定义了一些类来解析和创建HTTP 的 cookie头部信息。 一、创建和设置Cookie…

利益驱动 需求驱动 技术驱动 谁才是真正的驱动力?

作java码工也有上段日子了&#xff0c;没有调查&#xff0c;就没有发方权。更何况自已是亲身试了一把&#xff0c;有人说程序员就是二代农民工&#xff0c;我还是比较赞同的&#xff0c;对于刚入道的同仁们来说确实就是个体力活。真就迁扯不到什么高深的算法&#xff0c;虽然在…

【青少年编程】黄羽恒:翻译小工具 -- 利用有道翻译

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

iframe 自动适应高和宽问题 和 其他Frame操作技巧

< DOCTYPE html PUBLIC -WCDTD XHTML TransitionalEN httpwwwworgTRxhtmlDTDxhtml-transitionaldtd> iframe 自动适应高和宽问题iframe的滚动条很难看&#xff0c;很多时候需要自动调整高和宽 扩展到使页面显示正常。搜索了一下&#xff0c;以下是解决办法&#xff1a;fu…

Python代码编写过程中有哪些重要技巧?

近几年&#xff0c;转行做Python技术岗的人越来越多&#xff0c;大家对于Python的关注越来越高&#xff0c;尤其是工作后&#xff0c;很多人都想知道Python代码编写过程中有哪些重要技巧?小编告诉大家&#xff0c;在编写Python代码过程中&#xff0c;除了在意代码的功能性&…

SpringMVC启动分析

以下分析基于JDK1.8 启动的第一步是执行监听器&#xff0c;这里web.xml中配置了一个监听器org.springframework.web.context.ContextLoaderListener 接下来&#xff0c;看ContextLoaderLisener 在Web应用启动的时候&#xff0c;所有的ServletContextListener会在filter和servle…

Edit Distance

题意是求俩字符串的编辑距离&#xff0c;编辑定义有三种1、插入字符 2、删除字符 3、替换字符。 int minDistance(string word1, string word2) { if (word1.size() 0) return (int)word2.size(); if (word2.size() 0) return (int)word1.size(); int result 0; int *dist …

【青少年编程】黄羽恒:翻译小工具 -- 利用百度翻译

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

UI设计师面试时如何介绍自己?

很多人在学会UI设计技术之后&#xff0c;那么接下来就是要进行面试找工作了&#xff0c;那么UI设计师面试时如何介绍自己?有哪些需要注意的呢?来看看下面的详细介绍。 UI设计培训分享&#xff1a;UI设计师面试时如何介绍自己? 一、投其所好 清楚自己的强项后&#xff0c;便可…

Silverlight:SSL教程

在Silverlight与WCF进行通信的过程中,数据安全就成为了一个非常关键的因素,如果不作任何限制,那么数据被抓包篡改等情况都是对系统的潜在威胁.本文主要介绍通过SSL配置WCF进行通信. 对于WCF的安全,主要分为传输/消息安全,在阅读本文时,你需要了解相关的知识,本文不做此部分介绍…

SANBoot安装系统

环境&#xff1a; 硬件&#xff1a;3台DELL R910无盘带2G SD卡 1台DELL MD3820F存储双控 2台光纤交换机 软件&#xff1a;windows server 2012 r2 with cu1 目标&#xff1a;R910服务器的系统从存储划分的lun中sanboot引导启动&#xff0c;并实现光纤双链路高可用&#xff0c;搭…

Datawhale组队学习周报(第012周)

本周&#xff08;05月03日~05月09日&#xff09;&#xff0c;第 24 期组队学习已经全部结营。另外&#xff0c;第 25 期组队学习也与大家见面了。我在这里要感谢所有的航路开辟者&#xff08;课程设计者&#xff09;&#xff0c;以及我们的航海士&#xff08;专业助教&#xff…

适合初学者的java书籍

学习java技术除了报Java培训班还有自学&#xff0c;书本知识一定不能忘了&#xff0c;书本知识带来的价值更直观&#xff0c;也方便记录&#xff0c;下面小编就为大家详细的介绍一下适合初学者的java书籍。 java培训分享适合初学者的java书籍&#xff1a; 1.Head First Java 首…

asp.net中web.config配置节点大全详解

web.config 文件查找规则&#xff1a; (1)如果在当前页面所在目录下存在web.config文件&#xff0c;查看是否存在所要查找的结点名称&#xff0c;如果存在返回结果并停止查找。 (2)如果当前页面所在目录下不存在web.config文件或者web.config文件中不存在该结点名&…