Cortex A9/A8/Arm11/Arm9 性能测试PK

jackzhang · 发表于 2010-8-3 10:27:26

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

单核的Cortex-A9在性能上比已经推出的Cortex-A8处理器更高，并且 A9系列可以提供两个乃至四个内核片上SMP产品，能提供总共超过8,000Dhrystone Mips(DMIPS)的峰值处理性能，这一性能大约是典型arm11处理器(如iphone)的10-15倍，遑论更早的arm9系列。同时Cortex-a8是可综合的，芯片制造商采用速度优化工艺时的时钟频率能够超过1GHz，也可采用低功耗工艺大幅降低耗电。如果要进一步的省电，还可以采用动态减慢时钟或关闭部分内核的方法。
对称多处理（SMP）早已在大型机、服务器以及PC机上使用多年，这种平行技术的确能够有效的提高计算机的性能。如今的半导体技术允许在一个硅片上集成多个处理器核心，这些核心能够执行同样的指令集，拥有同等的存储器配置，IO访问能力和中断，这就是片上SMP。在这种硬件上运行的高级操作系统能够调度使用任意的核心来运行软件线程或执行中断。这一切过去只能够在“大”的计算机上实现，但在不远的将来，你我的手机上也能够拥有这种高级功能。实现片上SMP对于手持设备来说，可以实现目前用单核方案，如arm11不可能实现的应用。因为SMP可以实现非常好的性能和功耗伸缩性，在保持功耗足够低的前提下，能够将性能扩展到非常高的水平，应对现在和未来丰富的应用，如HD VIDEO播放、如PC般毫不缩水的浏览Internet等。如果使用单核方案，就不得不实现极高的速度——采用2GHz甚至更高主频的掌上处理器，那将导致无法接受的发热和耗电。
现在的移动应用越来越复杂，丰富程度直逼桌面应用，多进程、多线程等技术也早已在手持设备上采用，桌面计算机已经普及的多核心技术更是为SMP进入掌上设备指明了前进的方向。ARM处理器中的Cortex-a9是专门为此类应用设计的。Cortex-a9和前一代Cortex-a8一样是超标量设计，能够单周期执行2条指令，比ARM11处理器同频性能提高约一倍。Cortex-a9处理器更改进了流水线，除了增加多处理指令还加入了乱序执行等功能。除了拥有Cortex-a8的特性之外，每核心平均同频性能比Cortex-a8提高了20%。
实现SMP的第一个消费类嵌入式器是TI OMAP4系列，包括OMAP4430和OMAP4440。除了采用Cortex-a9 MP为处理器核心之外，还提供了哪些高级功能呢？让我们来细数一下：

200Mhz的arm9比起嵌入式工控机上的赛扬有多大的性能差距？四千多买的500MHz的智能手机究竟比笔记本电脑慢多少？

处理器名称	MEM性能指数（越大越好）
Pentium MMX 166MHZ	0.51
S3C2410 200MHz	0.67
PXA255 400MHz	0.94
PXA270 520MHz	1.16
OMAP2420 400MHz	1.17
PPC440 400MHz	1.46
PentiumIII 800MHz	3.74
OMAP3530 600MHz	3.04

登录/注册后可看大图

处理器名称	INT性能指数（越大越好）
Pentium MMX 166MHZ	0.53
S3C2410 200MHz	0.76
PXA255 400MHz	1.26
PXA270 520MHz	1.82
OMAP2420 400MHz	1.86
PPC440 400MHz	1.67
PentiumIII 800MHz	3.39
OMAP3530 600MHz	3.57

登录/注册后可看大图

很多S3C2410开发板自带的oabi gcc-2.95

oabi+NWFPE性能只有softfloat的10到20分之一，是向量浮点的几千分之一

XSCALE以及其他ARMV5TE以上的处理器可以利用定点向量指令加快softfloat库模拟，其中支持iWMMXT的PXA270可以使用64位定点向量指令显著加快速度。
新的ARM处理器如OMAP2420集成硬件了VFP，虽然不是桌面CPU规模的流水线FPU，还是比软件模拟快很多。

完全流水的向量定点和单精度浮点

处理器名称	FP性能指数（越大越好）
Pentium MMX 166MHZ	0.85
S3C2410 200MHz	0.01
PXA255 400MHz	0.59
PXA270 520MHz	0.99
OMAP2420 400MHz	1.43
PPC440 400MHz	0.04
PentiumIII 800MHz	6.62
OMAP3530 600MHz	0.98

登录/注册后可看大图

功能	OMAP2420/arm1136jf-s 指令集 arm v6	OMAP3530/Cortex-a8 指令集 arm v7a	PentiumD 920 代号Presler 指令集x86_64
工艺	90nm 标准单元	65 nm 标准单元	65nm Intel custom
主频	400MHz	600Mhz	3.0GHz
L1 cache	16KB I-cache 16KB D-cache	16KB I-cache 16KB D-cache	12KB Trace I-cache 16KB D-cache
L2 cache	无	256KB	每核心2MB
运行平台	32-bits armv6el linux-2.6.21 glibc-2.5 gcc-4.1.2	32-bits armv7el linux-2.6.28 glibc-2.7 gcc-4.3.2	64-bits x86_64 linux-2.6.27 glibc-2.7 gcc-4.3.2
传统FPU	非流水VFP	非流水VFP	深流水线FPU
SIMD FPU	无	流水线neon 128-bits向量单精度浮点	深流水线sse3 128-bits向量单精度和双精度浮点
片上多处理	arm1136 + C55x DSP	Cortex-a8 + C64x DSP	x86_64双核SMP
图形加速	集成 MBX 3D加速 IVA视频加速	集成 SGX 3D加速 IVA2视频加速	无内置

配置名称	编译配置
S3C2410 200MHz softfloat	采用软浮点库，编译选项 -mcpu=arm920t -mtune=arm920t -O3 -msoft-float -ffast-math
OMAP2420 400MHz softfloat	采用软浮点库，编译选项 -mcpu=arm1136jf-s -mtune=arm1136jf-s -O3 -msoft-float -ffast-math
OMAP2420 400MHz vfp	采用VFP硬件浮点，编译选项 -mcpu=arm1136jf-s -mtune=arm1136jf-s -O3 -mfloat-abi=softfp -mfpu=vfp -ffast-math
OMAP3530 600MHz vfp	采用VFP硬件浮点，编译选项 -mcpu=cortex-a8 -mtune=cortex-a8 -O3 -mfloat-abi=softfp -mfpu=vfp -ffast-math
OMAP3530 600MHz auto vectorized	采用neon向量浮点，gcc-4.3.2自动生成neon向量指令，编译选项 -mcpu=cortex-a8 -mtune=cortex-a8 -O3 -mfloat-abi=softfp -mfpu=neon -ftree-vectorize -ffast-math
OMAP3530 600MHz manual vectorized	采用手工编写的汇编函数，人工调用neon向量浮点指令，编译选项 -mcpu=cortex-a8 -mtune=cortex-a8 -O3 -mfloat-abi=softfp
PentiumD920 3.0GHz scalar fpu	采用FPU硬件浮点，编译选项 -march=nocona -O3
PentiumD920 3.0GHz SSE3 vectorized	采用sse3向量浮点，gcc-4.3.2自动生成sse3向量指令，编译选项 -march=nocona -O3 -ftree-vectorize -ffast-math -mfpmath=sse -mmmx -msse -msse2 -msse3

处理器名称	1M samples 1024点单精度浮点FIR用时（越小越好）：秒
S3C2410 200MHz softfloat	1175.22
OMAP2420 400MHz softfloat	248.39
OMAP2420 400MHz vfp	34.45
OMAP3530 600MHz vfp	53.17
OMAP3530 600MHz auto vectorized	6.98
OMAP3530 600MHz manual vectorized	2.99
PentiumD920 3.0GHz scalar fpu	6.91
PentiumD920 3.0GHz SSE3 vectorized	0.95

登录/注册后可看大图

采用向量指令集得到接近大型CPU和传统高端DSP的数值计算性能

apaxsimba · 发表于 2010-8-6 22:10:42

不错受用了

apaxsimba · 发表于 2010-8-6 22:18:32

好东西

stfhjtdykjmtu · 发表于 2010-9-3 15:46:32

谢谢分享

taken2 · 发表于 2010-11-4 22:12:02

学习学习，十分感谢

suxiaobo · 发表于 2010-11-13 15:48:14

目前还在玩PXA270,大部队都跑远了

mtwumtwu · 发表于 2010-11-25 08:26:34

good reference data

bpm · 发表于 2014-12-31 09:41:37

非常的妙！

flosan · 发表于 2015-1-4 18:25:38

谢谢楼主的分享！！！

haizhenyinjj · 发表于 2015-1-9 15:15:46

非常感谢

账号		自动登录	找回密码
密码			注册

[转贴] Cortex A9/A8/Arm11/Arm9 性能测试PK

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子

浏览过的版块

站长推荐 /1