当前位置:首页 > 数码 > 优化效率的有效妙招!-程序操作海量数据效率太低 (优化效率的有效措施)

优化效率的有效妙招!-程序操作海量数据效率太低 (优化效率的有效措施)

admin6个月前 (05-13)数码25

处置海量数据时,咱们通常须要关注几个关键要素:内存经常使用、I/O操作、处置速度以及代码的复杂度。以下是一些在中处置海量数据时提高成果的方法,包含思绪和示例代码。请留意,由于篇幅限度,这里的代码片段将尽或者精简,并只展现关键的处置逻辑。

经常使用流式处置

流式处置准许咱们处置的数据集超越可用内存大小。经过经常使用Java8引入的StreamAPI,咱们可以以申明性方式处置数据集,并在处置环节中消耗较小的内存。

例如,假定咱们有一个很大的整数列表,并想要找到其中的最大值。经常使用流式处置,咱们可以这样做:

List<Integer>numbers=newArrayList<>();//假定这个列表很大intmax=numbers.stream().reduce(Integer.MIN_VALUE,Integer::max);

分片处置(MapReduce)

关于十分大的数据集,将其宰割为较小的片段而后在多个处置器或计算节点上并行处置是一种有效的方法。MapReduce是一种经常出现的并行处置范式,用于大规模数据集的处置。

以下是一个便捷的MapReduce示例,用于计算列表中的一切数字的总和:

importjava.util.*;importjava.util.Map.Entry;importjava.util.function.BiFunction;importjava.util.stream.*;publicclassMapReduceExample{publicstaticvoidmn(String[]args){List<Integer>numbers=newArrayList<>();//假定这个列表很大longsum=numbers.parallelStream().mapToLong(i->i).sum();}}

经常使用外部存储

当内存无余以容纳整个数据集时,可以经常使用外部存储(如硬盘或数据库)来存储数据。Java提供了各种数据库衔接库(如JDBC,Hibernate等)和文件I/O库(如java.nio),这些都可以用于从外部存储读取和写入数据。

例如,假设咱们有一个十分大的CSV文件,咱们可以经常使用Java的文件I/O库来读取和处置它:

importjava.io.*;importjava.util.*;publicclassLargeDataFileProcessing{publicstaticvoidmain(String[]args){try(BufferedReaderreader=newBufferedReader(newFileReader("large_data.csv"))){Stringline;while((line=reader.readLine())!=null){//处置每一行数据...}}catch(IOExceptione){e.printStackTrace();}}}

经常使用缓存

缓存是一种可以清楚缩小重复计算的技术。在Java中,咱们可以经常使用各种缓存库(如的Guava库)来提高性能。也可以手动成功一个便捷的缓存机制。

数据库优化

假设数据存储在数据库中,那么经过优化数据库查问和索引,可以清楚提高数据处置速度。Java有许多用于数据库操作的库,例如JDBC和Hibernate。经常使用这些库时,招思考编写有效的SQL查问并正确经常使用索引。

经常使用并行计算

多核CPU的并行计算才干可以让咱们同时处置多个义务。在Java中,咱们可以经常使用线程来应用多核CPU。并行计算在CPU密集型义务中特意有效。在编写并行代码时,须要小心处置线程间的同步疑问。Java的并发库提供了多种同步机制(如synchronized关键字,Locks和Semaphore等)。

数据紧缩

关于可以紧缩的数据,紧缩可以缩小内存经常使用和I/O操作。Java提供了多种紧缩和解紧缩库,如GZIP和Inflatable。这些库可以用来紧缩和解紧缩数据。但是,紧缩和解紧缩环节或者会有一些性能开支,因此在选用紧缩时须要掂量这些要素。

经常使用内存数据库

内存数据库(如,Memcached等)是一种可以清楚提高数据处置速度的技术。内存数据库通罕用于缓存、会话治理、信息队列等场景。Java有许多库可以与这些内存数据库交互。例如,Jedis可以用于与Redis交互。

应用JVM性能调优

Java虚构机(JVM)有很多可以调优的参数。经过调整这些参数(如堆大小、渣滓搜集器选用等),可以清楚提高运行程序的性能。调优JVM须要对Java和其运转环境有深化的了解。有很多工具(如VisualVM,JProfiler等)可以协助咱们剖析和调优JVM的性能。

散布式计算

关于十分大的数据集,散布式计算是一种罕用的方法。经过将数据集扩散到多个计算节点,可以清楚提高处置速度。

经常使用数据结构优化

在处置海量数据时,正当地经常使用数据结构可以清楚提高性能。例如,假设你经常须要极速查找元素,经常使用哈希表(HashMap或HashSet)或者比经常使用ArrayList更高效。假设须要存储少量元素并按某种顺序排序,经常使用TreeSet或TreeMap或者比经常使用HashMap更优。

防止不用要的对象创立

在Java中创立对象是一项相对低廉的操作,尤其是在处置少量数据时。假设或者,尽量防止在循环或高频率的代码段中创立对象。预先创立偏重用对象,而不是每次须要时都创立新的对象,可以极大地提高性能。

经常使用极速的汇合类

Java提供了许多不同类型的汇合类,每种类型都有其特定的用途和性能个性。例如,假设你须要频繁地拔出和删除元素,那么经常使用LinkedList或者比经常使用ArrayList更好,由于LinkedList的拔出和删除操作是O(1)复杂度,而ArrayList的拔出和删除操作是O(n)复杂度。

应用Java8的流和函数式编程个性

Java8引入了流(Stream)和函数式编程的概念,这使得并行处置和申明性编程变得愈加便捷。经常使用流和函数式编程可以协助你写出更繁复、更易于了解的代码,同时还可以应用Java8的并行框架启动更高效的计算。

在实践的优化环节通常须要对详细的运行场景和数据启动深化的剖析和调整。为了到达最佳性能,你或者须要联合以上的一些优化战略,并综合思考你的代码、数据库、配件、网络等各种要素。


如何提高ABAP程序运行效率

影响ABAP程序的运行效率主要是在程序中大量数据的取得,如果取数不得方法,很影响报表的运行效率,所有优化ABAP程序主要是优化数据取数的方法。 下面这几点可以有效的提高取数的效率,从而来提高程序的运行效率。 1.选择最有效率的表名顺序(只在基于规则的优化器中有效):ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表drivingtable)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。 如果有3个以上的表连接查询,那就需要选择交叉表(intersectiontable)作为基础表,交叉表是指那个被其他表所引用的表。 子句中的连接顺序:ORACLE采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前,那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾子句中避免使用‘*‘:ORACLE在解析的过程中,会将*依次转换成所有的列名,这个工作是通过查询数据字典完成的,这意味着将耗费更多的时间4.减少访问数据库的次数:ORACLE在内部执行了许多工作:解析SQL语句,估算索引的利用率,绑定变量,读数据块等。

数据库性能优化有哪些措施?

1、调整数据结构的设计

这一部分在开发信息系统之前完成,程序员需要考虑是否使用ORACLE数据库的分区功能,对于经常访问的数据库表是否需要建立索引等。

2、调整应用程序结构设计

这一部分也是在开发信息系统之前完成,程序员在这一步需要考虑应用程序使用什么样的体系结构,是使用传统的Client/Server两层体系结构,还是使用Browser/Web/Database的三层体系结构。不同的应用程序体系结构要求的数据库资源是不同的。

3、调整数据库SQL语句

应用程序的执行最终将归结为数据库中的SQL语句执行,因此SQL语句的执行效率最终决定了ORACLE数据库的性能。ORACLE公司推荐使用ORACLE语句优化器(OracleOptimizer)和行锁管理器(row-levelmanager)来调整优化SQL语句。

4、调整服务器内存分配

内存分配是在信息系统运行过程中优化配置的,数据库管理员可以根据数据库运行状况调整数据库系统全局区(SGA区)的数据缓冲区、日志缓冲区和共享池的大小;还可以调整程序全局区(PGA区)的大小。需要注意的是,SGA区不是越大越好,SGA区过大会占用操作系统使用的内存而引起虚拟内存的页面交换,这样反而会降低系统。

5、调整硬盘I/O

这一步是在信息系统开发之前完成的。数据库管理员可以将组成同一个表空间的数据文件放在不同的硬盘上,做到硬盘之间I/O负载均衡。

6、调整操作系统参数

例如:运行在UNIX操作系统上的ORACLE数据库,可以调整UNIX数据缓冲池的大小,每个进程所能使用的内存大小等参数。

实际上,上述数据库优化措施之间是相互联系的。ORACLE数据库性能恶化表现基本上都是用户响应时间比较长,需要用户长时间的等待。但性能恶化的原因却是多种多样的,有时是多个因素共同造成了性能恶化的结果,这就需要数据库管理员有比较全面的计算机知识,能够敏感地察觉到影响数据库性能的主要原因所在。另外,良好的数据库管理工具对于优化数据库性能也是很重要的。

一、ORACLE数据库性能优化工具

常用的数据库性能优化工具有:

ORACLE数据库在线数据字典,ORACLE在线数据字典能够反映出ORACLE动态运行情况,对于调整数据库性能是很有帮助的。

操作系统工具,例如UNIX操作系统的vmstat,iostat等命令可以查看到系统系统级内存和硬盘I/O的使用情况,这些工具对于管理员弄清出系统瓶颈出现在什么地方有时候很有用。

SQL语言跟踪工具(SQLTRACEFACILITY),SQL语言跟踪工具可以记录SQL语句的执行情况,管理员可以使用虚拟表来调整实例,使用SQL语句跟踪文件调整应用程序性能。SQL语言跟踪工具将结果输出成一个操作系统的文件,管理员可以使用TKPROF工具查看这些文件。

ORACLEEnterpriseManager(OEM),这是一个图形的用户管理界面,用户可以使用它方便地进行数据库管理而不必记住复杂的ORACLE数据库管理的命令。

EXPLAINPLAN——SQL语言优化命令,使用这个命令可以帮助程序员写出高效的SQL语言。

二、ORACLE数据库的系统性能评估

信息系统的类型不同,需要关注的数据库参数也是不同的。数据库管理员需要根据自己的信息系统的类型着重考虑不同的数据库参数。

1、在线事务处理信息系统(OLTP),这种类型的信息系统一般需要有大量的Insert、Update操作,典型的系统包括民航机票发售系统、银行储蓄系统等。OLTP系统需要保证数据库的并发性、可靠性和最终用户的速度,这类系统使用的ORACLE数据库需要主要考虑下述参数:

数据库回滚段是否足够?

是否需要建立ORACLE数据库索引、聚集、散列?

系统全局区(SGA)大小是否足够?

SQL语句是否高效?

2、数据仓库系统(DataWarehousing),这种信息系统的主要任务是从ORACLE的海量数据中进行查询,得到数据之间的某些规律。数据库管理员需要为这种类型的ORACLE数据库着重考虑下述参数:

是否采用B*-索引或者bitmap索引?

是否采用并行SQL查询以提高查询效率?

是否采用PL/SQL函数编写存储过程?

有必要的话,需要建立并行数据库提高数据库的查询效率

三、SQL语句的调整原则

SQL语言是一种灵活的语言,相同的功能可以使用不同的语句来实现,但是语句的执行效率是很不相同的。程序员可以使用EXPLAINPLAN语句来比较各种实现方案,并选出最优的实现方案。总得来讲,程序员写SQL语句需要满足考虑如下规则:

1、尽量使用索引。试比较下面两条SQL语句:

优化效率的有效妙招!

语句A:SELECTdname,deptnoFROMdeptWHEREdeptnoNOTIN

(SELECTdeptnoFROMemp);

语句B:SELECTdname,deptnoFROMdeptWHERENOTEXISTS

这两条查询语句实现的结果是相同的,但是执行语句A的时候,ORACLE会对整个emp表进行扫描,没有使用建立在emp表上的deptno索引,执行语句B的时候,由于在子查询中使用了联合查询,ORACLE只是对emp表进行的部分数据扫描,并利用了deptno列的索引,所以语句B的效率要比语句A的效率高一些。

2、选择联合查询的联合次序。考虑下面的例子:

SELECTstuffFROMtabaa,tabbb,tabcc

:alowand:ahigh

:blowand:bhigh

:clowand:chigh

这个SQL例子中,程序员首先需要选择要查询的主表,因为主表要进行整个表数据的扫描,所以主表应该数据量最小,所以例子中表A的acol列的范围应该比表B和表C相应列的范围小。

3、在子查询中慎重使用IN或者NOTIN语句,使用where(NOT)exists的效果要好的多。

4、慎重使用视图的联合查询,尤其是比较复杂的视图之间的联合查询。一般对视图的查询最好都分解为对数据表的直接查询效果要好一些。

5、可以在参数文件中设置SHARED_POOL_RESERVED_SIZE参数,这个参数在SGA共享池中保留一个连续的内存空间,连续的内存空间有益于存放大的SQL程序包。

6、ORACLE公司提供的DBMS_SHARED_POOL程序可以帮助程序员将某些经常使用的存储过程“钉”在SQL区中而不被换出内存,程序员对于经常使用并且占用内存很多的存储过程“钉”到内存中有利于提高最终用户的响应时间。

四、CPU参数的调整

CPU是服务器的一项重要资源,服务器良好的工作状态是在工作高峰时CPU的使用率在90%以上。如果空闲时间CPU使用率就在90%以上,说明服务器缺乏CPU资源,如果工作高峰时CPU使用率仍然很低,说明服务器CPU资源还比较富余。

使用操作相同命令可以看到CPU的使用情况,一般UNIX操作系统的服务器,可以使用sar_u命令查看CPU的使用率,NT操作系统的服务器,可以使用NT的性能管理器来查看CPU的使用率。

数据库管理员可以通过查看v$sysstat数据字典中“CPUusedbythissession”统计项得知ORACLE数据库使用的CPU时间,查看“OSUserlevelCPUtime”统计项得知操作系统用户态下的CPU时间,查看“OSSystemcallCPUtime”统计项得知操作系统系统态下的CPU时间,操作系统总的CPU时间就是用户态和系统态时间之和,如果ORACLE数据库使用的CPU时间占操作系统总的CPU时间90%以上,说明服务器CPU基本上被ORACLE数据库使用着,这是合理,反之,说明服务器CPU被其它程序占用过多,ORACLE数据库无法得到更多的CPU时间。

数据库管理员还可以通过查看v$sesstat数据字典来获得当前连接ORACLE数据库各个会话占用的CPU时间,从而得知什么会话耗用服务器CPU比较多。

出现CPU资源不足的情况是很多的:SQL语句的重解析、低效率的SQL语句、锁冲突都会引起CPU资源不足。

1、数据库管理员可以执行下述语句来查看SQL语句的解析情况:

SELECT*FROMV$SYSSTATWHERENAMEIN

(parsetimecpu,parsetimeelapsed,parsecount(hard));

这里parsetimecpu是系统服务时间,parsetimeelapsed是响应时间,用户等待时间,waitetime=parsetimeelapsed_parsetimecpu

由此可以得到用户SQL语句平均解析等待时间=waitetime/parsecount。这个平均等待时间应该接近于0,如果平均解析等待时间过长,数据库管理员可以通过下述语句

SELECTSQL_TEXT,PARSE_CALLS,EXECUTIONSFROMV$SQLAREA

ORDERBYPARSE_CALLS;

来发现是什么SQL语句解析效率比较低。程序员可以优化这些语句,或者增加ORACLE参数SESSION_CACHED_CURSORS的值。

2、数据库管理员还可以通过下述语句:

SELECTBUFFER_GETS,EXECUTIONS,SQL_TEXTFROMV$SQLAREA;

查看低效率的SQL语句,优化这些语句也有助于提高CPU的利用率。

3、数据库管理员可以通过v$system_event数据字典中的“latchfree”统计项查看ORACLE数据库的冲突情况,如果没有冲突的话,latchfree查询出来没有结果。如果冲突太大的话,数据库管理员可以降低spin_count参数值,来消除高的CPU使用率。

五、内存参数的调整

内存参数的调整主要是指ORACLE数据库的系统全局区(SGA)的调整。SGA主要由三部分构成:共享池、数据缓冲区、日志缓冲区。

1、共享池由两部分构成:共享SQL区和数据字典缓冲区,共享SQL区是存放用户SQL命令的区域,数据字典缓冲区存放数据库运行的动态信息。数据库管理员通过执行下述语句:

select(sum(pins-reloads))/sum(pins)LibCachefromv$librarycache;

来查看共享SQL区的使用率。这个使用率应该在90%以上,否则需要增加共享池的大小。数据库管理员还可以执行下述语句:

select(sum(gets-getmisses-usage-fixed))/sum(gets)RowCachefromv$rowcache;

查看数据字典缓冲区的使用率,这个使用率也应该在90%以上,否则需要增加共享池的大小。

2、数据缓冲区。数据库管理员可以通过下述语句:

SELECTname,valueFROMv$sysstatWHEREnameIN(dbblockgets,consistentgets,physicalreads);

来查看数据库数据缓冲区的使用情况。查询出来的结果可以计算出来数据缓冲区的使用命中率=1-(physicalreads/(dbblockgets+consistentgets))。

这个命中率应该在90%以上,否则需要增加数据缓冲区的大小。

3、日志缓冲区。数据库管理员可以通过执行下述语句:

selectname,valuefromv$sysstatwherenamein(redoentries,redologspacerequests);

查看日志缓冲区的使用情况。查询出的结果可以计算出日志缓冲区的申请失败率:

申请失败率=requests/entries,申请失败率应该接近于0,否则说明日志缓冲区开设太小,需要增加ORACLE数据库的日志缓冲区。

昆明北大青鸟java培训班转载自网络如有侵权请联系我们感谢您的关注谢谢支持

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 数据

“优化效率的有效妙招!-程序操作海量数据效率太低 (优化效率的有效措施)” 的相关文章

数据科学家日常工作中使用的11个基本图表 (数据科学家日常工作)

数据科学家日常工作中使用的11个基本图表 (数据科学家日常工作)

简介 可视化在理解复杂的数据模式和关系中起着至关重要的作用。它们提供了一种简洁的方法来理解统计模型的复杂性、验证模型假设、评估模型性能等等。因此,了解数据科学中最重要和最有用的图表非常重要。...

从数据池和数据仓库到数据湖-数据之旅 (数据池和数据湖)

从数据池和数据仓库到数据湖-数据之旅 (数据池和数据湖)

从数据池到数据湖:数据管理的演变 引言 在数据管理领域,数据仓库一直是企业存储和分析海量结构化数据的主要解决方案。随着技术的发展和组织需求的日益复杂,传统数据仓库开始表现出局限性,导致数据湖成为...