ThreeLanes' Site

共享 开放 包容 改进

Understanding Silent Data Corruptions in a Large Production CPU Population

期刊: (发表日期: 十月 23, 2023) 作者: Shaobu Wang; Guangyan Zhang; Junyu Wei; Yang Wang; Jiesheng Wu; Qingchao Luo
摘要翻译:
对SDCs的静默特性导致目前对SDCs的研究相对较少的特性做出介绍
对大型生产处理器——超过100万个处理器中的SDK进行了研究
1. 对某些处理器功能是否特别脆弱,以及他们对应用程序的潜在影响
2. 探究可信的SDCs的重复触发条件以及划分更难重现的SDCs
3. 缓解SDCs的挑战和机遇
对应SDCs的观察结果开发了Farron,依赖于优先级测试来检测高度可重复的SDCs
期刊分区:SOSP顶会
Local Link: Wang 等 - 2023 - Understanding Silent Data Corruptions in a Large Production CPU Population.pdf

文章四问

  • Q1: 为什么看? (推荐? 关联? 解决问题?)

    A1: 同门推荐,容错计算,SDC,提出了对SDC现有模型的挑战,并提出了更优的解决方式Farron

  • Q2: 文章写的什么? (创新点? 工具? 实现路径?)

    A2: 创新点是对现有SDC模型的挑战,使用工具是Pin插桩与OpenDCDiag

  • Q3: 效果如何? (效果图? 结果? 评价?)

    A3:在检出率,性能方面都有提升,评价还行,但有点缺乏创新

  • Q4: 感受怎样? (感受? 收获? 思考? 复看?)

    A4:了解了一种容错计算中出现的错误,了解了一些工具

阅读全文 »

Characterization of Large Language Model Development in the Datacenter

期刊: (发表日期: 2024-04-03) 作者: Qinghao Hu; Zhisheng Ye; Zerui Wang; Guoteng Wang; Meng Zhang; Qiaoling Chen; Peng Sun; Dahua Lin; Xiaolin Wang; Yingwei Luo; Yonggang Wen; Tianwei Zhang
摘要翻译: 大语言模型在革命性任务中展现出了令人印象深刻得表现,但在大规模集群资源中有效的低成本管理系统并不是一件容易的事,一些常见的困难如下:
频繁的硬件故障
复杂的并行化策略
不平衡的资源利用
在本文中,利用从Acme中手机的为期六个月的LLM开发工作负载跟踪进行了深入的表征研究。调查了LLM与特定任务DL在工作负载上的差异,对资源的利用模式以及作业失败的影响进行性了研究,最总总结了在资源管理方面所遇到的困难并提出了低成本管理系统的潜在机会。在此之外,作者还提出了他们所做的工作,如:
容错预训练,通过LLM参与的故障诊断与自动恢复来增强容错能力
用于评价的解耦调度,通过试探分解和调度优化实现及时的性能反馈
期刊分区: nsdi顶会-usenix
Local Link: Hu 等 - 2024 - Characterization of Large Language Model Development in the Datacenter.pdf
LLM-Data

提问式阅读

  1. 文章是哪个领域的?研究什么具体问题?

    该文章是LLM领域的,研究LLM模型训练过程中的特征与优化LLM的运行过程

  2. 作者对已有方法的问题或当前挑战的分析?

    提出了LLM训练数字中心训练的数字特征,对工作负载,包括与训练工作负载与评估阶段的工作负载做出深一层的profile。

  3. 文中提出解决问题的方法或主要贡献或创新?

    提出对Failture的analysis以及recovery方式,提出使用llm构建Fault-rolerant Pretrain。解耦评估阶段的任务以提高evalution的效率。

  4. 效果如何?

    效果显著,对Fault recovery实现了3.6~18x的提升,对eval过程效率提升了1.3-1.8x

  5. 优缺点和未来工作?

    缺点是增加系统复杂度,并仅对llm-pretrain过程进行了研究,未来工作是进一步优化系统,并探究其他方面的问题。

阅读全文 »

EA 与 GA

首先需要阐明一下EA与GA分别代表什么

EA: Evolution Algorithm 进化算法

GA: Generation Algorithm 遗传算法

GA 与 EA 并非是相同的事物,两者是包含关系——GA被包含于EA

GA的规范形式 GA’s canonical form

  1. Representation - bit strings
  2. Parent selection - proportional to fitness
  3. Recombination - one-point crossover
  4. Mutation - bit flip
  5. Servival selection - next generation
阅读全文 »

群体人工智能Part1-PSO

群体智能

群体智能(Swarm Intelligence, SI)已经引起了各个领域许多研究者的兴趣。Bonabeau将SI定义为“简单代理群体的突发集体智能”[1]。SI是自组织和分散系统的集体智能行为,例如,简单agent的人工群体。例如群居昆虫的群体觅食、合作运输、群居昆虫的筑巢、集体分类和聚类。自组织和劳动分工被认为是科学探究的必要属性。自组织被定义为系统在没有任何外部帮助的情况下将其代理或组件演化成适当形式的能力。Bonabeau et al.[1]也指出,自组织依赖于正反馈、负反馈、波动和多重交互的四个基本性质。正反馈和负反馈分别用于放大和稳定。同时,波动对随机性也很有用。当蚁群在其搜索区域内彼此共享信息时,就会发生多重交互。科学探究的第二个属性是劳动分工,它被定义为个体同时执行各种简单而可行的任务。这种分工使得蜂群能够解决复杂的问题,而这些问题需要个体协同工作。

阅读全文 »

Big Table

  • 简明定义:一个BigTable是一个稀疏的,分布的,永久的多维排序图。

如何在文件内快速查询

表的构建

通过将文件中的内容按照内容分配一个一个key通过key对文件中的内容进行排序

Table = a list of sroted <key, value>

阅读全文 »

Go 语言入门

Go拥有命令时语言的静态类型,编译与执行的很快,同时加入了对多核CPU的并发计算支持。

在Go中的开发主要有以下几点使得其有着比c/cpp更广泛的运用

  1. 并发支持,其通过goroutine和channel 提供了对并发的强力支持
  2. 简单性易用,相比c/cpp其语法更简单,学习曲线平缓
  3. 标准库:其在网络和并发编程方面提供了广反的标准库
  4. 垃圾回收:其相比c/cpp更不容易出现内存泄漏

该记录并不适用于无编程基础入门编程,而是对已有其他语言基础的Go入门,会掠过一些常见定义

阅读全文 »

CMake

概念

Cmake是一个跨平台的编译工具,用简单的命令取代繁琐的Makefile文件编写

Grammar Feature

  1. 基本语法格式为:指令(参数1, 参数2…)
  2. 指令是大小写无关的,参数,变量是大小写相关的
  3. 变量使用${}方式取值,但在IF控制语句中直接使用变量名

Cmake中重要指令与常用变量

阅读全文 »

Shell Script

在Part1基本讲述了对Script的语法结构,但LinuxScript并不单纯只是Script本身,而是与其“梦幻联动”的Linux命令,高级语言,软件结构设计。因此在ShellScript的学习中注定是间断的,学习不同知识点的过程。这里对Part1中的点做一些实验与解答

QA

Q: Part1中提到了对其他文件的调用,那么在文件中调用其他脚本变量是否是共享的

A: 很多时候是共享的,也需要他们共享,但取决于需求,调用文件的shell有时不受影响,见下一个QA。以下操作默认使用./script_filename调用脚本

创建两个脚本文件script1 script2,分别写入以下内容

阅读全文 »

Shell Script

Useful Features

  1. 对赋值变量时,需要不留空格

  2. 脚本中的代码每一行或分号隔开均当作单独的命令执行(控制语句除外)

    这导致一种很常见的用法即. /source_path/file 直接运行文件

  3. script是运行时检查的,因此即使存在语法错误,script文件也可能是可以运行的,并且不会在错误时停止

  4. #!/bin/sh通常指定脚本所用shell名称,类似的有#!/bin/bash…,该行也叫shebang行

默认变量

阅读全文 »
0%