논문(11)
-
[Arxiv 24] REST: Retrieval-Based Speculative Decoding
* Speculative Decoding* RAG 기여점. Draft 모델 대신, 이전 토큰을 기반으로 데이터 저장소에서 Draft 토큰을 가지고 옴.
2025.02.12 -
ATC 2024
** 1. Starburst: A Cost-aware Scheduler for Hybrid Cloud (UC Berkeley)DL task가 burst되는 상황에서 cluster 활용률을 최대화.(로컬 서버를 클러스터, 외부 서버를 클라우드로 따로 분리하는 것 같음)- 긴 작업은 길게 기다려서 클러스터에서 실행- 짧은 작업은 짧게 기다리는 대신 클라우드에서 실행- EfficientNetV2, MobileNetV3, ResNet50/101, ResNext50, Vgg-11, BERT, GPT-2 사용- 8개의 V100이 있는 4대의 서버로 실험 (클라우드 VM) 2. StreamBox: A Lightweight GPU SandBox for Serverless Inference WorkflowNvidia ..
2024.08.30 -
CCTV 데이터를 처리하기 위한 Continuous Learning + infernce 시스템.
MLABhardwaj, Romil, et al. "Ekya: Continuous learning of video analytics models on edge compute servers." 19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22). 2022.nsdi22-paper-bhardwaj.pdf (usenix.org) 요약 : CCTV와 연결된 엣지 서버에서 ML서비스(차량감지)를 할 때 compressed model을 사용함. compressed model은 추론 시 데이터의 변화에 따라 정확도가 달라지는데, 이에 대응하기 위해 Continuous Learning을 함. 본 논문은 Continuous Learni..
2024.07.25 -
Eurosys 2024
1. Aceso: Efficient Parallel DNN Training through Iterative Bottleneck Alleviation 병렬 학습에서 병목 현상을 줄이기 위해 iterative하게 병목 현상을 식별하고 완화.GPT-3, Wide-Resnet, T5모델로 실험 2. Totoro: A Scalable Federated Learning Engine for the Edge 확장가능한 FL엔진. 분산 해시 테이블(DHT) 기반의 P2P모델 탐색. 기존의 파라미터 서버를 사용했던 FL을 분산된 형태로 재구성. Google Speech-ResNet-34, FEMNIST-ShufleNetV2 데이터셋-모델 사용. AWS EC2 t2.medium을 사용했으며 CPU로 학습.3. FLOAT:..
2024.07.09 -
NSDI 2024
Gemino: Practical and Robust Neural Compression for Video ConferencingMIT, Microsoft에서 발표. 화상회의를 할 때 네트워크 상태에 따라 저해상도의 데이터를 보내고 upsampling하여 고퀄리티의 화상회의 제공. (NetAdapt를 통해 jetson TX2에서 87ms 걸림) Characterization of Large Language Model Development in the DatacenterAcme이라는 GPU데이터 센터의 LLM Workload Trace를 생성 MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUsByteDance, Peking대학에서..
2024.07.05 -
Icebreaker: Warming Serverless Functions Better with Heterogeneity
https://dl.acm.org/doi/abs/10.1145/3503222.35077501. 배경서버리스 컴퓨팅의 도전 과제:함수의 빠르고 비용 효율적인 실행을 위해 "웜업" 필요웜업의 부정확성과 높은 유지 비용 문제고정된 유지(keep-alive) 비용의 문제:현재 접근 방식: 함수가 웜업된 후 유지되는 동안 초당 일정한 비용을 지불문제점: 함수의 도착(호출) 확률이 시간에 따라 변함에도 불구하고 비용이 고정됨결과: 서버리스 함수에 대한 높은 유지 비용 발생개선 필요성: 함수 도착 확률에 맞춰 유지 비용을 동적으로 조정하는 효과적인 방식 필요빈번한 패턴 변화와 동시성 정도에 대한 대응 부족:현재 접근 방식: 히스토그램 기반 또는 ARIMA 시계열 기반 메커니즘을 사용하여 함수의 다음 도착(호출) 예측..
2024.07.03