肝脏检查挂什么科| 怀孕前一周有什么症状| 没有斗代表什么| 羊水栓塞是什么原因引起的| 视力s和c代表什么| 智齿一般长在什么位置| 防微杜渐是什么意思| 光子是什么| 风湿性心脏病吃什么药| moss是什么意思| 韧带是什么| 红茶色是什么颜色| 食指戴戒指是什么意思| 做蛋糕需要什么食材| 幽门螺旋杆菌有什么危害| dvd是什么意思| 膝盖疼是什么原因引起的| 答辩是什么| 什么是奢侈品| 宇字属于五行属什么| 医生代表什么生肖| 血压低吃什么补得最快| 小厨宝是什么东西| 十二生肖里为什么没有猫| 汗脚是什么原因引起的| 年少轻狂是什么意思| 红鸡蛋用什么染| 万宝龙皮带算什么档次| 荨麻疹有什么忌口| 什么是氨基酸| 甲减饮食需要注意什么| 便秘了吃什么容易排便| 暗娼什么意思| 预防肺结核吃什么药| 为什么不建议切除脂肪瘤| 阿里郎是什么意思| 什么是骨质疏松| 官官相护是什么意思| 腹泻吃什么水果| py交易是什么意思| 什么是回迁房| 什么什么的荷花| 吃什么能壮阳| 最好的避孕方法是什么| 犯了痔疮为什么老放屁| 什么是凤凰男| 太息是什么意思| 12月23是什么星座| ip是什么意思| 软骨炎是什么病| 艾司唑仑是什么药| 近视眼底改变什么意思| 比值是什么意思| 什么的成长| 未免是什么意思| 红颜知己什么意思| 荆轲姓什么| 茯苓不能和什么一起吃| 消化不良吃什么药| 钦此是什么意思| 叹服是什么意思| 为什么现在不吃糖丸了| 吃什么菜| 5D电影是什么效果| 题词是什么意思| dumpling是什么意思| 三点水是什么字| 心脏肥大吃什么药好| 阴桃花是什么意思| 术语是什么意思| 身上起红疙瘩是什么原因| 什么是格林巴利综合症| 心境是什么意思| 尿红色是什么原因| 什么是买手店| 脚臭是什么原因| 猪蹄炖什么好吃| 令瓦念什么| 胃窦是什么| 懿字五行属什么| 什么是辛辣刺激性食物| 黄茶适合什么人喝| 海肠是什么东西| 珍珠状丘疹用什么药膏| 八月十三号是什么星座| 过敏性皮炎吃什么药| 怀孕肚子会有什么反应| 9月25号什么星座| 2024是什么年| 见字五行属什么| 蛇头疮用什么治疗最快| 雌雄是什么意思| ctc什么意思| 同人小说是什么意思| 簸箕是什么意思| 两个菱形是什么牌子| 贪是什么意思| 做梦梦见老公出轨是什么意思| 梦见两个小男孩是什么意思| 桃花开在什么季节| 护理专业是干什么的| 5月31号是什么星座| 6.25什么星座| 牛肉炒什么菜| 飒爽什么意思| 蚝油可以用什么代替| 不10是什么意思| 情人节送什么花| 如五行属什么| 总是想吐是什么原因| 子什么意思| 黄芪有什么功效| 早搏什么意思| 水肿是什么样子| 流清鼻涕是什么感冒| 马后面是什么生肖| 腊梅什么时候开花| 直的是什么意思| 热退疹出是什么病| 田可以加什么偏旁| 胃胀不舒服吃什么药| 有机食品什么意思| gree是什么牌子| 8月初是什么星座| pr是什么工作| 脚底板疼痛是什么原因| 胸闷心慌是什么病| 什么是网约车| 气血两虚吃什么补最快| 道观是什么意思| 孩子拉肚子吃什么药| 鹰的天敌是什么动物| 羸弱什么意思| 大爷是什么意思| 什么加什么等于红色| 大姨妈期间同房有什么影响| 橙色五行属什么| 肝硬化是什么病| 夏天脚底出汗是什么原因| 5月26日是什么星座| 跑步肚子疼是什么原因| 车前草长什么样| 姐姐的女儿叫什么| 坐车晕车是什么原因| 七月十八是什么日子| 为什么会得甲亢| 捉摸不透是什么意思| 12月23日是什么星座| 饷是什么意思| 女上位是什么意思| 到付是什么意思| 小便发红是什么症状男| 梦到知了猴是什么意思| hpv感染是什么意思| 脸为什么容易红| 润喉咙什么东西最合适| 梦见丢了一只鞋是什么意思| 六个点是什么意思| 晚上尿次数多什么原因| 坐月子是什么意思| 金蝉什么时候出土| 山药有什么营养| 放是什么偏旁| 梦见吃樱桃是什么意思| 夏天煲鸡汤放什么材料| 老年性阴道炎用什么药| 看不上是什么意思| 什么手机好用| 五七干校是什么意思| 鹅喜欢吃什么食物| IOM是什么意思| 沮丧是什么意思| 圣灵是什么意思| 衾怎么读什么意思| 鼠分念什么| 夏令时是什么| 甲抗是什么原因引起的| 陆陆续续是什么意思| 手指关节肿痛用什么药| 匹马棉是什么面料| 乳房检查挂什么科| 可乐加味精女人喝了什么效果| 小孩办理护照需要什么材料| 小孩经常流鼻血是什么原因| 预授权是什么意思| 命中劫是什么意思| 女人不排卵是什么原因造成的| 垚字五行属什么| 本科什么意思| 伤口不愈合用什么药| 睡觉被口水呛醒是什么原因| 女红是什么意思| 艾滋病是什么病| 浑身没劲是什么原因| 直接胆红素偏高是什么原因| 无缘无故流鼻血是什么原因| 系带断裂有什么影响吗| mpa是什么单位| 2月16号是什么星座| 为什么尿酸高| 皮质醇是什么意思| 乙醇对人体有什么伤害| 羔羊跪乳是什么意思| 口唇疱疹用什么药膏| 冠状沟溃疡是什么病| 省长是什么级别干部| 农历什么年| 甲减饮食需要注意什么| 杜冷丁是什么| 北斗星代表什么生肖| 尿酸高吃什么水果好| 前列腺增大吃什么药| 天朝是什么意思| 静脉曲张是什么症状| 以备不时之需什么意思| 吃什么可以补精| 白蛋白是什么| 毒唯什么意思| 长期失眠应该吃什么药| 双侧腋窝淋巴结可见什么意思| 什么叫尊重| 红颜薄命的意思是什么| 全身是宝的动物是什么生肖| 脖子皮肤黑是什么原因| 38岁属什么的生肖| 措施是什么意思| 什么颜色对眼睛有好处| 发烧打什么针| 苏州市长什么级别| 心理医生挂什么科| 口腔溃疡缺什么| joseph是什么意思| 梦龙什么口味好吃| 骨癌有什么症状有哪些| 什么水果是热性的| 黄芪可以和什么一起泡水喝| 口腔溃疡可以吃什么| 88年属什么的| 竹节虫吃什么| 七月初七是什么星座| 神经损伤吃什么药最好| 舌苔厚黄是什么病| 高枕无忧是什么意思| 9月是什么季节| 人流需要准备什么东西| 改良碱性土壤用什么| 慢慢地什么| 长字五行属什么| 脸麻是什么原因| 胃火大吃什么药效果好| 农历六月初六是什么节| 大排畸是什么检查| 血氧低会有什么危害| 东莞市委书记什么级别| blush是什么颜色| 小暑吃什么食物| 什么的西瓜| 为什么一直想睡觉| 右位主动脉弓是什么意思| 鼻窦炎吃什么药效果好| 早上口干舌燥是什么原因| 女娲是一个什么样的人| 早上八点是什么时辰| 肌酐清除率是什么意思| 百度
 

【本田CR-V 2017款 240 TURBO 自动两驱舒适版报价】本田CR-V报价

百度   越来越多的家长重视孩子的汉语学习,除了出于孩子未来发展的考虑,还有近年来儿童语言习得研究的发展。

Discover "compound sparsification" and how to apply it to BERT models for 10x compression and GPU-level latency on commodity CPUs.



Comparison of reported inference performance speedups for The Optimal BERT Surgeon
Comparison of reported inference performance speedups for The Optimal BERT Surgeon (oBERT) with other methods on the SQuAD dataset. oBERT performance was measured using the DeepSparse Engine on a c5.12xlarge AWS instance.

 

The modern world is made up of constant communication happening through text. Think messaging apps, social networks, documentation and collaboration tools, or books. This communication generates enormous amounts of actionable data for companies that wish to use it to improve their users’ experiences. For example, the video at the bottom of this blog shows how a user can track the general sentiment of cryptocurrency across Twitter using an NLP neural network – BERT. Through many novel contributions, BERT significantly improved the state-of-the-art for NLP tasks such as text classification, token classification, and question answering. It did this in a very “over-parameterized” way, though. Its 500MB model size and slow inference prohibit many efficient deployment scenarios, especially at the edge. And cloud deployments become fairly expensive, fairly quickly.

BERT’s inefficient nature has not gone unnoticed. Many researchers have pursued ways to reduce its cost and size. Some of the most active research is in model compression techniques such as smaller architectures (structured pruning), distillation, quantization, and unstructured pruning. A few of the more impactful papers include:

  • DistilBERT used knowledge distillation to transfer knowledge from a BERT base model to a 6-layer version.
  • TinyBERT implemented a more complicated distillation setup to better transfer the knowledge from the baseline model into a 4-layer version.
  • The Lottery Ticket Hypothesis applied magnitude pruning during pre-training of a BERT model to create a sparse architecture that generalized well across fine-tuning tasks.
  • Movement Pruning applied a combination of the magnitude and gradient information to remove redundant parameters while fine-tuning with distillation.

 

DistilBERT training illustration
DistilBERT training illustration

TinyBERT training illustration
TinyBERT training illustration

? ?
 

BERT is Highly Over-Parameterized

 
We show that BERT is highly over-parameterized in our recent paper, The Optimal BERT Surgeon. Ninety percent of the network can be removed with minimal effect on the model and its accuracy!?

Really, 90%? Yes! Our research team at Neural Magic in collaboration with IST Austria improved the prior best 70% sparsity to 90% by implementing a second-order pruning algorithm, Optimal BERT Surgeon. The algorithm uses a Taylor expansion to approximate the effect of each weight on the loss function – all of this means we know exactly which weights are redundant in the network and are safe to remove. When combining this technique with distillation while training, we are able to get to 90% sparsity while recovering to 99% of the baseline accuracy!

 

Performance overview relative to current state-of-the-art unstructured pruning methods on the 12-layer BERT-base-uncased model and the question-answering SQuAD v1.1 dataset.
Performance overview relative to current state-of-the-art unstructured pruning methods on the 12-layer BERT-base-uncased model and the question-answering SQuAD v1.1 dataset.

 

But, are structured pruned versions of BERT over-parameterized as well? In trying to answer this question, we removed up to 3/4 of the layers to create our 6-layer and 3-layer sparse versions. We first retrained these compressed models with distillation and then applied Optimal BERT Surgeon pruning. In doing this, we found that 80% of the weights from these already-compressed models could be further removed without affecting the accuracy. For example, our 3-layer model removes 81 million of the 110 million parameters in BERT while recovering 95% of the accuracy, creating our Optimal BERT Surgeon models (oBERT).

Given the high level of sparsity, we introduced with oBERT models, we measured the inference performance using the DeepSparse Engine – a freely-available, sparsity-aware inference engine that’s engineered to increase the performance of sparse neural networks on commodity CPUs, like the ones in your laptop. The chart below shows the resulting speedups for a pruned 12-layer that outperforms DistilBERT and a pruned 3-layer that outperforms TinyBERT. With the combination of DeepSparse Engine and oBERT, highly accurate NLP CPU deployments are now measured in a few milliseconds (few = single digits).

 

Better Algorithms Enable Performant and Efficient Deep Learning, Anywhere

 
After applying the structured pruning and Optimal BERT Surgeon pruning techniques, we include quantization-aware training to take advantage of the DeepSparse Engine’s sparse quantization support for X86 CPUs. Combining quantization and our sparse models with 4-block pruning for DeepSparse VNNI support results in a quantized, 80% sparse 12-layer model that achieves the 99% recovery target. The combination of all these techniques is what we termed “compound sparsification.”

 

Latency inference comparisons at batch size 1, sequence length 128 for oBERT on CPUs and GPUs.
Latency inference comparisons at batch size 1, sequence length 128 for oBERT on CPUs and GPUs.

 

The result is GPU-level performance for BERT models on readily available CPUs. With the sparse quantized oBERT 12-layer model, a 4-core Intel MacBook is now more performant than a T4 GPU and an 8-core server outperforms a V100 for latency-sensitive applications. Even further speedups are realized when using the 3 and 6-layer models for slightly less accuracy.

“A 4-core Intel MacBook is now more performant than a T4 GPU and an 8-core server outperforms a V100 for latency-sensitive applications.”

 

Making Compound Sparsification Work for You

 


Twitter natural language processing video comparing the performance improvements from oBERT to an unoptimized, baseline model.

 

In spirit with the research community and enabling continued contributions, the source code for creating oBERT models is open sourced through SparseML and the models are freely available on the SparseZoo. Additionally, the DeepSparse Twitter crypto example is open sourced in the DeepSparse repo. Try it out to performantly track crypto trends, or any other trends, on your hardware! Finally, we’ve pushed up simple use-case walkthroughs to highlight the base flows needed to apply this research to your data.

 
 
Mark Kurtz (@markurtz_) is Director of Machine Learning at Neural Magic, and an experienced software and machine learning leader. Mark is proficient across the full stack for engineering and machine learning, and is passionate about model optimizations and efficient inference.
 



郭字五行属什么 为什么会有阴虱子 吃什么容易放屁 老来得子是什么意思 梦见头发长长了是什么意思
盐酸舍曲林片治疗什么程度的抑郁 大头菜又叫什么菜 白细胞2个加号是什么意思 去湿气吃什么食物好 湖水蓝是什么颜色
颈椎挂什么科室 孩子老是流鼻血是什么原因 什么东西可以代替阴茎 飞机下降时耳朵疼是什么原因 作祟是什么意思
cav是什么意思 总动员是什么意思 什么是子宫肌瘤 hba是什么意思 罢黜百家独尊儒术是什么意思
avg是什么意思0735v.com 男士脸黑用什么能美白hcv8jop9ns0r.cn 治疗hpv病毒用什么药hcv8jop2ns2r.cn 手脱皮吃什么药hcv7jop5ns5r.cn 瘫痪是什么意思hcv8jop3ns9r.cn
反应蛋白高是什么原因hcv9jop3ns6r.cn 糖霜是什么hcv8jop8ns4r.cn 缀化是什么意思baiqunet.com 胃酸过多吃什么好hcv8jop6ns7r.cn 上面白下面本念什么hcv8jop5ns4r.cn
土耳其说什么语言hcv8jop7ns7r.cn 用字五行属什么hcv7jop6ns5r.cn 一马平川是什么生肖mmeoe.com 散瞳后需要注意什么hcv9jop5ns9r.cn 手指关节疼痛吃什么药creativexi.com
过氧化氢浓度阳性是什么意思kuyehao.com 势在必得是什么意思hcv8jop1ns5r.cn 重生什么意思hcv8jop8ns5r.cn 老鹰代表什么生肖xjhesheng.com 麻小是什么意思cl108k.com
百度