• Hive数据仓库实践

  • 机器读心术之文本挖掘与自然语言处理

  • Python数据分析案例实战

  • Hadoop集群原理与运维实践

  • 亿级电商实时数据分析平台构建实战

  • 专题:深度学习专集

  • 专题:推荐系统算法及其应用

  • 专题:量化投资详解

Arm连发两大服务器CPU新品

Arm公布下一代Neoverse服务器CPU设计,不仅公布N系列的第二代产品N2,还首次推出了全新产品类别Neoverse V系列平台,剑指较高单线程性能。Neoverse V1内核(代号Zeus)支持可伸缩扩展(SVE),具备更高的单线程性能和机器学习性能,适用于对CPU性能和带宽要求更高的应用。相较N1内核,V1单线程性能提高了50%以上。N2内核提供更多的内核数和优化的性能/功率比,具有更好的横向扩展性能。相较N1内核,N2单线程性能提高了40%以上。Neoverse N系列的PPA特征定义是性能、功率、面积得到了同等考量,擅长可扩展;E系列主要关注效率,对于网络流量和数据应用程序非常有...[详情]

按照时间线帮你梳理10种预训练模型

BERT中及XLNet和RoBERTa中,词嵌入大小 E 和隐藏层大小 H 相等的,H =E=768;而ALBERT认为,词嵌入学习单个词的信息,而隐藏层输出包含上下文信息,应该 H>>E。所以ALBERT的词向量的维度小于encoder输出值维度。 ...

基于OpenCV 的车牌识别

车牌识别是一种图像处理技术,用于识别不同车辆。这项技术被广泛用于各种安全检测中。现在让我一起基于OpenCV编写Python代码来完成这一任务。第一步是从汽车上检测车牌所在位置。我们将使用OpenCV中矩形的轮廓检测来 ...

对比自监督学习浪潮迅猛来袭,你准备好了吗?

近年来,自监督学习逐渐成为了备受人们关注的应对标注缺乏问题的热门解决方案,科研人员在基于对比学习的自监督方法方面进行了大量研究。本文是 PyTorch Lightning 创始人 William Falcon 的对比学习综述,对自监督 ...

用最简单的方式训练史上最强ResNet-50,性能超过魔改结构的ResNeSt

近日,CMU 的研究人员在 arXiv 上放出了一份技术报告,介绍他们如何通过蒸馏(distillation)训练一个强大的小模型。所提出方法使用相同模型结构和输入图片大小的前提下,在 ImageNet 上的性能远超之前 state-of-the ...

一定要GPT3吗?不,BERT的MLM模型也能小样本学习

大家都知道现在GPT3风头正盛,然而,到处都是GPT3、GPT3地推,读者是否记得GPT3的论文的名字呢?事实上,GPT3的论文叫做《Language Models are Few-Shot Learners》,标题里边已经没有G、P、T几个单词了,只不过它跟 ...

BERT为什么是NLP的革新者

BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超 ...

深度神经网络模型训练中的 tricks(原理与代码汇总)

计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的技巧(tricks)。图像分类中的各种技巧对于目标检测、图像分割 ...

Arm连发两大服务器CPU新品!单核性能猛增50%

今天,Arm公布下一代Neoverse服务器CPU设计,不仅公布N系列的第二代产品N2,还首次推出了全新产品类别Neoverse V系列平台,剑指最高单线程性能。Neoverse V1内核(代号Zeus)支持可伸缩扩展(SVE),具备更高的单线 ...

任务式对话中的自然语言理解

随着人工智能技术的发展,智能对话的应用场景越来越多,目前已经成为了研究的热点。天猫精灵,小度小度,腾讯叮当,这些智能助手都是智能对话在业界的应用。智能助手的对话方式可分为三种:任务式对话 ( 用户输入指 ...

为什么 CPU 访问硬盘很慢

机械硬盘(Hard Disk Drive、HDD)和固态硬盘(Solid State Drive、SSD)是两种最常见的硬盘,作为计算机的外部存储,CPU 想要访问它们存储的数据需要很长时间。虽然磁盘的寻道时间只需要 10ms,但是在 CPU 看来已经 ...

程序员技术选型:写Go还是Java?

Go 不是面向对象编程语言。Go 没有类似 Java 的继承机制,因为它没有通过继承实现传统的多态性。实际上,它没有对象,只有结构体。它可以通过接口和让结构体实现接口来模拟一些面向对象特性。此外,你可以在结构体中 ...

Java 2020:使用者近 680 万,中国开发者占比最高

为了庆祝 Java 25 周年和 Java 15 版本的发布,JetBrains 从多个来源收集了数据,以查看该语言当下的发展状态。首先,他们对大多数 Java 开发人员的区域分布进行了调查。据市场研究和分析团队的开发者估计模型指出, ...

一篇文章全面了解监控知识体系

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案 ...

如何实现Spark on Kubernetes?

“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。阿里云大数据团队认为:数据湖是大数据和AI时代融合存储和计算的全新体系。为什么这么说?在数据量爆发 ...

出现这四种情况,才是考虑分库分表的时候!

不管是IO瓶颈还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载的活跃连接数的阈值。在业务service来看,就是可用数据库连接少甚至无连接可用,接下来就可以想象了(并发量、吞吐量、 ...

计算机起源的数学思想

人类的历史可以看做一部关于解放的历史。也有这样的说法,懒惰是人类进步的动力。为了偷懒,人类不断的做着各种努力,发明了各种机器工具,将自己从繁重的劳动解放出来,另一方面,每一次大的进步,都需要解放思想, ...

4D雷达是什么?

本周,Xilinx和美国大陆航空宣布了汽车行业的第一台可投入生产的 4D成像雷达。但是4D雷达实际上是否超出了理论范围?无人驾驶汽车的自主性通常以“ 自动化水平 ”的尺度来衡量。简而言之,这是从0到5的比例,这意味 ...

指纹传感器是如何工作的?

在这个现代时代,保护物理位置和数字数据的安全越来越困难。小偷可以撬锁或强行进入。黑客可以窃取密码或进行其他多种入侵。生物识别数据正逐渐成为不可丢失的密钥或无法复制的密码。面部识别和视网膜图案等生物识别 ...