• 基于案例学习时间序列分析

  • Python机器学习Kaggle案例实战

  • Python机器学习

  • 端到端(End TO End)--由传统方法到深度学习

  • JavaScript从入门到精通

  • Hive数据仓库实践

  • Cloudera Hadoop管理认证实战

  • locust性能测试实战

元学习与自然语言处理

目前,随着深度学习的蓬勃发展,各类复杂模型已经能够很好地刻画特征,并拟合数据集分布。那为什么我们需要元学习呢?事实上,深度学习饱为诟病的一大特点之一就是它面对小样本数据集极易过拟合。我们能够采用正则化、数据增强等方式规避过拟合问题,但这些策略都没有为模型学习的过程提供更丰富的信息量。然而当我们反观人类智力与认知的发展过程却能发现人类并没有受到小样本的制约。比如,当人类懂得识别猫、狗图像后,只要提供关于某种动物的少量图片,人类就能迅速提取到图像中的有效特征,从而具备识别该类图片的能力。同理,深度学习也应当从具有相似性的任务学习过程中积累经验,针对新的类似任务...[详情]

元学习与自然语言处理

元学习 (meta learning),又被称作“学会学习” (learning to learn),是近期深度学习研究界的一大关注热点,旨在帮助新任务在缺乏训练样本的情况下快速学习 (rapid learning)、快速适应 (fast adaption)。前,随着 ...

机器学习研究者的养成指南,吴恩达建议这么读论文

如何成为一名高效的机器学习研究者,然后在这个领域取得一些成就?在此之前,我们需要养成什么样的习惯?近日,一位网友在 Reddit 上发帖提问:「那些高效的机器学习研究者,都有什么样的习惯?」比如,在 Arxiv 上 ...

自然语言理解(NLU)难在哪儿?

导读:在微博和知乎上关注自然语言处理(NLP)技术的朋友,应该都对#NLP太难了#、#自然语言理解太难了#两个话题标签不陌生,其下汇集了各种不仅难煞计算机、甚至让人也发懵的费解句子或歧义引起的笑话。然而,这些例 ...

全球晶圆产能排行出炉:台积电第二,英特尔第六,前五名占比超过50%

IC Insights最近发布包括了截至2019年12月的25个最大晶圆产能排名。全球前五名晶圆每月的产能超过100万个晶圆(200mm等效晶圆)。截至2019年底,排名前五位的公司的产能合计占全球晶圆总产能的53%。相比之下,2009 ...

搞定千亿参数,训练时间只用1/3,微软全新工具催生超级NLP模型

GPU 显存一直是训练先进深度学习模型的最大瓶颈——大规模训练经常会碰到模型参数太多,显存无法容纳的情况。最近,微软提出的全新方法 DeepSpeed 将每个节点的批处理大小增大了 4 倍,而训练时间减少到原来的 1/3, ...

Deepfake阴影下的“人脸识别时代”全面到来!我们可能遭遇什么危险?

坐飞机、高铁人脸验证,住酒店人脸登记,在超市买东西人脸支付,随便进出哪个小区都靠刷脸开门。而人们似乎也快速地接受了这种新鲜、便捷的新生事物,就连小探80岁的外公外婆也颇为兴奋的拉着我去小区门口体验“刷脸 ...

趣谈芯片设计十六年发家史

酒,凡人喝是要醉的。仙人喝是会造世的。李白一斗诗百篇,长安市上酒家眠。张旭三杯草圣传,挥毫落纸如云烟。最早的集成电路设计师也是一个酒鬼,一个爱竖中指的酒鬼,一个不给酒喝就不作报告的酒鬼——Robert Widla ...

1854年,一位伦敦医生如何靠一己之力找到霍乱传染源?

这是一个关于人类勇气和理性的传奇故事,而英雄的故事总是如此的相似。Jon Snow(琼恩·雪诺)在热门美剧《权力的游戏》中是一位带领守夜人大战异鬼大军的战士。而在19世纪的伦敦,同样也有一位如守夜人一般守护伦敦 ...

Focal Loss--从直觉到实现

做机器学习分类问题,难免遇到Biased-Data-Problem, 例如CV的目标检测问题: 绝大多数检测框里都是 backgroud,NLP的异常文本检测: 绝大多数文本都是 normal。对此,以下套路可以缓解:升/降采样, 或者调整样本权重, ...

AT&T的百年沉浮

1876年,亚历山大·贝尔在美国成功申请了电话的专利,成为举世闻名的“电话之父”。次年,他就注册成立了自己的公司,并以自己的名字命名,叫做贝尔电话公司。凭借专利垄断优势,公司的业务发展非常迅速,登门造访的 ...

我们为什么需要图数据库?

当前,互联网数据呈指数级增长,但是以更快速度增加的是数据之间的关系。企业的 CIO 和 CTO 不仅要管理大量数据,还要从现有的数据中挖掘商业价值,在这种情况下处理数据之间的关系比处理单个数据更为重要。传统的关 ...

Nature 重磅:潘建伟团队实现数十公里远程量子储存器纠缠

北京时间 2 月 13 日凌晨,最新一期 Nature 发表了中国科学技术大学潘建伟团队的最新重磅成果:两个量子存储器通过光纤跨越数十公里实现远程纠缠。在这项最新研究中,潘建伟、包小辉及其同事利用一种名为腔增强的量 ...

实操:从Oracle到GaussDB的数据迁移

最近某省运营商O域核心业务系统的数据库计划从Oracle迁移至GaussDB,数据库服务器也从SUN小型机转到华为TaishanARM服务器。本人有幸参与其中,主要负责Oracle到GaussDB的数据迁移环节。数据迁移前期使用Datasync工具 ...

5000 字带你快速入门 Apache Kylin

Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体(Cube)预计算技术,可以将某些场景下的大数据 SQL 查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度。Apache Kylin 也 ...

“神药”克星:随机双盲大样本

新型肺炎疫情牵动人心,中西医之争又起。各类“神药”也开始蠢蠢欲动,各自夸口救了多少武汉病人。这个朋友圈的“割席话题”,这么多年的争议仍然没有结果。质疑中医的人以理工科人为主,他们大多具有现代科学知识, ...

Kafka的生产者优秀架构设计

Kafka 是一个高吞吐量的分布式的发布订阅消息系统,在全世界都很流行,在大数据项目里面使用尤其频繁。笔者看过多个大数据开源产品的源码,感觉 Kafka 的源码是其中质量比较上乘的一个,这得益于作者高超的编码水平 ...

跟Oracle说拜拜!独家揭秘东南亚电商平台 Prestomall 去 Oracle 的全过程

很多人都说:“现在的东南亚就像是坐着时光机,回到了 90 年代的中国市场。”的确,在互联网领域,我们经常能在东南亚看到中国互联网发展历程的影子。本文我们将详细介绍一下东南亚企业的去 Oracle 经历,揭秘中国经 ...

9位投资人支招:疫情之下中小企业生存指南

面对突如其来的疫情,一些行业不得不按下暂停键。影视行业,剧组暂停拍摄,综艺节目暂停录制,影院春节档票房颗粒无收;全国零售和餐饮企业销售额大幅受损;全国旅游人数同期锐减,交通运输行业出行人数减少约七成; ...