informer: beyond efficient transformer for long sequence

39

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting Authors: Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang Jianxin Li, Xiong Hui, Wancai Zhang

Upload: others

Post on 03-Oct-2021

2 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Informer: Beyond Efficient Transformer for Long Sequence

Informer: Beyond Efficient Transformer for Long Sequence

Time-Series ForecastingAuthors: Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai

ZhangJianxin Li, Xiong Hui, Wancai Zhang

Page 2: Informer: Beyond Efficient Transformer for Long Sequence

CONTENTBackgroundMotivation: why self-attention?Methods: the details of InformerExperimentsSummary

Page 3: Informer: Beyond Efficient Transformer for Long Sequence

What’s the main topic of this paper?

Page 4: Informer: Beyond Efficient Transformer for Long Sequence

An Example

Page 5: Informer: Beyond Efficient Transformer for Long Sequence

Long Sequence Predictions

Page 6: Informer: Beyond Efficient Transformer for Long Sequence

Another Similar Problem …

Page 7: Informer: Beyond Efficient Transformer for Long Sequence

The previous research on LSIL▌ Literature Review of Long Sequence Input Learning Problem (LSIL)

We capture the long term dependencies with gradient descent, however, is difficult because the gradients computed by BPTT tend to vanish or explode (Hochreiter et al., 2001).

BPTT

Gradient Vanishing

Gradient ExplodingIt become worse if there are more than 128 BPTT

steps.

Page 8: Informer: Beyond Efficient Transformer for Long Sequence

The previous research on LSIL

Page 9: Informer: Beyond Efficient Transformer for Long Sequence

The research gap between LSTF and LSIL problem

Page 10: Informer: Beyond Efficient Transformer for Long Sequence

CONTENTBackgroundMotivation: why self-attention?Methods: the details of InformerExperimentsSummary

Page 11: Informer: Beyond Efficient Transformer for Long Sequence

How do human beings tackle the forecasting problem?

Page 12: Informer: Beyond Efficient Transformer for Long Sequence

The intuitive introduction of attention

Page 13: Informer: Beyond Efficient Transformer for Long Sequence

The self-attention in NLP/CV field

Page 14: Informer: Beyond Efficient Transformer for Long Sequence

The previous research on efficient self-attention

Page 15: Informer: Beyond Efficient Transformer for Long Sequence

If we apply the Transformer in LSTF problem …

Page 16: Informer: Beyond Efficient Transformer for Long Sequence

CONTENTBackgroundMotivation: why self-attention?Methods: the details of InformerExperimentsSummary

Page 17: Informer: Beyond Efficient Transformer for Long Sequence

Challenges

Page 18: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 19: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 20: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 21: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 22: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 23: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 1: Self-attention Mechanism

Page 24: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 2: Self-attention Distilling Operation

Page 25: Informer: Beyond Efficient Transformer for Long Sequence

Challenge 3: Generative Style Decoder

Page 26: Informer: Beyond Efficient Transformer for Long Sequence

The overall architecture of the proposed Informer model

Page 27: Informer: Beyond Efficient Transformer for Long Sequence

CONTENTBackgroundMotivation: why self-attention?Methods: the details of InformerExperimentsSummary

Page 28: Informer: Beyond Efficient Transformer for Long Sequence

Experiments settings

Page 29: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 30: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 31: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 32: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 33: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 34: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 35: Informer: Beyond Efficient Transformer for Long Sequence

Experiments results

Page 36: Informer: Beyond Efficient Transformer for Long Sequence

CONTENTBackgroundMotivation: why self-attention?Methods: the details of InformerExperimentsSummary

Page 37: Informer: Beyond Efficient Transformer for Long Sequence

Things to take

Page 38: Informer: Beyond Efficient Transformer for Long Sequence

We build a benchmark for the long sequence problem

Page 39: Informer: Beyond Efficient Transformer for Long Sequence

THANKS2020.12.19

Transformer Protection - GE Grid Solutions · 2009. 10. 13. · Transformer Protection System. Transformer Protection. . Functional Block Diagram. Negative Sequence Overcurrent. For

Informer Magazine

Informer: Beyond Efﬁcient Transformer for Long Sequence

Informer 2.10.11

“The InForMer” “The InForMer” IFM, Inc.’s Newsletterifmenviro.com/pdf/Spring_2014_Newsletter.pdfIndustrial Fluid Management, Inc. April 2014 “The InForMer” “The InForMer”

Defence Informer

protection and control - Pangonilo considerations which are, in fact, contradictory: ... (zero sequence generator) using a coil or a special transformer with a very low zero sequence

Informer 9.30.10

Isleham Informerisleham-village.co.uk/Informer/Issues/2009/Informer...please phone 01638 780023. ADVERTISING in the INFORMER If you would like to advertise in the Isleham Informer

INSTRUMENT TRANSFORMERS CUSTOM DESIGNS - alce … filecurrent transformer for circuit breaker zero sequence transformer outdoor transformer instrument transformers custom designs

Informer 2.17.11

The Evolved Transformer - arxiv.org · The Evolved Transformer state-of-the-art sequence models. For example, many high performance convolutional models have been de-signed, such

Informer 12.9.10

Informer February

Novel transformer networks for improved sequence labeling ... · are evaluated by the model, hidden Markov models evaluate the full genome sequence. However, due to the limited capacity

Informer November

1.SEQUENCE IMPEDANCE OF 3-PHASE TRANSFORMERlendi.org/EEE/labmanuals/IV/POWER SYSTEMS LAB MANUAL.pdf · 1.SEQUENCE IMPEDANCE OF 3-PHASE TRANSFORMER Aim: To determine Sequence Impedance

Architecture Informer

The Negative Branch Impedance in the Transformer Sequence ... · PDF fileThe Negative Branch Impedance in . the Transformer Sequence Circuit Model . Elmo Price ... Zero sequence circuit

Tourism Informer

[email protected], [email protected], [email protected] … · 2019-10-24 · CORRECTION OF AUTOMATIC SPEECH RECOGNITION WITH TRANSFORMER SEQUENCE-TO-SEQUENCE MODEL

March Informer Informer

September Informer

Informer 12.2.10

Indigo Informer

Investa Informer

Behavior Sequence Transformer for E-commerce

FAULT DIAGNOSIS AND DETECTION IN POWER ... · Web viewFault sequence Generator sub-sequence Generator unit 100MVA- Speed and voltage control sub system Step up transformer subsystem

Attention informer

TDLS Code Review Transformer...Why Transformer In a way, it’s attention to the extreme Achieves SotA’s in sequence-related tasks BERT TransferTransfo (convo dialog generation)

Behavior Sequence Transformer for E-commerce … · 2019-05-17 · Behavior Sequence Transformer for E-commerce Recommendation in Alibaba Qiwei Chen, Huan Zhao∗ Wei Li, Pipei Huang,