3.3 Data for scaffold tasks

 

(1) Citation worthiness sampling

  - 인용된 문장만 positive labels로 분류

 

(2)인용 mark 제거

 (e.g., [1]) or name-year combinations (e.g, Lee et al (2012)) 와 같은 인용마크들을 제거

 

(3) Section title mapping

ACL-ARC데이터와 시멘틱스칼라 데이터 각각의 인용문과 정규화된 Section title을 매핑

normalized section titles: “introduction”, “related work”, “method”, “experiments”, “conclusion”

매핑되지 않은 문장들은 삭제


- scaffold tasks 결과

  - ACL-ARC

  Section title scaffold - 47K, Citation worthiness 50K

  - SciCite

  Section title scaffold - 91K, Citation worthiness 73K

 

 

 

4 Experiments

  4.1 Implementation

  - AllenNLP 라이브러리를 사용하여 구현 (Gardner et al., 2018).
  - Word representations 위해 100차원 GloVe vectors (Pennington et al., 2014) 사용함.

  - Contextual representation을 위해 Output size 1,024차원의 ELMo vector를 사용 (released by Peters et al. (2018))

  - Single-layer BiLSTM 사용(hidden dimension size = 50)

  - 각 Scaffold tasks는 20 hidden nodes와 activation function "ReLU" (Nair and Hinton, 2010), Dropout 0.2 (Srivastava et al., 2014)

 

  - hyperparameter

 

  - ACL-ARC

    Citation worthiness saffold: λ2=0.08, λ3=0

    Ssection title scaffold: λ3=0.09, λ2=0

    Both scaffolds: λ2=0.1, λ3=0.05. Batch size: 8

  - SciCite

    0.0 to 0.3 grid search, Batch size: 32

 

실험에 사용된 Code 와 Data, Model은 SciCite Github 참고

 

4.3 Results - SciCite와 ACL-ARC F1-score 비교

 

4.3 Results - SciCite와 ACL-ARC 의도분류 성능비교

  - 문장(instances)이 많은 카테고리의 경우 일반적으로 결과가 좋게 나타남(ex ACL의 Background vs Future Work)

  - 학습대상문장이 적을경우 최적매개변수(optimal paramete)를 학습하기 어렵기 때문임.

 

 

4.4 Analysis

성능이 가장 뛰어난 두 모델, ‘BiLSTM-Attn w/ ELMo + both scaffolds’ 와 ‘BiLSTMAttn w/ ELMO’(baseline)의 attention weight 비교함.(Fig.3)

  - (Fig. 3a)의 실제 레이블은 Future Work, 단어 "future" 주변에 더 많은 가중치를 부여함,

    baseline 모델은 "compare"에 더 많은 가중치를 부여하여 Compare 레이블로 잘못 예측함.

 

  - (Fig. 3b)에서 실제 레이블은 Result Comparison, 비교의 의미 "than"에 가중치 부여

    baseline모델은 “analyzed seprately” 에 가중치를 부여하여 "Background"로 잘못분류함.

 

 

 

- Error analysis

  - (Fig.4) classification error를 나타냄, 오류는 주로 Background 카테고리에서 발생.

- 표7의 첫 문장은  “model in (citation)” and “ILP formulation from (citation)” 부분때문에 노이즈가 발생하여 오분류됨.

(Motivation 분류의 학습데이터 수가 적기 때문일 수 있음)

- 네번째 문장은 분류가 애매함.

 

- 이러한 유형의 오류를 방지 할 수있는 방법은 학습을 위한 input 데이터를 추가 하거나

모델링 시에 extended surrounding context를 적용하는 것임

 

위 오류 개선을 위해 BiLSTM을 사용하여 extended surrounding context 인코딩을 실시하고 main citation context vector (z)와 연결했지만, 전체적으로 노이즈가 늘어나 성능이 크게 저하됨을 알 수 있음.

 

 

5 Related Work

  기존에 인용의도 분류에 관한 연구들 (Stevens and Giuliano, 1965; Moravcsik and Murugesan, 1975; Garzone and Mercer, 2000; White, 2004; Ahmed et al., 2004; Teufel et al. , 2006; Agarwal et al., 2010; Dong and Schafer ¨, 2011).은 인용의도 분류의 범주가 너무 세분화 되어있고, 어떤 분류범주는 거의 없는경우도 많아 과학문헌의 자동분석에는 유용하지 않다.

 

이러한 문제를 해결하기 위해 Jurgens et al. (2018)은 인용의도에 대한 6가지 분류범주를 제안했다

본 논문에서는 (1)Jurgens가 제안한 분류범주와 (2)우리가 제안한 좀더 "범용적인" 분류범주 두가지를 비교했다.

그 결과, domainspecific한 기존의 Scheme들과 달리, 우리의 Scheme은 일반적인 과학적 담론에 적합함을 확인할 수 있었다.

 

자동인용의도분류 초기에는 규칙기반 위주의 연구가 이뤄짐(Garzone and Mercer, 2000; Pham and Hoffmann, 2003))

이후 다양한 연구들이 진행되었으며, 우리는 데이터 기반의 방법으로 인용의도를 분류할 수 있음을 확인했다.

이를 “scaffold”라는 용어를 차용하여 인용의도 분류를 위한 novel scaffold neural model 을 제안한다

 

 

6 Conclusions and future work

이 연구에서 우리는 과학적 담론과 관련된 구조적 속성이 인용 의도 분류를 알리는 데 효과적으로 사용될 수 있음을 보여줍니다.

 

 우리가 제안한 모델은 기존 ACL-ARC 데이터 세트에서 최고점(F1-score 67.9)으로, 기존연구의 점수보다 13.3점 높았다.

 

새로운 대규모 데이터셋인 SciCite에서도 우리 모델의 성능은 더 우수하며, scientific domains에 범용적으로 활용할 수 있다.

본 논문의 최종제출시점에 Beltagy et al (2019)은 과학 텍스트 pre-trained model인 BERT contextualized representation model(Devlin et al., 2018)이 SciCite데이터셋에서 더 좋은 결과를 얻을 수 있음을 보여주었다

+ Recent posts