scala HTML 파싱1 [Scala/Spark] XML 파싱 에러 (SAXParseException) 해결하고 HTML 파싱해보기 Scala로 HTML형태의 XML 파일을 파싱하는 작업을 하고 있었다. 정확히는 Spark를 활용하여 XML Raw data를 파싱하여 값을 추출하는 작업이다. XML의 attribute값 또는 value를 추출하여 DataFrame으로 변환해야되므로 반드시 파싱을 해야만 했다. 일반적인 XML 형태라면 Databricks의 spark-xml 모듈을 사용하여 손쉽게 DataFrame으로 변환하면 되지만 다루는 데이터는 일반적이지 않은 XML이다. 문제를 일으키는 XML파일은 JATS (Journal Article Tag Suite) 형식이다. JATS는 논문이나 저널의 메타데이터를 공통된 포맷을 제공한다. 이 형식은 어느정도 정형화된 포맷을 유지하지만 일부 HTML Entity가 섞여있기 때문에 평범하게.. 2020. 5. 28. 이전 1 다음