그대로 인식 할 수없는 또는 잘못된 HTML을 재생하면서
또한, 서버 측과 클라이언트 측 태그를 편집 할 수 있습니다.
또한 높은 수준의 HTML 양식 조작 기능을 제공합니다
특징 :.
의 나머지 부분의 분석을 방해하지 않는 형식이 잘못된 HTML의 존재 으로 & quot 사용하기 위해 라이브러리에 이상적이다 문서, 실제 & quot; 다른 파서를 질식 HTML.
ASP, JSP, PSP, PHP와 메이슨 서버 태그는 명시 적으로 파서에 의해 인식됩니다. 이것은 정상 HTML 여전히 제대로 동적 요소 속성 설정시, 예를 들어 일반적인 그들 내부 서버 태그, 있더라도 해석되는 것을 의미한다.
이벤트 반복자를 사용하여 대용량 파일의 메모리를 효율적으로 처리 할 수있게됩니다 StreamedSource 클래스를 사용하여 새로운 스트림을 기반으로 구문 분석 옵션을 선택합니다. 이것은 본질적으로 HTML과 비 검증 XML뿐만 아니라 다른 스트리밍 파서에서 사용할 수없는 몇 개의 다른 기능을 처리 할 수있는 능력을 가진 경우 StAX 대안이다.
표준 형태로 이벤트 나 트리 기반 파서도, 오히려 단순한 텍스트 검색, 효율적인 태그 인식, 태그 위치 캐시의 조합을 사용한다. 전체 소스 문서의 텍스트는 제 1 메모리에로드하고 단지 중요한 세그먼트는 각각의 검색 동작의 관련 문자 검색.
문서의 작은 섹션을 구문 분석하거나 수정해야 할 경우 같은 DOM과 같은 트리 기반의 파서에 비해 메모리 및 리소스 요구 사항은 훨씬 더 할 수 있습니다. 잘못되거나 형식이 잘못된 HTML 쉽게 위에서 아래로 문서의 모든 노드를 식별해야합니다 트리 기반의 파서는 달리, 무시할 수 있습니다.
이러한 SAX 같은 이벤트 기반 파서에 비해, 인터페이스는 더 높은 레벨에서 더 직관적이고, 필요한 경우 문서 요소 계층의 트리 표현을 용이하게 생성된다.
모든 분석 세그먼트 소스 문서의 시작 및 끝 위치들은 트리로부터 전체 문서를 재구성 할 필요없이 문서의 선택된 세그먼트들의 수정을 가능하게 접근 할 수있다.
소스 문서의 각 위치의 행과 열의 수는 쉽게 접근 할 수있다.
또는 데이터 디스플레이 모드를 읽기 전용으로 추출 및 초기 값의 인구 및 변환을 포함하여 HTML 양식 컨트롤의 분석 및 조작을위한 간단하지만 포괄적 인 인터페이스를 제공합니다. 폼 컨트롤의 분석은 또한 수신 된 데이터 형태로 저장하고, 적절한 방식으로 제공 될 수있다.
내장 기능은 아파치 루씬과 같은 텍스트 검색 엔진에 공급하기에 적합한 HTML 태그의 모든 텍스트를 추출 할 수 있습니다.
내장 기능을 간단한 텍스트 형식으로 HTML 태그를 렌더링 할 수 있습니다.
내장 기능은 문서 요소 계층 구조에서의 깊이에 따라 요소를 들여 쓰기 HTML 소스 코드를 포맷합니다. (온라인 데모 여기를 클릭)
내장 콤팩트 HTML 소스 코드 기능 불필요한 여백을 제거하여.
커스텀 태그 유형을 쉽게 정의 파서 인식에 등록 할 수있다.
이 릴리스의 새로운 기능 :
추가 자료 (파일) 생성자.
추가 OutputDocument.getSegment () 메소드.
추가 OutputDocument.remove는 방법 (INT INT의 끝, 시작).
추가 Renderer.setHRLineLength () 메소드.
추가 RenderToText.jsp의 웹 애플리케이션 샘플.
추가 Segment.getRowColumnVector () 메소드.
부호화 검출 이제 예비 부호화 호환 코드 단위 크기를 갖는 메타 태그에 지정된 공통 인코딩을 무시한다.
버그 수정 :
버전 3.1의 새로운 기능 :
Segment.getAllStartTags에 무한 루프 ()
Segment.getAllElements에 무한 루프 ()
Segment.getFirst * 방법은 경계 세그먼트 외부 세그먼트를 반환했습니다.
Segment.getAllElements 방법은 어떤 상황에서 모든 밀폐 된 요소를 반환하지 않았습니다.
Segment.getAllElements 방법에 고정 된 설명서 오류.
추가 StreamedSource 클래스입니다.
기존 프로그램의 동작에 영향을 줄 수있는 변화 :
클래스에서 변경된 ParseText 인터페이스합니다.
Segment.getNodeIterator ()는 이제 별도의 노드로 문자 참조를 반환합니다.
속성 값 정규 표현식을 기반으로 추가 된 태그 검색 방법.
HTML 클래스 속성을 기반으로 태그 검색 방법을 추가했습니다.
추가 정적 Source.LegacyNodeIteratorCompatabilityMode 속성은 일시적으로 이전 버전의에 Segment.getNodeIterator () 기능을 복원합니다.
ParseText에서 제거 된 문자는 [] 기반 검색 방법.
추가 CharacterReference.appendCharTo (Appendable에) 방법.
추가 OutputDocument (세그먼트) 생성자.
StreamedSourceCopy 샘플 프로그램을 추가했습니다.
댓글을 찾을 수 없습니다