Jericho HTML Parser

소프트웨어 스크린 샷:
Jericho HTML Parser
소프트웨어 정보:
버전: 3.3
업로드 날짜: 20 Feb 15
개발자: Martin Jericho
라이센스: 무료
인기: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML 파서는 자바로 작성 오픈 소스, 간단하면서도 강력한 라이브러리입니다.
그것은 프로그래머가 조작하고 HTML 문서의 일부를 분석 할 수 있습니다.
Jerich HTML 파서는 높은 수준의 HTML 양식 조작 기능을 통합

이 릴리스의 새로운 기능입니다 무엇 : 있습니다.

버그 수정 :
[3581664]를 CharacterReference.decode는 () 숫자를 포함하는 엔티티를 디코딩하지 않습니다 - & frac12을; & frac14; & frac34; & sup1; & sup2; & sup3; & there4;
[3311286] SourceCompactor는 TEXTAREA을 존중하지 않습니다
Element 객체로 구성 할 때 [3,519,131] 렌더러 출력 잘못된.
[3538829] 잘못된 블록 경계에 글꼴 장식의 렌더러 출력.
인수가 대문자가 포함 된 경우 Segment.getAllStartTags (이름)과 Segment.getFirstElement (이름)이 작동하지 않습니다.
탈출 서버 태그 내부의 공통 서버 태그의 끝 구분 기호 거짓 탈출 태그의 끝 구분 기호로 인식되고 있습니다.
기존 프로그램의 품행에 영향을 미칠 수있는 변경 사항 :
[3427073] Segment.getStyleURISegments () 지금 스타일 요소의 내용뿐만 아니라 스타일 속성 값을 포함한다.
[3427927] Segment.getURIAttributes ()는 현재 객체와 애플릿 요소의 아카이브 속성이 포함되어 있습니다.
댓글은 더 이상 전체 순차 구문 분석시에 스크립트 요소 내부에서 인식되지 않습니다. 이전에 그들은 주요 브라우저하지만 현대적인 브라우저의 동작이 변경되었습니다과의 호환성을 인정했다.
ERROR로 정보의 모든 구문 분석 오류의 로그 수준 및에서이 정보에 WARN Source.fullSequentialParse () 자문 메시지의 로그 레벨을 변경. 이전의 수준은 구문 분석 오류를 표시하는 동안 권고 메시지를 숨기고에서 로깅 시스템을 방지 구문 분석 오류보다 자문 메시지를 높은 심각도를했다. 문자 인코딩 경고의 레벨을 WARN 변경되지 않습니다.
상대 URL이 렌더링되지 않도록 Renderer.renderHyperlinkURL (StartTag) 메서드의 동작을 변경.
이 URL 하이퍼 링크와 같은 경우 하이퍼 원소 함량이 어떤 HTTP 무시 렌더링되지 않도록 렌더러의 동작을 변경 : // 또는 접두어 / 접미어.
EndTag.tidy ()는 이제 닫기 괄호 앞에 공백을 제거합니다.
추가 자료 (파일) 생성자.
추가 OutputDocument.getSegment () 메소드.
추가 OutputDocument.remove는 방법 (INT INT 끝, 시작).
추가 Renderer.setHRLineLength () 메소드.
추가 RenderToText.jsp 웹 애플리케이션 샘플.
추가 Segment.getRowColumnVector () 메소드.
인코딩 이제 검출 부호화와 호환성 예비 코드 단위 크기를 갖는 메타 태그에 지정된 공통 인코딩을 무시한다.
다음 로거 API에 업그레이드 : SLF4J-API-1.7.2, log4j에-1.2.17

이 버그 수정 :

이 버전 3.1의 새로운 기능 :
[2793556] Segment.getAllStartTags에 무한 루프 ()
Segment.getAllElements에 무한 루프 ()
Segment.getFirst * 방법은 경계 세그먼트 외부 세그먼트를 반환했습니다.
Segment.getAllElements 방법은 어떤 상황에 포함 된 모든 요소를​​ 반환하지 않았습니다.
Segment.getAllElements 방법에 고정 설명서 오류.
추가 StreamedSource 클래스입니다.
기존 프로그램의 품행에 영향을 미칠 수있는 변경 사항 :
클래스 변경 ParseText 인터페이스합니다.
Segment.getNodeIterator ()는 이제 별도의 노드로 문자 참조를 반환합니다.
속성 값 정규 표현식에 따라 추가 태그 검색 방법.
HTML 클래스 속성을 기반으로 태그 검색 방법을 추가했습니다.
추가 정적 Source.LegacyNodeIteratorCompatabilityMode 속성은 일시적으로 이전 버전의에 Segment.getNodeIterator () 기능을 복원합니다.
ParseText에서 제거 된 문자는 [] 기반의 검색 방법.
추가 CharacterReference.appendCharTo (Appendable에) 방법.
추가 OutputDocument (세그먼트) 생성자.
StreamedSourceCopy 샘플 프로그램을 추가했습니다.

이 버그 수정 :

이 버전 3.0의 새로운 기능 :
유니 보조 문자를 나타내는 문자 참조는 UTF-16 코드 단위 쌍으로 정확하게 디코딩되지 않았다.
수요 모드에 대한 구문 분석에서 호출하는 경우 [2,188,446] Element.getDepth ()와 Element.getParentElement ()는 잘못된 결과를 반환했습니다.
댓글은 이제 내부 & LT 인식; 스크립트한다 요소.
이전 버전과 호환되지 않는 API의 변경 사항 :
변경된 패키지 이름은 net.htmlparser.jericho하기
속성 값은 현재 문자열이 아닌 CharSequence를해야합니다.
제거 된 모든 사용되지 않는 방법 / 이전 버전의 클래스를 제공합니다.
모든 모든 태그 검색 방법을 통해 일관된 명명 규칙을 적용하기 위해 * 얻을 방법에 찬성되지 * 방법을 찾을 수 있습니다.
태그, 요소 및 HTMLElements 클래스는 더 이상 HTMLElementName 인터페이스를 구현하지 않습니다. (대신 정적 가져 오기를 사용)
모든 컬렉션은 지금 stongly 제네릭을 사용하여 입력했습니다.
열거 형으로 변경 FormControlOutputStyle 클래스입니다.
변경된 FormControlType 클래스는 열거 형.
추가 CharStreamSource.appendTo (Appendable에) 방법.
추가 Source.iterator () 메소드.
소스는 지금의 Iterable을 구현한다.
내부적으로는 더 나은 성능을 모두 StringBuilder를 사용합니다.
추가 Source.getNextStartTag (StartTagType) 방법.
추가 Source.getNextEndTag (EndTagType) 방법.
추가 Source.getPreviousStartTag (StartTagType) 방법.
추가 Source.getPreviousEndTag (EndTagType) 방법.
추가 Segment.getAllStartTags (StartTagType) 방법.
모든 Segment.getFirst * 방법을 추가했습니다.
추가 Renderer.renderHyperlinkURL (StartTag) 방법.
추가 HTMLSanitiser 샘플 프로그램.
SLF4J-API-1.5.6로 업그레이드

이 요구 사항 :

이 J2SE (Java 2 Standard Edition)의 런타임 환경

유사한 소프트웨어

markup.py
markup.py

14 Apr 15

csv2xml
csv2xml

2 Jun 15

WP2LaTeX
WP2LaTeX

20 Feb 15

개발자의 기타 소프트웨어 Martin Jericho

코멘트 Jericho HTML Parser

댓글을 찾을 수 없습니다
코멘트를 추가
이미지를 켜십시오!